• תפריט
חדשות טכנולוגיה

האיש שהמציא את זיהוי הדיבור: "הצלחת סירי מפתיעה אותי"

לארי רבינר החל לפתח את טכנולוגיית זיהוי הדיבור לפני 50 שנה, כשאפילו הבוס שלו חשב שמדובר בשרלטנות. בראיון ל"כלכליסט" הוא מספר איך הסתיר את עבודת הפיתוח, ומסביר שהממשק הקולי לא יחליף לחלוטין את התפריטים הרגילים

הראל עילם 11:1328.06.12
"בכל פעם שאני רואה את סירי עובדת, התגובה הראשונית שלי היא 'אני אהיה כל כך נבוך אם זה לא יעבוד'. אבל בכל פעם זה דווקא כן עובד, ואני רק נהיה שמח יותר ויותר. זאת תחושה של ניצחון, של הצדקה".

 

פרופ' לארי רבינר (69), אחד מאבות טכנולוגיית זיהוי דיבור, הטכנולוגיה שלימים הולידה פיתוחים כמו הסייעת הדיגיטלית סירי, עדיין לא מעכל את העובדה שהפיתוחים שעליהם חלם לפני 50 שנה נמצאים כבר כמעט בכל סמארטפון. רבינר נכנס לתחום בשנות השישים של המאה הקודמת, והיה אחד החלוצים הגדולים ביותר שלו בתקופה שהדבר עדיין נתפס כמדע בדיוני.

 

כמהנדס חשמל הוא עלה מתפקיד של חוקר זוטר עד לתפקיד של ראש מעבדות בל, אחת ממעבדות התקשורת הגדולות והחשובות בעולם. שם הוא עבד בין השאר על האלגוריתמים הראשונים של זיהוי דיבור, על המחשב הראשון שהיה מסוגל להבין בני אדם, ולבסוף על המוצר המסחרי הראשון המבוסס עליה - How May I Help You, מערכת המענה הקולי הראשונה בעולם שנמצאת בשימוש מאז 1992 ב־AT&T.

 

כיום רבינר הוא פרופסור פעיל במיוחד ומרצה באוניברסיטת קליפורניה הנחשבת. הוא פרסם מאות מאמרים בנושא זיהוי דיבור וחמישה ספרים הנחשבים לטקסטים החשובים ביותר בתחום. בימים אלה הוא עובד על הספר השישי, שנועד לסייע למהנדסים חדשים להבין את הדקויות של עולם זיהוי הדיבור.

 

בישראל, מעצמה לא קטנה בתחום, הוא כבר ביקר יותר מעשר פעמים, והוא מבטיח שבפעם הבאה הוא יביא גם את משפחתו. הביקור הנוכחי נערך לרגל כנס זיהוי דיבור של מכללת אפקה.

 

"לא ידענו מה אנחנו רוצים לפתח"

 

כשהוא מדבר על התחום שהוא יצר למעשה, רבינר משלב אופטימיות נצחית לצד פסימיות משמעותית, לנוכח האתגרים ההנדסיים העצומים הנדרשים כדי לשפר את היכולת של המחשב להבין את האדם. הסיבה העיקרית היא שהמחשב שומע דברים באופן שונה לחלוטין מהאוזן האנושית. "המחשב שומע הכל", אומר רבינר בראיון ל"כלכליסט". "האוזן האנושית התפתחה לשמוע תדרים מסוימים, אבל את המחשב אנחנו צריכים ללמד לא רק להבין מה אנחנו אומרים, אלא גם איך לשמוע".

 

בשנות השישים ידעתם שיידרשו 50 שנה עד שזיהוי דיבור באמת יתפוס?

"זה היה ברור מההתחלה שזה פרויקט עצום. לא ידענו כלום, לא ידענו אפילו מה אנחנו צריכים".

 

 

 

הדרך לסירי לא היתה קלה. רבינר מספר כי המאמצים הראשונים ליצירת מכונה שתבין בני אדם נתקלו בחומה של עוינות וספקנות מצד התעשייה. "לא לקחו את זה ברצינות, זה נשמע כמו מדע בדיוני", הוא אומר. "אפילו ב־AT&T. הבוס שלי, ראש מחלקת התקשורת בחברה גיא פירס, פרסם מאמר שבו הוא אומר שרק שרלטנים עובדים בתחום. היינו צריכים להגיד שאנחנו עובדים על דברים אחרים במעבדה ובשקט לעבוד על זיהוי דיבור. זה נמשך יותר מעשר שנים".

 

אתה חושב שהספקנות הזאת היתה מוצדקת?

"היו באמת כאלו שפיזרו הבטחות ללא כיסוי. אבל אני חושב שהם פשוט היו אופטימיים. הם חשבו בטעות שהם יוכלו לפתור את בעיית זיהוי הדיבור אם הם ילמדו איך בני אדם מקשיבים. זו טעות, כמו שפעם חשבו שנבין איך לעוף באמצעות התבוננות על ציפורים".

 

לך היה אי פעם ספק לגבי המחקר שלך?

"תמיד האמנתי שממשק קולי יעבוד. והרעיון הוא שאם תוציא משהו מספיק פשוט, אנשים פשוט ישתמשו בו. ב־1975 היתה לנו הצלחה מדהימה, מערכת להזמנת כרטיסים. ואז גם אנשי DARPA חזרו לתחום. אחרי זה אף אחד לא פקפק בנו יותר. אתה לא מתעלם מכזאת הצלחה".

 

איך התחלתם? מה היה הפרויקט הראשון שלכם?

"ניסינו ליצור מערכת מענה קולי. יבמ רצו ליצור מכשיר תמלול, דארפה רצו מערכת שליטה קולית לצי. בהתחלה הקמנו מערכת פשוטה שתדע לזהות 'כן' או 'לא'. מהר מאוד הבנו שאנשים אף פעם לא אומרים 'כן' או 'לא'. הם אומרים 'בטח', 'קדימה', 'רגע' ודברים אחרים. למדנו הרבה מאז. מערכות זיהוי דיבור נבנו מחדש שלוש פעמים, כאשר הפעם האחרונה היתה בשנות השמונים. מאז אנחנו רק משתפרים בהדרגה".

 

רבינר. "אמרנו שאנחנו עובדים על פרויקטים אחרים" רבינר. "אמרנו שאנחנו עובדים על פרויקטים אחרים"

 

מה הבעיות שלנו בדרך?

"רעשי רקע, דיאלקטים, מבטאים - וזאת רשימה חלקית. לא מספיק להבין את הצלילים, צריך גם להבין את השפה. וכאן יש לך בעיה. אני עובר על הטקסטים של הסטודנטים שלי וב־40 עמודים אין משפט אחד שהוא תקין באנגלית. אני משקיע שעות רק כדי לערוך אותם. בני אדם אולי יכולים להבין את זה, אבל ללמד את המחשב? זאת בעיה".

 

ואיך ההרגשה היום, אחרי 50 שנה של ספקנות, לראות משהו כמו סירי? אתה מופתע מהצלחתה?

"אני מופתע לחלוטין. אני בשוק, ואני מאושר עד הגג. אני מאוד גאה להיות לפחות חלק בזה. עבדנו על זה במשך עשורים. אני מרגיש שמה שעשיתי השפיע על אנשים, וזה משהו שכל מהנדס צריך להרגיש בחייו".

 

אתה חושב שממשק קולי יהפוך להיות הדרך העיקרית שבה אנחנו שולטים בטכנולוגיה?

"אנשים למדו להשתמש בממשקים האלו מאוד מהר. פעם, כשדברים לא עבדו, צרחת עליהם. עכשיו, כשזה לא עובד, אתה צוחק על זה. אבל זה לא הממשק האולטימטיבי. בעתיד עדיין יהיה ממשק מתאים לכל פונקציה. אתה תרצה להשתמש בקול לחיפוש אבל במגע לדברים כמו ניווט. הצורך להצביע זה הדבר הכי טבעי לבני אדם. זו הדרך שאנחנו מתקשרים ביומיום".

 

תרגום אוניברסלי? לא בשנים הקרובות

 

בכל טלפון ומחשב יש כבר מספיק כוח עיבוד לזיהוי דיבור. מה השלב הבא?

"יש מספיק כוח עיבוד לפי הדרך שאנחנו עושים דברים היום, אבל תמיד יש מקום לשיפור. אנשים מדברים היום על הקפיצה הגדולה הבאה, באמצעות שיפור התוצאות על ידי השוואה חיצונית. למשל, קשה להבדיל בין אדם שאומר 'מה' או 'נה'. אז אפשר לשלב מערכת חיצונית שתנתח את הטקסט ותגיד מה האדם כנראה מנסה להגיד. כמה זה יעזור? אי אפשר לדעת, זה עדיין לא באמת עובד".

 

מה אתה חושב שמחכה לנו בעתיד זיהוי הדיבור?

"אנשים חושבים שמה שהם רוצים זה סייעת דיגיטלית שתדע מראש מה הם רוצים. אבל זה לא אפשרי. זה לא מה שאתה רוצה, כי בני אדם הם לא צפויים. אתה כן רוצה שתהיה לה אישיות, אווטאר. שתרגיש שזה עדיין חברותי. אנשים לא רוצים להרגיש שהם כל יום עם הטלפון. בסופו של דבר אני ממש לא בטוח שאנחנו לפני פריצת דרך. אתה צריך לשאול את עצמך מה אתה יכול לעשות טוב יותר עם זיהוי דיבור".

 

אתה חושב שאי פעם נוכל לפתח מתרגם אוניברסלי, כמו ב"מסע בין כוכבים"?

"לא. אני אתן לך דוגמה: שתי חברות חותמות על חוזה. הכל כתוב, הכל מוסכם. ולמרות זאת, למה אנשים הולכים לבית משפט? כי שפה היא דו־משמעית. ואם בני אדם לא יכולים להסכים כשהכל כתוב בצורה משפטית, איך לא תהיה אי־בהירות כאשר מכונה מתרגמת? איך תוכל לתרגם משפה לשפה? יש אנשים בצבא שהיו נותנים את יד ימין שלהם בשביל מכונה כזאת, ועדיין אין אחת. אם יהיה כזה דבר, זה מאוד רחוק. 50-40 שנה מעכשיו. אבל אם אתה רוצה מערכת ייעודית, כמו למשל להתקשר ולדבר עם מחשב כדי לשנות את פרטי הטיסה שלך, זה כבר יעבוד בקרוב מאוד".

בטל שלח
    לכל התגובות