זיהוי דיבור - הדור הבא

ההצלחה של מחשב הטריוויה ווטסון, ויישום הקינקט שמאפשר שליטה בטלוויזיה בעזרת הנחיות קוליות, עושים שירות מצוין לענף. אבל מתי התקשורת בין אדם למכונה תהיה כמו זו שבין אדם לאדם?

עמי מויאל 11:51 16.03.11

תגיות:

העימות הטלוויזיוני בשעשועון הטריוויה האמריקאי, Jeopardy, הסתיים בניצחון סוחף לטובת המחשב ווטסון של חברת IBM, שהצליח לגבור על שני אלופי הטריוויה של התוכנית.

כוח מחשוב שכלל עשרות שרתים וזיכרון השקול לתוכן של כמיליון ספרים, עמד לשירותו של ווטסון ולאחר שנות מחקר רבות של צוות ב-IBM, המחשב הצליח לתקשר בזמן אמת עם הסביבה בשפה טבעית לחלוטין. ווטסון, שזיהה את השאלות וידע לשלוף את התשובות הנכונות בתוכנית הטלוויזיה, עשה שירות מצוין לחשיפת טכנולוגיות כמו: זיהוי דיבור, ניתוח שפה טבעית והמרת דיבור לטקסט.

לאחרונה חשפה חברת מיקרוסופט את היישום הבא של קינקט - שליטה על תכנים בטלוויזיה בעזרת נפנוף יד והנחיות קוליות. מדובר בשימוש בזיהוי דיבור להבנת הנאמר על ידי המשתמש, בנוסף לזיהוי תנועות הגוף של המשתמש במוצרים ביתיים בשוק הצרכני.

אין ספק שווטסון וקינקט מגדילים את החשיפה והעניין בטכנולוגית זיהוי דיבור שעם השנים הולכת ומתפתחת. עם זאת, למרות עשרות שנות מחקר באקדמיה ובתעשייה, הטכנולוגיה עדיין אינה במצב שמאפשר תקשורת בין אדם למכונה המבוססת על דיבור כפי שמתנהלת תקשורת בין אדם לאדם.

אמנם טכנולוגיית זיהוי הדיבור עדיין לא הבשילה מספיק כדי לאפשר לאדם לשוחח עם מכונה כפי שהוא משוחח עם אדם אחר, אך ללא ספק, ניתן לזהות מספר מגמות בתחום תקשורת אדם-מכונה או רובוט המאפשרות שימוש בטכנולוגיית זיהוי דיבור כחלק מממשק רחב יותר.

מגמות שהופכות את התקשורת בין אדם למכונה לחכמה יותר

המגמה המעשית המובילה בשוק היא שימוש בטכנולוגיה הקיימת, בשירותים בהם אין צורך במילוני מילים גדולים וניתן לאפיינם על ידי אוסף מילים ומשפטים סופי. דוגמה לשירות פעיל כזה הינה מערכת להזמנת כרטיסי טיסה, שבה אוסף אמירות המשתמש הוגדר מראש למנוע זיהוי הדיבור, ויש לו יכולת להתמודד עם משפטים שונים המביעים את אותו מסר בעזרת טכנולוגית הבנת שפה טבעית.

במקביל ניתן לזהות מספר מגמות ההופכות את התקשורת אדם-מכונה בדיבור לחכמה וטבעית יותר. במסגרת זאת ניתן לראות: ממשקי אדם מכונה חכמים, מערכת דיאלוג בעלות יכולות ליזום שאלות, תקשורת מרובת אופנים הכוללת בנוסף לדיבור גם טקסט, מסכי מגע, זיהוי תנועות גוף ויכולת לימוד של המערכת תוך כדי פעולתה. מגמה נוספת הינה האנשה של המכונה שמדברת עם אינטונציה תוך הבעת רגשות וקבלת צורה וירטואלית (או רובוט ממש) עם פנים, קול, ותנועות שפתיים וגוף.

ההצלחה של ווטסון היא ללא ספק אבן דרך בטכנולוגיית זיהוי דיבור, עם זאת, המסע לפיתוח יכולות תקשורת בין אדם לרובוט כמו בין אדם לאדם נמצא עדיין בתחילתו.

במסגרת מסע זה צפויים לתחום זיהוי הדיבור אתגרים גדולים הכוללים: זיהוי של מילוני מילים גדולים מאוד על מנת לאפשר שיחה טבעית בכל נושא, זיהוי של דיבור בנוכחות של רעש ועיוותים כמו בסביבת רכב, זיהוי של שפות ודיאלקטים שונים תוך דגש מיוחד על זיהוי דוברים שאינם דוברים טבעיים של השפה כחלק מתהליך הגלובליזציה בה יתאפשר לכל אדם לדבר בשפתו או באופן בו הוא מדבר כל שפה אחרת שאינה שפת האם שלו.

פרופ' עמי מויאל הוא ראש המחלקה להנדסת חשמל ואלקטרוניקה וראש המרכז לעיבוד שפה באפקה - המכללה האקדמית להנדסה בת"א