$
חדשות טכנולוגיה

באמת תודה: הפיתוח הישראלי שמאתר את הסרקזם באינטרנט

איך אפשר לדעת אם יש בכותרת הזאת נימה סרקסטית? זה בדיוק מה שהאלגוריתם SASI, שפיתחו מדענים מהאוניברסיטה העברית, נועד לעשות. "טיים" דירגו את הפיתוח כאחת מ-50 המצאות השנה, והמפתחים מבטיחים: "בעתיד נתאים פרסומות לגולשים לפי מה שהם חשים"

עומר כביר 15:0705.12.10

"התוכנה החשובה ביותר שהומצאה מאז ומעולם" - כך כינה המגזין "טיים" את הפיתוח של פרופ' ארי רפופורט והדוקטורנט אורן צור מהאוניברסיטה העברית, בשיתוף החוקר דמטרי דווידוב ז"ל, כשכלל אותו ברשימת ההמצאות המוצלחות ביותר של 2010.

 

ואין דרך טובה יותר לגלות את הנימה המשועשעת שבה נכתבו הדברים מאשר שימוש בפיתוח עצמו: אלגוריתם לזיהוי סרקסטיות בטקסטים כתובים. המצאה זו כבר זכתה לשבחים בקהילה המדעית וגם להתעניינות מסחרית. "היא מצביעה על עתיד שבו המחשבים לא רק יאחסנו את המילים שלנו, הם גם יפרשו את הכוונה שלנו", נכתב ב"טיים".

אורן צור, אחד המפתחים. בניסוי שבחן 6 מיליון ציוצים, האלגוריתם סיווג בדיוק של 82% את הסרקסטיים שבהם אורן צור, אחד המפתחים. בניסוי שבחן 6 מיליון ציוצים, האלגוריתם סיווג בדיוק של 82% את הסרקסטיים שבהם צילום: אריאל בשור

 

לדברי רפופורט, הפיתוח הוא צעד חיוני בדרך לעולם פרסום ממוקד חדש לחלוטין. "אם שירותים מבוססי מיקום מאפשרים להציג פרסומות ממוקדות לאדם על סמך מיקומו, הפיתוח שלנו יאפשר להציג פרסומות לאנשים על סמך מה שהם מרגישים באותו הרגע", הוא אומר ל"כלכליסט".

 

המחשב לומד ציניות מבני אדם

 

הרעיון לפתח אלגוריתם שמזהה סרקזם התרוצץ במוחו של צור כמה שנים ("חצי בתור בדיחה וחצי בתור בדיחה מעניינת", הוא מספר) לפני שהחליט לנסות ולהפוך אותו למציאות. "לפני שנתיים פיתחנו אלגוריתם אחר שמדרג ביקורות באמזון", מוסיף צור. "באתר יש הרבה דירוגי ביקורות, ואם אתה רוצה לקנות מוצר או ספר לא תוכל לקרוא את כולן, וקשה למצוא את אלה שייתנו אינפורמציה רלבנטית, את המועילות ביותר.

 

"פיתחנו אלגוריתם שעושה את זה, וכשהרצנו אותו גילינו שיש אלמנט חזק מאוד של סרקזם בביקורות, שחלק מהאנשים אוהבים וחלק מהאנשים סבורים שהוא פוגע בביקורת. הבנו שאם אנחנו רוצים לעשות פרסנוליזציה, כדאי שנתייחס גם לסרקזם. זה נתן לנו את הפוש המעשי להתעסק עם זה".

 

התוצאה היתה אלגוריתם המכונה על ידי מפתחיו SASI, משחק מילים על המילה האנגלית Sassy (חצוף, בהקשר חיובי), וראשי תיבות מאולצים במקצת של Semi-Supervised Algorithm for Sarcasm Identification.

 

בניסויים שערכו החוקרים הגיע SASI לשיעורי הצלחה מרשימים. כך לדוגמה, בניסוי שבו נבחנו 6 מיליון ציוצים בטוויטר, הצליח האלגוריתם לזהות בדיוק של 82% אילו מהם סרקסטיים ואילו לא. הדיוק מעלה את השאלה המתבקשת: איך מצליח SASI במקום שבו בני אדם רבים נכשלים?

 

"האלגוריתם פועל בדרך שמכונה למידה חישובית", מסביר צור, "אנחנו לא נותנים לו הגדרה של סרקזם, כי אין ממש הגדרה כזו. אנחנו מראים למחשב אוסף משפטים, אומרים לו אילו מהם סרקסטיים ואילו לא, והאלגוריתם לומד לעשות הכללה. על סמך אותה הכללה, כשמראים לו משפט חדש הוא יודע אם הוא סרקסטי, אבל אם לך קשה לזהות, גם למחשב קשה".

 

איך אפשר למדוד את מידת הדיוק שלו? הרי לא עברתם ידנית על 6 מיליון ציוצים.

צור: "האלגוריתם עבר על כל הטוויטים וסיווג אותם כסרקסטיים או לא סרקסטיים. דגמנו כמה מאות מאלה שסומנו כסרקסטיים וכמה מאות מאלה שסומנו כלא סרקסטיים, והעמדנו אותם לשיפוט של בודקים חיצוניים באמצעות Mechnical Turk (יישום של אמזון המאפשר לגולשים לבצע משימות פשוטות תמורת סכומים פעוטים של כמה סנטים למשימה - ע"כ). כל טוויט הועמד לשיפוט של שלושה אנשים באופן בלתי תלוי, ואם שלושתם הסכימו עם האלגוריתם, סימן שהאלגוריתם צדק".

 

  איור: עומר הופמן

 

מבקרים חכמים משתמשים בסרקזם

 

אף ש־SASI מפותח בישראל על ידי חוקרים ישראלים, בשלב זה הוא אינו מותאם לזיהוי נימה סרקסטית בעברית. "עברית היא שפה בעייתית בגלל המורפולוגיה שלה", מסביר צור, "יש לה מורפולוגיה ייחודית של שפות שמיות, שמקשה על הניתוח. "דוגמה טובה היא המילה 'וכשפגשתיה'. המילה הזו היא כמעט משפט: 'וכאשר אני פגשתי אותה'".

 

לעומת זאת, אומר צור, בשפות כמו צרפתית, ספרדית או איטלקית, האלגוריתם אמור לפעול פחות או יותר באותו אופן. רפופורט מוסיף: "במעבדה אנחנו עושים ניסיונות כמעט על כל מאמר - באנגלית, סינית, רוסית, גרמנית ופורטוגזית. עברית היא השפה הכי קשה שיש לעיבוד ממוחשב".

 

איך אפשר להשתמש באלגוריתם באופן מסחרי?

צור: "היישום הראשון שקופץ לראש הוא לחברות שסוקרות מוצרים. עד היום, חברה שניסתה להבין מה אנשים ברשת חושבים על חברה, מוצר או אדם, היתה עושה ניתוח של הטקסט, ובדרך כלל משפטים סרקסטיים היו מטעים אותה, גורמים לתוצאה הפוכה. SASI מאפשר ניתוח מסודר יותר. אם אמרתי משהו חיובי על מישהו בסרקזם, אז האלגוריתם יידע להתייחס לזה כאמירה שלילית ולא כאמירה חיובית. חוץ מזה, קיבלנו הרבה פניות מאנשים בקשת האוטיסטית שאמרו שזה יכול לעזור להם".

 

רפופורט: "בימים אלה חברת היישום של האוניברסיטה העברית נמצאת במו"מ עם גורמים עסקיים שמתעניינים בטכנולוגיה הזו. יש מגוון רחב של יישומים בתחום שנקראים ניתוח סמנטי או כריית טקסטים, שנועדו להבין מה אנשים או קבוצות חושבים על טרנד, סרט, מוצר אחר או עניין פוליטי. זה תחום גדול מאוד בכלכלה העולמית".

 

"יותר מ־50% מהחלטות הקנייה ברשת נעשות אחרי שאנשים בודקים מה אנשים אחרים אמרו על המוצר. בשיווק וביחסי ציבור חשוב לדעת מה המגמות. האלגוריתם שלנו יכול להשתלב טוב בכל אחד מיישומים אלה, כיוון שיש עדויות לכך שדווקא האנשים היותר אינטליגנטים, אלה שהדעה שלהם אולי שווה יותר, גם נוטים יותר להתבטא בסרקסטיות. ואם לא מבינים שזה סרקזם, ההבנה של חוות הדעת שלהם מוטה".

 

"אנחנו מצליחים לזהות גם רגשות נוספים"

 

יש לפיתוח הזה גם השלכות על המחקר המדעי?

רפופורט: "בוודאי. מצד אחד אנחנו מנסים לפתח אלגוריתמים שיאפשרו למחשב לעבד שפה, ומצד שני - מנסים להבין איך אנשים מעבדים שפה במוח. הבעיה של ייצוג משמעויות במוח היא בעיה פתוחה. אף אחד בבלשנות, פילוסופיה או מדעי הקוגניציה לא יודע בדיוק. אבל אם מצליחים ליצור אלגוריתמים שמתמודדים עם בעיה קשה בהצלחה רבה, זה נותן רמז לשיטות שבהן נעשה שימוש במוח. במקרה הזה עבדנו עם סוג מסוים של תבניות והכללות, ואני באופן אישי מאמין שככה באמת המוח עובד".

 

צור: "המבחן האולטימטיבי של בינה מלאכותית מכונה מבחן טיורינג. המטרה שלו היא שאדם לא יזהה שהוא מדבר עם מחשב. אחת הדרכים להפיל מחשבים במבחן הזה היא להגיד דברים סרקסטיים או לרמוז לדברים שלא נאמרו במפורש בשיחה. אם יש לך טכנולוגיה שמזהה סרקזם זה תורם מאוד להבנה של השפה האנושית".

 

אילוסטרציה אילוסטרציה צילום: shutterstock

 

אפשר להתאים את האלגוריתם לזיהוי מצבי שיחה אחרים?

צור: "למעשה, כבר התאמנו אותו למגוון רחב של תחושות שמובעות בצורה לא מפורשת. אנחנו מצליחים לזהות יפה מתי אדם שכותב הוא משועמם, מפחד, שמח, או מצפה למשהו. אלה סוגי רגשות במובן יותר רחב".

 

אבל יש לזיהוי מגוון הרגשות האלה גם שימושיות עסקית?

רפופורט: "השמים הם הגבול. בינתיים אנחנו בשלב הבסיסי של יישומי מחשוב. מחשבים עושים דברים מהר יותר, אבל הם כמעט לא עושים דברים מסוג חדש. כשמחשבים יוכלו להבין מה אתה אומר, או להבין חלק ממה שאתה אומר ולתקשר איתך, זה יניף את האנושות לאפליקציות שאני לא יכול לדמיין כרגע. בטווח המיידי, העולם הגדול הוא עולם שיווקי. זה הדבר הכי חם באינטרנט. חלק מהמשחק הזה הוא להציג פרסומות לאנשים על סמך מה שהם מרגישים באותו הרגע. אם אתה משועמם או רעב, אלה שני דברים שונים לגמרי בשאלה לאיזו הצעה תסכים להיענות, ללכת לסרט או לאכול פיצה".

בטל שלח
    לכל התגובות
    x