$
מוסף 16.08.2012

האלגוריתם של קטנגו: ממיין חברים מהקולג', קרובים ופילנתרופים

פרופ' שוהם מסביר את חשיבות האלגוריתם שפיתחה קטנגו: "המכונה צריכה לספק המלצות על סמך ניסיון לזהות את הקשרים"

אסף גלעד 09:5416.08.12

"אחד המאפיינים הבולטים של הרשתות החברתיות הוא ההמלצה על אנשים אחרים", מסביר פרופ' שוהם את חשיבות האלגוריתם שפיתחה קטנגו. "בעגה המקצועית אנחנו מכנים זאת YMK, אנשים שאולי אתה מכיר (You May Know), ו־YML, אנשים שאולי תחבב (You May Like). ניקח לדוגמה את מאפיין 'האנשים שאולי

אתה מכיר'. אנשים בסופו של דבר אוהבים להיות מקושרים לאנשים שהם מרגישים קרבה או זיקה אליהם, ואותה זיקה מגיעה בכמה 'טעמים': קשר אינטימי, קשר משפחתי, קשרי עבודה או עניין משותף. עכשיו מגיע הרגע שבו המכונה צריכה לספק לך המלצות על סמך ניסיון לזהות את כל אלה. וכאן נכנסים האלגוריתמים המתמטיים לתמונה.

 

"נניח שאודי מקושר לבני, גדי ודני. עכשיו נניח שאודי אינו מקושר לאדם חמישי בשם ירון, אבל בני, גדי ודני דווקא כן מקושרים אליו. לכן זה יהיה רעיון טוב להמליץ לאודי להתקשר עם ירון. אבל מתברר שזה לא תמיד מתאים. זה יכול לעבוד במקרה שכולם היו פעם חלק מקבוצת כדורסל אחת, למשל, אבל מה אם כולם מלבד ירון משחקים קלפים יחד, בעוד שכולם חוץ מאודי למדו באותה אוניברסיטה? במקרה הזה ירון הוא לא ממש מועמד טוב להמליץ לאודי. האם האלגוריתם יכול לגלות את זה? לדעתי כן. אבל להבין עד כמה כל קבוצה היא עקבית בגלל מאפיין משותף כזה או אחר היא משימה מתמטית קשה.

 

"בקטנגו ניסינו לתת שמות לקבוצות שהאלגוריתם מצא עצמאית, ולפעמים זה עבד: ראינו שהאלגוריתם בחר בעצמו את קבוצת החברים מהקולג' שעוסקים באמנות, או את קבוצת המשפחה מצד אמא. אבל לפעמים זה היה קשה מאוד. קרה לי שהאלגוריתם מצא קבוצה שלא הבנתי את מהותה. רק אחרי התבוננות עמוקה התברר לי שמדובר בקבוצה הגיונית מאוד: פילנתרופים יהודים מקליפורניה. אין מצב שהאלגוריתם ידע שזה היה הקשר, ואת הכינוי לקבוצה נאלצתי להדביק בעצמי, אבל הוא הפעיל היגיון לא רע. תמיד צריך להעריך את היכולות של האלגוריתמים אבל גם לזכור שהם מוגבלים, ובשלב מסוים ההבנה האנושית חייבת להיכנס לתמונה.

 

"צריך לזכור שגם מהירות החישוב היא גורם מכריע. אנחנו רוצים ליצור אלגוריתמים מועילים שיעמדו בזמנים, ולעתים קורה שצריך להתפשר על איכות האלגוריתם בשביל מהירות העיבוד. מציאת קשרים בפייסבוק מתבססת על לייקים בדפי מעריצים שונים. בגוגל פלוס זה מתבסס על המעגלים החברתיים. ויש אלמנטים נוספים שמסייעים בגילוי קשרים בין אנשים: תיוג יחד בתמונות, תגובות אחד לשני - אלה רמזים לסוג הקשר ולעוצמתו. כשהתחלנו לעבוד על המעגלים גילינו שהם מדויקים בכ־70%. השגת רמת דיוק גבוהה יותר האטה את מהירות העיבוד בכמה דקות. כיום רמת הדיוק הגבוהה ביותר שאפשר להגיע אליה היא 95% ב־15 שניות. רמת דיוק גבוהה יותר דורשת הרבה יותר זמן, ולכן צריך לדעת על מה לוותר".

 

בטל שלח
    לכל התגובות
    x