$
אינטרנט

פאוורסט השיקה מנוע חיפוש מבוסס שפה טבעית

מנוע החיפוש מבוסס על ניתוח תפקידן התחבירי של מילים ולא רק על מספר ההופעות שלהן בטקסט. בינתיים פועל מנוע החיפוש רק על אתר ויקיפדיה באנגלית

יוסי גורביץ 17:0112.05.08
חברת Powerset הכריזה היום (ב') על השקת מנוע חיפוש סמנטי, שבינתיים מכיל רק על תוכן אתר ויקיפדיה באנגלית. לאחרונה, על פי שמועות שהוכחשו על ידי שני הצדדים, הביעה מיקרוסופט התעניינות ברכישתה של פאוורסט.

 

מנוע החיפוש של פאוורסט מבוסס על ניתוח השפה הטבעית שבה נכתבו
דפי האינטרנט, בניגוד למנועי חיפוש אחרים, המבוססים על בעיקר על שיטות סטטיסטיות. תוצאות החיפוש בגוגל, למשל, מבוססות בעיקר על כמות ההופעות של מילות החיפוש באתר מסוים, ומספר הקישורים של אתרים אחרים אליו. עם זאת, מנוע החיפוש של גוגל לא מתייחס למילות החיפוש לפי משמעותן בשפה האנושית. חיפוש של המילה "כתב", למשל, יתקשה להבחין בין כתב עת, כתב של עיתון או הפועל 'כתב'.

 

פאוורסט, לטענת מפתחיה, עובדת על פי עקרון אחר לגמרי. מנוע החיפוש שלה מיועד לפירוק השפה לגורמיה; כשהוא רואה משפט, הוא מבחין בין נושא, פועל, מושא, שמות נרדפים ועוד. לאחר מכן, המנוע מנתח את בקשת החיפוש של המשתמש, ומוצא את התוצאות הרלוונטיות ביותר לפי קשרי משמעות בין מילות החיפוש.

 

בכל תוצאת חיפוש, מציעה פאוורסט את העובדות הרלוונטיות ואת המלים המקושרות ביותר אליה, המנותחות לפי תפקידן התחבירי. התוצאה, בתיאוריה, אמורה לתת למשתמש את המידע המועיל ביותר לו. מעשית, יש עוד הרבה עבודה.

 

החיפוש "israel", למשל, ציין נכון את המדינות הגובלות בישראל, את אוכלוסיית המדינה (נכון ל-2007), את סוג הממשל (דמוקרטיה פרלמנטרית), את שתי השפות הרשמיות שלה, ואת סוג המטבע, אבל התברבר קשות באשר לבירה, ונתן ארבע תוצאות אפשריות. הראשונה, אגב, היתה רמת גן.

 

המילים המקושרות ביותר עם ישראל – וכדאי שמשרד החוץ ייתן לכך את לבו – הן "תפסה", "כבשה", ו"פלשה". מתחת לתוצאות החיפוש, מופיעים כל מאמרי ויקיפדיה המכילים את המילה "ישראל". לא מושלם, אבל משיג תוצאות רלוונטיות יותר מחיפוש גוגל, שהתוצאה הראשונה שלו מביאה את המאמר בוויקיפדיה, והשניה היא אתר משרד התיירות.

 

לאחרונה, על פי שמועות שהוכחשו על ידי שני הצדדים, הביעה מיקרוסופט התעניינות ברכישתה של פאוורסט. פאוורסט עשויה להיות תחרות הולמת לגוגל – אם יועמדו לרשותה המשאבים המתאימים. יצירת אינדקס של 20 מיליארדי דפי רשת, מספר הגדל מיום ליום, הוא פרויקט מסובך ויקר שכדי לעשות אותו יש צורך במשאבים כמו אלה של מיקרוסופט (או גוגל). עם זאת, מקורות בפאוורסט הביעו חשש כי רכישתה על ידי מיקרוסופט תהפוך את גוגל לאויב.

 

בטל שלח
    לכל התגובות
    x