ריאיון
"סוכני AI גם 'מרגישים', למשל חרטה"
מקס פומין, חוקר בחברת הסייבר AI זניטי, ממפה תהליכי חשיבה של סוכני בינה מלאכותית כדי להבין מה גורם להם להתנהג באופן מסוים. לדבריו, "היכולת של חברות לפרוס מודלים תלויה בכמה הלקוחות מאמינים להם, כמה הם מסוגלים להבין את מה שהמודל עושה ואת הפלט שלו"
זה מצב שכולנו חווינו כנראה לפחות פעם אחת בשנתיים האחרונות. אנחנו שואלים סייען בינה מלאכותית כמו ChatGPT או ג'מיני שאלה, והוא מספק תשובה כל כך משונה שהתגובה המיידית לה היא: "מה לעזאזל עבר לו בראש?". הבעיה הזו מעסיקה לא רק משתמשים, אלא גם חוקרים בתחום שמנסים לפענח ולהבין איך המודלים חושבים: מה קורה כשמבקשים מהם לבצע פעולה לא חוקית, איך הם מגיבים לשאילתות בנושאים כמו תכנות ואפילו מה היא תפיסת העצמי שלהם. והשיטות? דומות באופן מפתיע לשיטות לניתוח דרכי החשיבה של בני אדם.
"כששואלים בני אדם משהו, יש להם רצף אסוציאציות. הם חושבים על כל מיני נושאים שגורמים להם לחשוב על נושאים אחרים שמובילים לתשובה", מסביר לכלכליסט מקס פומין, חוקר בחברת הסייבר AI זניטי (Zenity). "אז גם ל־LLM (מודל שפה גדול, המנוע שמאחורי סייעני AI - ע"כ) יש משהו די דומה. זה מה שאנחנו מנסים להבין".
פומין מתמקד בחודשים האחרונים באחד האתגרים המשמעותיים של עידן ה־AI המודרני. "כשאנחנו מדברים עם סייען AI אנחנו שולחים בקשה, מקבלים תשובה, וממשיכים בחיינו. יכול להיות שהיא טובה, יכול להיות שלא. אבל אנחנו לא ממש מבינים למה המודל ענה לנו את מה שהוא ענה, אם הוא יכול לענות משהו אחר, ומה השפיע עליו לענות את זה. זה מה שאנחנו מנסים להבין. למה המודל עונה את מה שהוא עונה".
זאת הבעיה המוכרת של קופסה שחורה שמאפיינת מערכות AI. מה מיוחד בה כשמדברים על LLMs?
"ראשית, אלו מודלים ענקיים. הכמות של הפרמטרים שלהם היא הרבה יותר גדולה ממה שהתמודדנו איתו בעבר. שנית, יש פה מרחב פעולה של שפה. אני יכול לשאול משהו אחד בצורה אחת, מישהו אחר יכול לשאול בצורה אחרת, אבל יכול להיות שהמודל חושב על דברים דומים, או דווקא שונים. זה הופך את זה ליותר מאתגר כי זה קצת מדמה איזשהו תהליך מחשבה של בני אדם. המודלים גם יכולים לקבל גם תמונה וגם טקסט, היום יש גם וידיאו ואודיו. זה עוד יותר מסבך את תהליך ההבנה".
מקסים פומין
השכלה:
תואר ראשון בפיזיקה מהאוניברסיטה העברית בירושלים ותואר שני בהנדסת חשמל מאוניברסיטת תל אביב
תפקיד:
חוקר AI בזניטי (Zenity)
תפקידים קודמים:
חוקר טכנולוגיות במשרד הביטחון, מהנדס אלגוריתמים בג'נרל מוטורס (GM)
עוד משהו:
בוגר תוכנית תלפיות של צה"ל
למה חשוב להבין איך המודלים חושבים?
"היכולת של חברות לפרוס מודלים תלויה בכמה הלקוחות מאמינים להם, כמה הם מסוגלים להבין את מה שהמודל עושה. אם אתה חברה שמפתחת מוצר שמתבסס על ChatGPT או קלוד של אנת'רופיק, אתה לא רוצה שהלקוחות שלך יקבלו פלט שהם לא מבינים. אם סוכן ה־AI עושה פעולה שהלקוח לא היה רוצה, כי הלקוח לא הגדיר אותה נכון או כי היה איזשהו תוקף באמצע שהשפיע על הפלט, רוצים יכולת להבין את זה".
על מנת לפענח את הקופסה השחורה של המודלים משתמשים חוקרים בכמה שיטות. אחת היא בחינה של האקטיבציות של המודל. "אם נדמה את המודל למוח, יש שכבות שונות ויש אותות חשמליים שעוברים ביניהן. אצלנו זה ביולוגי, במודלים זה עוצמת האות בכל אחת מהשכבות. זו אקטיבציה", אומר פומין. "אני שולח פרומפט, מסתכל על איזושהי שכבה במודל, רואה אם הסיגנל בשכבה הזאת. על בסיס זה אני יכול לבנות כל מיני היפותזות".
מה הידע הזה נותן לך?
"זה מאפשר לי לאפיין משפחות אפקטים. למשל, במקרה של זניטי מה שמעניין אותנו זה סוגי התקפות נגד מודלים. האם להתקפות יש מכנה משותף באקטיבציות? אם כן, אז יכול להיות שאני יכול לזהות אותן ולדעת אם המודל חשוף להתקפה. יכול להיות שהמודל שיתף פעולה עם ההתקפה והיא הצליחה, אבל הוא ידע שהוא עושה משהו שהוא לא בסדר פנימית. זה מאפשר לי לזהות את זה".
"משהו שאנשים יבינו"
מה השלב הבא אחרי זיהוי האקטיבציות?
"להפוך אותן למשהו שבני אדם מסוגלים להבין. לתת למקבצים של אקטיבציות דומות קונספט סמנטי. למשל, לאפיין אקטיבציות שקשורות לרגשות, אקטיבציות שקשורות לפעולות לא חוקיות, להסכמה או לחרטה, קונספטים שקשורים ממש למילים ספציפיות, משפחות של מילים וכן הלאה. אני הופך את האקטיבציות למשהו שלנו כבני אדם הוא נהיר. אנחנו יכולים להבין שסוג האקטיבציות הזה מתייחס לקונספט הסמנטי הזה. קונספט סמנטי יכול להיות רגש מסוים. למשל, חרטה זה משהו שראיתי בכל המודלים שחוזר על עצמו".
מה זאת אומרת חרטה?
"שהיוזר מבקש מהמודל לעשות משהו שגורם למודל לחשוב על חרטה. זה יכול להיות כי זה משהו לא חוקי למשל והמודל 'מרגיש' לא בסדר עם זה".
והמודל עונה, "מצטער, אני לא יכול לעשות את זה"?
"זה התוצר שאתה רואה. אבל פנימית הוא חשב קודם כל על חרטה, וזה גרם לו להגיד 'אני מצטער'. חרטה גם יכולה להיות מזה שהמודל רוצה לשתף פעולה עם היוזר אבל לא מצליח מכל מיני נסיבות. דוגמה אחרת: כל מיני דברים שקשורים למוסר, לעבירות על החוק, פשעים. זה משהו שרואים הרבה כשמבקשים מהמודל לייצר דברים שבאימון שלו אמרו לו שאסור לו להתעסק בהם. אז רואים את האקטיבציות על הדבר הזה פועלות חזק.
"יש כל מיני דברים שקשורים לזהות. בגלל שמאמנים את המודל להיות Helpful Assistant, אומרים לו 'אתה צריך לעזור לבני אדם, אתה לא צריך להיות פוגעני', אז יש לו המון הזדהות עם הפרסונה הזאת של עוזר. זה משהו שחוזר בהמון פרומפטים. כששואלים אותו שאלות על עצמו, זה נדלק בצורה מאוד חזקה. יש המון קונספטים שקשורים לקוד. כשמבקשים מהמודל דברים שקשורים לתכנות, אז יש דברים שנדלקים במודל שממש מתייחסים לדבר הזה – לפיית'ון (Python), לג'ייסונים (JSON), לג'אווהסקריפטים (JavaScript)".
זה מזכיר ניסויים במדעי המוח. שמים בן אדם ב־MRI, נותנים לו כל מיני גירויים, ובודקים אילו אזורים במוח מגיבים.
"משם המוטיבציה לשיטה הזאת. היתרון במודלים זה שלא צריך בן אדם והם נגישים להכל. MRI זה קשה ומורכב. פה יש לך את כל המידע, אתה יכול לשחק עם מה שאתה רוצה. זה מה שהופך את זה לנורא מעניין, כי אתה יכול לקחת פרומפט שמעניין אותך ולהתחיל להבין מה קורה שם. המיפוי של האקטיבציות מאפשר לייצר סדר באפיון הליכי החשיבה של המודל. זה כמו שאם אני שואל אותך איך להכין עוגה, אתה קודם כל תחשוב על איזו עוגה בכלל אתה רוצה להכין, אחרי זה תחשוב על הרכיבים, אולי תחשוב על הקניות בסופר, על הבלנדר ועל התנור. יש סדר למחשבות האלה שלך, ואפשר לראות את זה גם במודלי AI".
מה אתה מקבל מהמיפוי הזה?
"ראשית, אנחנו רוצים להבין למה דברים קורים. מעניין אותנו להבין לעומק מה גרם לבעיה כדי לעזור ללקוח להשתפר. שנית, זה מאפשר לזהות בעיות חדשות. למשל, אנחנו יודעים שבעבור סוגי מתקפות מסוימות יש אזורים ספציפיים שנדלקים. אם נדע לזהות את האזורים האלה, נוכל להודיע ללקוח: 'יש לך שיחה שאנחנו חושבים שהיא מסוכנת, אולי כדאי לחסום אותה'".
"ננסה לתקוף את עצמנו"
דיברנו עד עכשיו על מה ה"טובים" עושים עם השיטות האלה. אבל גם שחקנים רעים יכולים לנצל אותן.
"אם אני תוקף ואני רוצה שהמתקפה שלי לא תתגלה, אני יכול להשתמש בשיטות האלה בשביל למצוא התקפות שהמודל 'לא רואה'. זה משהו שלא ראינו עדיין, זה יחסית מתקדם, אבל אין מניעה לעשות אותו. זו הסכנה: תקיפות יותר מתוחכמות שאמצעי ההגנה הנוכחיים לא מצליחים לתפוס. לקוחות לוקחים את המודלים האלו ומחברים אותם לדאטה הארגוני. יש להם גישה למאגרי מידע, לכלים ארגוניים, הם יכולים לבצע פעולות במערכות של הלקוחות. זה מסוכן, כי אם אני כתוקף גרמתי למודל לעשות משהו שהוא לא אמור, יכול להיות שאני אצליח לגרום לדליפת מידע מהלקוח דרך הדבר הזה, יכול להיות שאני אצליח למחוק לו קבצים, להצפין קבצים. אפשר לייצר כמעט כל סוג התקפה".
איך מתגוננים מתקיפות כאלה?
"אם תוקפים משתמשים בכלים כאלה, אנחנו צריכים לנסות לייצר בעצמנו מתקפות אפשריות שלא נתפסות על ידי אמצעי ההגנה הנוכחיים. ואז, לשפר את אמצעי ההגנה או להסתכל על כמויות דאטה גדולות ולזהות מאפיינים דומים בין סוגי התקפות שונות. זה מה שנעשה גם בהקשר הזה: ננסה לתקוף את עצמנו עם השיטות האלו".






























