סגור
באנר דסקטופ כלכליסט טק
 מנכ"ל OpenAI סם אלטמן מציג את GPT5 ChatGPT
סם אלטמן, מייסד ומנכ”ל OpenAI, בהשקת GPT-5. אלפי משתמשים נאמנים חתמו על עצומה להחזרת מודל 4o (צילום מסך)

מה קרה להבטחה ל"מוח דיגיטלי עוצמתי"? ההשקה של GPT–5 אכזבה את המשתמשים

השיפור המתון מאוד עד לא קיים של GPT-5, שהושק בשבוע שעבר לאחר השקעה של עשרות חודשי עבודה ומיליארדי דולרים — מנפץ את התחזיות של מומחי AI לפיתוח מהיר של “מוח דיגיטלי עוצמתי בלתי ניתן לשליטה”. האם היכולות של מודלי בינה מלאכותית גנרטיבית מודרניים מתקרבות לסף העליון שלהן? 

במרץ 2023, ימים ספורים אחרי ש־OpenAI הדהימה את העולם עם מודל ה־AI החדש שלה, פרסמו מאות ממומחי בינה מלאכותית ומדעי המחשב אזהרה חמורה שקראה לעצור את הפיתוח של מערכות עוצמתיות יותר לחצי שנה לפחות. "מעבדות AI נמצאות במרוץ חסר שליטה לפתח ולהטמיע מוחות דיגיטליים עוצמתיים שאף אחד לא יכול להבין, לחזות או לשלוט בהם", הם התריעו.
אבל החברות המשיכו במרץ בפיתוח המודלים שלהן. OpenAI עצמה הקדישה יותר משנתיים לפיתוח מודל הדור הבא, GPT-5. בסוף השבוע חשפה החברה את המודל החדש, והתברר שהחשש והלחץ של המדענים הבכירים לא היה במקומו. לא מכיוון ש־OpenAI דאגה ליישם מנגנוני הגנה ראויים שימנעו את תרחיש האימים, אלא מכיוון שהמודל עצמו פשוט לא כזה מרשים. לא "מוח דיגיטלי עוצמתי", לא קפיצת מדרגה משמעותית, אפילו לא בטוח ששיפור מורגש לעומת דור המודלים הקודם.
אתמול אפילו OpenAI עצמה הודתה בכך בעקיפין, כשהנגישה מחדש את מודל GPT-4o, שהמודל החדש היה אמור לייתר. הכישלון של GPT-5 להרשים מעלה שאלה מהותית: האם היכולות של מודלי בינה מלאכותית גנרטיבית מודרניים כבר מתקרבות לסף העליון שלהן?

מתקשה בחשבון פשוט

ההשקה ביום חמישי שעבר אמורה היתה להיות רגע הניצחון של OpenAI ל־2025. אחרי שהציתה מהפכה עם ChatGPT ב־2022 ומיצבה את עצמה כמובילת התחום עם GPT-4 ב־2023, היא סבלה מכמה מהמורות. מתחרות מקומיות כמו אנת'רופיק הציגו מודלים עם יכולות טובות כמו שלה, ובהיבטים מסוימים אף טובים יותר. ומלמטה זינבו בה מתחרות סיניות כמו דיפסיק, שיצרו מודלים בעלי יכולות דומות לשלה בשבריר מההשקעה. במקביל הפיתוח של GPT-5 נתקל בקשיים ועיכובים, וסבל מעלויות גבוהות מהצפוי.
ההשקה בשבוע שעבר היתה אמורה להיות התיקון של זה, פריצת הדרך הבאה של OpenAI שתחזיר אותה לדרך המלך. כשחשפה אותו בחמישי הבטיחה החברה זינוק דרמטי, עם מודל חכם יותר ואמין יותר. לדברי המייסד והמנכ"ל סם אלטמן, אם שיחה עם GPT-4 הרגישה כמו שיחה עם סטודנט, עם GPT-5 כבר ירגיש המשתמש כאילו הוא משוחח עם מומחה בעל תואר דוקטור. ההבטחה היתה לשיפורים גורפים במשימות כמו כתיבה, תכנות ושיח בנושא בריאות, ולצד זאת הרבה פחות הזיות.
אבל מהר מאוד התגלעו בקיעים בהבטחות הנוצצות. במדיה חברתית משתמשים רבים הביעו תסכול מכך שהמודל החדש עדיין נוטה להמציא דברים ושוגה בשאלות חשבון ואיות פשוטות. כך, למשל, במקרה אחד כשהתבקש המודל להגיד כמה פעמים האות b מופיעה במילה blueberry, הוא השיב "שלוש". כשמשתמש העלה תמונה של זברה עם חמש רגליים ושאל כמה רגליים מופיעות בה, השיב המודל שמדובר באשליה אופטית ולזברה יש ארבע רגליים. בימים שלאחר ההשקה הפוסט הפופולרי ביותר בסאב־רדיט של OpenAI (שלרוב מזוהה עם תמיכה בחברה), קבע בין השאר שעם המודל החדש, החברה התמקדה "בהנמכת עלויות, ולא בשרטוט מחדש של הגבולות".
בשיחה עם גולשים ברדיט אמר מייסד ומנכ"ל OpenAI, סם אלטמן, שהוא סבור שאיכות הכתיבה של GPT-5 גבוהה הרבה יותר ממודל הדור הקודם. "אתם חושבים שהיא גרועה יותר?" הוא שאל. התשובה הגורפת: כן. "4 ו-4.5 הצטיינו בכתיבה יצירתית ודינמית. 5 הוא כל כך סטרילי, זה כמו לבקש מפרופסור למתמטיקה להיות אמילי דיקינסון.
וגם פרופסורים למתמטיקה לא התרשמו מהמודל החדש. "ההשקה היתה מאכזבת", אמר לבלומברג פרופ' נואה ג’יאנסיראקוזה, מתמטיקאי מאוניברסיטת בנטלי. "היו שיפורים מסוימים, אך הם היו הרבה יותר שוליים מכפי שחשבתי".
ד"ר גארי מרקוס, פרופ' אמריטוס לפסיכולוגיה ומדעי המוח ב־NYU ואחד ממומחי ה־AI החשובים בעולם, כינה את GPT-5 "מאכזב" ואת ההשקה שלו "כאוטית". "OpenAI התפוצצה, ולא במובן החיובי", הוא כתב בבלוג שלו. "חוץ מכמה משפיענים שמשבחים כל מודל חדש, התגובה הדומיננטית היא אכזבה משמעותית. GPT-5 הוא לא מודל נוראי, אבל הוא לא שונה משום דבר שבא לפניו. GPT-4 נחשב להתקדמות קיצונית לעומת GPT-3, ו־GPT-3 להתקדמות קיצונית לעומת GPT-2. אבל GPT-5 הוא בקושי טוב יותר מהמודל החדש של החודש שעבר (גרוק 4), ובמדדים מסוימים אפילו גרוע יותר. מדובר פשוט בשיפור אינקרמנטלי".
תלונה נוספת של משתמשים נגעה להחלטה של OpenAI לבטל את האפשרות של מנויים בתשלום לבחור את המודל שאיתו יעבדו. קודם להשקת GPT-5 יכלו מנויים לבחור איזה מודל יענה על השאילתה שלהם מתוך מספר אפשרויות. רבים ניצלו אפשרות זו כדי להתאים את המודל לסוג השאילתה — יצירתיות, לוגיקה, מחקר עמוק ועוד — או כדי לבצע בדיקה צולבת של תשובות כדי לזהות שגיאות או הזיות של המודל.
עם השקת GPT-5 נעלמה בחירה זו, והבחירה היחידה היא בין המודל הרגיל לגרסה החושבת של המודל (ולמשתמשי מסלול הפרו שעולה 200 דולר בחודש, גם גרסה לתבונה ברמה מחקרית). ChatGPT אמור לנווט מאחורי הקלעים את הבחירה למודל הטוב ביותר, מהלך שהכעיס משתמשים רבים, ותקלה בניתוב האוטומטי ביום ההשקה לא סייעה. אלטמן הבטיח שהתקלה תוקנה ושהחברה תבליט איזה מודל עונה לכל שאילתה, אבל המשתמשים הנאמנים לא התרצו, ואלפים חתמו על עצומה בדרישה להחזיר את 4o. אלטמן שמע את קריאותיהם, ושלשום בערב אמר כי מנויים בתשלום יכולים לבחור את המודל הוותיק יותר.
ההנגשה המחודשת של מודל בן יותר משנתיים, שאמור להיות לא רלוונטי לנוכח המודל החדש, ממחישה את האתגרים הנוכחיים של חברות ה־AI. כשהושק GPT-4, קפיצת הדרך שלו היתה כל כך מרשימה ומשמעותית שמיטב המומחים חשו בסכנה מיידית מהמשך הפיתוח המואץ. אבל גם לאחר עשרות חודשים של עבודה והשקעה של מיליארדים, לא הצליחה OpenAI להביא יותר משיפור הדרגתי במקרה הטוב, כזה שהמשתמשים המנוסים ביותר לא בהכרח מרוצים ממנו.
ייתכן בהחלט שהפיתוחים וקפיצות הדרך הגדולות של תחום הבינה המלאכותית הגנרטיבית כבר מאחורינו; שהאפשרות לייצר התקדמות משמעותית בתוך זמן קצר ובעלות הגיונית (הגם שמשמעותית מאוד) כבר אינה קיימת; שמעתה כל התקדמות תעלה בהרבה מאמץ והשקעה ותספק הישגים שוליים בלבד.

אשליה שברירית

מחקר של חוקרים מאוניברסיטת אריזונה, שהועלה לרשת בשבוע שעבר וטרם עבר ביקורת עמיתים, מחזק את הסברה שיהיה קשה מאוד לרשום פריצות דרך נוספות בתחום. החוקרים אימנו מודל AI, ואז בחנו את יכולתו לפתור בעיות בהליך שרשרת חשיבה דומה לזה של מודלי AI חושבים אחרים. בהליך זה המודל שוקל שאילתה לזמן רב יותר, ומפרט גם את שרשרת החשיבה הלוגית שלו צעד אחר צעד. אולם החוקרים גילו ששרשרת זו היא לא יותר מאשליה שברירית, שנעלמת ברגע שהמודל מתבקש להתמודד עם בעיה שחורגת מהסוגיות שעליהן אומן. כלומר הוא מתקשה לבצע הכללה של מצבים פרטניים. "הכישלון לבצע הכללה אומר לנו למה כל עשרות הניסיונות לבנות מודלים מתקדמים הרבה יותר מחמיצים את המטרה", כתב מרקוס. "זו לא תאונה. הכישלון הזה מובנה".
אם זה המצב, מדובר בנורת אזהרה נוספת לתחום שגם כך כבר סובל מבעיות מבניות כמו עלויות אדירות של תשתיות, תפעול וכוח אדם והיעדר מודל עסקי משמעותי. כשמוסיפים לכך גם חוסר יכולת לרשום פריצת דרך משמעותית שתאפשר לחברה לבדל את עצמה מאחרות וגם דרישה להשקעה משמעותית הרבה יותר כדי לרשום התקדמות הדרגתית בלבד, נוצר מצב שבו לא ברור אם המערכת יכולה לקיים את עצמה, בוודאי לאור מספר המתחרות הגדול.