סגור
באנר דסקטופ כלכליסט טק
תמונות מסרטונים שיצר Sora
מתוך סרטון ששיחררה OpenAI להצגת יכולותיו של מודל Sora. רב הנסתר על הגלוי (צילום: צילומי מסך openAi)

פרשנות
OpenAI הציגה תוצר מרשים, אך מאחוריו מסתתר חור שחור של מידע

במסגרת חשיפת מודל Sora בחרה החברה את הסרטונים שפרסמה בקפידה אבל הסתירה פרטים חיוניים על תהליך יצירתם, כמו מאגרי נתונים ותנאי העסקה

הסרטונים, ששחררה OpenAI כדי להציג את יכולות הטקסט־לווידיאו שפיתחה במסגרת Sora, מרשימים. הם אסתטיים ומגוונים, אבל נבחרו על ידה בקפידה כדי להציג מודל חדש באופן המחמיא ביותר, והם כולם מוקפים בחור שחור של מידע.
OpenAI היא חברה בעלת יכולות מרשימות. בשנתיים האחרונות היא מיצבה את עצמה לא רק כמובילה את מרוץ הבינה המלאכותית הגנרטיבית, אלא כמי שאחראית על עיצוב השוק בדמותה. אבל כל זה מתנהל תחת אילוצים כלכליים כבדים ומרוץ רווי תחרות מול ענקיות שלא מוותרות, שאינו רק מדעי או טכנולוגי ושתכליתו איננה רק "מדע לשם המדע", אלא גם מצבה של השורה התחתונה.
גם על המודלים שמשווקת OpenAI כבר היום אנו יודעים מעט מאוד, ורוב הידע מבוסס על חשיפות עיתונאיות או על חשיפות שקשורות לתביעות זכויות יוצרים שהוגשו נגדה
בפרפרזה על אמירתו של קנצלר גרמניה לשעבר אוטו פון ביסמרק, מודלים של שפה הם כמו נקניקיות: אתה לא רוצה לדעת איך מכינים אותם. זאת משום שמתחת לסרטונים האסתטיים של ממותות שעירות קיים ניצול רחב ומוסתר של משאבים אנושיים וחומריים והפרות שיטתיות של זכויות קניין.
אין זה מפתיע שחשיפת מודל Sora על ידי OpenAI נעשית בדלות של מרכיבי יסוד ופרטים טכניים: לא ידוע באילו מאגרי נתונים השתמשה החברה (היא לא מפרסמת מידע זה, אלא רק מסבירה כי הוא חופשי לשימוש), לא ידוע כמה כוח אדם הועסק ותחת אילו תנאים כדי למיין ולתייג את מאגרי הנתונים ששימשו לאמן את המודל, לא ידוע כמה אנרגיה הושקעה כדי לאמן את המודל או מה טביעת הרגל הפחמנית שלו וגם לא באילו אמצעים השתמשה החברה כדי לסייע למודל להימנע מביטויים סטריאוטיפיים ומטרידים אחרים. אנחנו גם לא יודעים אלו מאמצים היא עושה כדי להבטיח שהתוצרים הסינתטיים שהיא יכולה כעת (לכאורה) להפיק בפשטות, יהיו מסומנים בגלוי ובברור לכל צרכן — גם אם מעולם לא שמע על בינה מלאכותית גנרטיבית.
זהו מידע בסיסי בהחלט, הכרחי לשיקולי עלות־תועלת, שנדרש מאיתנו כדי שנוכל להתפעל באמת מהמודל ותוצריו. במקום זאת, OpenAI רק משתפת תוצר מלוטש וגמור (אבל שעוד אין לנו גישה אליו, צריך לחכות בקוצר רוח), שעושה רושם כמנותק מכל צרכיו הגשמיים — כמו המינרלים הנדירים שנדרשו לתמוך במודל, העבודה בשכר נמוך שגויסה בשבילו, האמנות המקורית שנלקחה כדי להזין אותו וכמויות החשמל והמים האדירות שנדרשו כדי לתפעל אותו.

השתמשה בעובדים בשכר נמוך

גם על המודלים שמשווקת OpenAI כבר היום לפרטים ולארגונים אנו יודעים מעט מאוד, ורוב הידע מבוסס על חשיפות עיתונאיות או כאלה שקשורות לתביעות זכויות יוצרים שהוגשו נגדה. כך למשל, ידוע ש־OpenAI השתמשה בעובדים בשכר נמוך בקניה כדי לבצע את עבודות המיון, וכי הוטל על עובדים אלו למיין ולתייג תכנים שכוללים אלימות וניצול ילדים. תביעות נגד החברה חשפו כי השתמשה במאגרי נתונים פיראטיים של ספרים ללא רשות או ללא תשלום לסופרים או הוצאות לאור, וגם אימנה חלק מהמודלים שלה על סגנונות ציור ואיור של אמנים חיים שלא נתנו את אישורם לכך. חשיפות שנוגעות לחברות אחרות כמו גוגל ומטא ממשיכות לצייר תמונה מטרידה — כמו שימוש בסרטונים ביוטיוב לצורך אימון מודל טקסט־לתמונה של מטא, או שימוש במיילים עבור מודל השפה של גוגל.
מעל כל אלו נידונה בעיקר שאלה אחת — הסכנה הברורה והמיידית לעולם המידע. אם הפיתוחים הללו מוזילים את העלות הכרוכה ביצירת תכנים סינתטיים מזויפים, מה יהיה על עולם הידע שלנו? על היכולת להבחין בין אמת ושקר? ביולי שעבר, ונוכח דאגות אלו, פרסמה OpenAI התחייבות לציבור הרחב: "החברה מבטיחה לבנות מנגנון עמיד להבטיח שמשתמשים יידעו אילו תוצרים הופקו על ידי בינה מלאכותית". אבל מאז, היא עשתה מעט מאוד כדי להתקדם בתחום. גם סימני המים שהחלה להוסיף לתוצרי טקסט־לתמונה שמפיק המוצר שלה Dall-E-2, קלים להסרה.
לו OpenAI היתה פועלת ברוח טובה נוכח הסכנות הגדולות, היא היתה מפרסמת לא רק את המוצר, אלא גם את האופן שבו היא נותנת מענה לבעיות הגדולות שנגזרות ממנו. היא גם היתה מספקת מידע בסיסי לגבי מאגר הנתונים. בינתיים, יש לעשות את שהבלשנית אמילי בנדר הציעה — להתנגד לדחף להתרשם ולשים לב שהדברים שאנחנו לא יודעים על המודל רבים מהדברים שאנחנו כן יודעים. במובן הזה, ומבלי להפחית מהכישרון הרב שמגלים ב־OpenAI, יש לזכור כי ההשקה הנוכחית איננה השקה, אלא לא יותר ממהלך שיווקי.