יותר טוב מננו בננה? OpenAI מציגה שדרוג משמעותי במודל תמונות חדש
ענקית הבינה המלאכותית השיקה מודל תמונות חדש, GPT Image 2, הזמין לכל המשתמשים. כלכליסט בדק את המודל החדש בהשוואה לננו בננה של גוגל - אלה המסקנות
OpenAI השיקה הערב (ג') מודל תמונות חדש - GPT Image 2. המודל זמין כעת לכל המשתמשים, כולל המשתמשים החינמיים, כאשר משתמשים בתשלום יוכלו לייצר תוצרים ברמה גבוהה יותר.
חברת הבינה המלאכותית מסרה כי "המודל החדש מביא רמה חסרת תקדים של ספציפיות ונאמנות ליצירת תמונות. הוא יכול לא רק לתאר תמונות מתוחכמות יותר, אלא גם מחיה את החזון הזה ביעילות, מסוגל לעקוב אחר הוראות, לשמר פרטים מבוקשים ולעבד את האלמנטים העדינים שלעתים קרובות שוברים מודלים של תמונות: טקסט קטן, איקונוגרפיה, אלמנטים של ממשק משתמש, קומפוזיציות צפופות ואילוצים סגנוניים עדינים, והכל ברזולוציה של עד 2K".
מדובר בשדרוג משמעותי ביחס לגרסה הקודמת של המודל שהושקה בדצמבר (GPT Images 1.5), בתגובה למודל התמונות של גוגל, ננו בננה פרו, שהושק מעט לפני כן ועורר הדים חיוביים. לפני כחודש הושק גם ננו בננה 2 - גרסה מהירה יותר של ננו בננה פרו. GPT Images 1.5 אמנם "נתן פייט" לננו בננה, אך האחרון עדיין עקף אותו בתכונות מסוימות, בעיקר ביכולת ליצור תמונה עם טקסט.
במהלך היום החלה OpenAI לגלגל את המודל החדש למשתמשים - והספקנו להתנסות בו. האם GPT Image 2 יחזיר את הבכורה ל-OpenAI? כלכליסט בדק את המודל החדש בהשוואה לננו בננה פרו ו-2. אלו המסקנות:
יצירת תמונה עם טקסט
הבשורה הגדולה של GPT Image 2 היא היכולת ליצור תמונה עם טקסט - גם בעברית. עד כה, GPT Images 1.5 יצר הרבה שיבושים בכיתובים, בעיקר בטקסטים בעברית, בעוד שננו בננה נתן תוצאות טובות הרבה יותר. GPT Image 2 יודע לייצר טקסט ברמה גבוהה - ובסגנונות שונים. כך למשל, ניתן לייצר איתו חיקויים של סגנונות המזוהים עם מותג מסוים, ואפילו טקסט שנראה כאילו נכתב בכתב יד וכן צילומי מסך (כמו זה ש-OpenAI פרסמה כטיזר להשקה). כמו כן, הוא יודע לדייק בפרטים גם כשהוא מתבקש ליצור תמונה עם טקסט רב - ברמה גבוהה יותר מאשר ננו בננה פרו. עם זאת, כשניסינו לבקש ממנו לשנות פונט - הוא לא עמד במשימה, בניגוד לננו בננה שלו יש גישה למגוון מצומצם של פונטים.
1 צפייה בגלריה


טקסט שנראה כאילו נכתב בכתב יד אך נוצר באמצעות מודל התמונות החדש של OpenAI
(נוצר באמצעות AI)
כשנתנו ל-GPT Image 2 להכין אינפוגרפיקה - הוא קצת התקשה. ניסינו לצרף לו קבצי וורד ואקסל, אך הוא לא הצליח לעבד אותם ישירות לתמונה ויצר אינפוגרפיקה עם נתונים לא קשורים. עם זאת, כאשר ביקשנו ממנו להעתיק את הטבלה ולאחר מכן להפוך אותה לאינפוגרפיקה - התוצאה הייתה מרשימה. ננו בננה אמנם יודע לעבוד טוב יותר עם קבצים, אך טועה לעיתים בפרטים ומוגבל יותר מבחינת סגנונות.
איכות התמונה
GPT Image 2 מציג איכות תמונה מעט חדה וריאליסטית יותר מאשר הגרסה הקודמת, אך בהשוואה לננו בננה - קשה לקבוע באופן מובהק מי טוב יותר. כנראה שיש כאן בעיקר עניין של טעם אישי, ואנחנו התחברנו יותר לריאליזם של ננו בננה.

תמונה של חמניות שנוצרה באמצעות מודל התמונות החדש של OpenAI(נוצר באמצעות AI)

תמונה של חמניות שנוצרה באמצעות ננו בננה פרו(נוצר באמצעות AI)
GPT Image 2 גם יודע לחקות פרצופים בצורה טובה יותר מאשר הגרסה הקודמת, אך בדומה לננו בננה - עדיין לא עושה זאת בצורה מושלמת. הוא מכיר חלק מהידוענים ויודע לחקות אותם בצורה טובה, אך אחרים הוא מתקשה לחקות.

תמונה של סם אלטמן וסונדאר פיצ'אי לוחצים ידיים שנוצרה באמצעות מודל התמונות החדש של OpenAI(נוצר באמצעות AI)

תמונה של סם אלטמן וסונדאר פיצ'אי לוחצים ידיים שנוצרה באמצעות ננו בננה פרו(נוצר באמצעות AI)
עריכת פרטים
GPT Image 2 מציג יכולות גבוהות בעריכת פרטים בתמונות - שיפור משמעותי ביחס לגרסה הקודמת שלו. כך למשל, כשביקשנו ממנו למחוק מילה שהופיעה בתמונה, הוא ביצע זאת בהצלחה, בלא לשנות אף פרט אחר בתמונה - מה שננו בננה לא יודע לעשות. כשביקשנו ממנו לשנות פרטים ויזואליים קטנים - כמו הסרת משקפיים או הוספת עניבה בצבע אדום - הוא נענה לבקשה, אך ביצע שינויים מינוריים בתמונה. מבחינה זו, ננו בננה מציג רמת דיוק גבוהה יותר. OpenAI גם מיישרת קו עם גוגל ביכולת להשפיע על מידות התמונה - מה שלא ניתן היה לעשות במודל הקודם.































