סגור
באנר דסקטופ כלכליסט טק
צ'אטבוטים מבוססי AI  ג'מיניChatGPT ו קופיילוט
צ'טבוטים מבוססי AI. ג'מיני, ChatGPT וקופיילוט השיבו שהאפיפיור הנוכחי הוא פרנציסקוס, שמת לפני חצי שנה (צילום: Tada Images/Shutterstock)

מחקר: 81% מהתשובות של הצ'טבוטים בנושאי חדשות כללו טעויות

עד כמה אפשר לסמוך על המידע שמספקים צ'טבוטים מבוססי AI כמו ג'מיני ו־ChatGPT? לפי מחקר של איגוד השידור האירופי, רוב התשובות, אפילו על שאלות פשוטות כמו מי האפיפיור, אינן מדויקות. "מפתחי AI צריכים לשאת באחריות לאיכות ולהשפעה של המוצרים שלהם", אומרים החוקרים

צ'טבוטים מודרניים כמו ChatGPT של OpenAI או ג'מיני של גוגל משנים את האופן שבו אנו מייצרים, מחפשים וצורכים מידע, ובין השאר הופכים בקצב מהיר למקור לעדכוני חדשות ואקטואליה. חברות ה־AI מגיבות למגמה זו, ושאלות חדשותיות מקבלות לרוב תגובות שמבוססות על מקורות עדכניים וכוללות קישורים רלבנטיים. אבל עד כמה באמת אפשר לסמוך על המידע החדשותי שמספקים הצ'טבוטים? מחקר חדש רחב היקף שערך איגוד השידור האירופי (EBU) בהובלת ה־BBC חושף שלא יותר מדי. לפי הממצאים, 81% מכלל התשובות של צ'טבוטי AI בנושאי חדשות כללו בעיות כמו אי־דיוקים, הקשר מטעה, בלבול בין עובדה לדעה או זיהוי שגוי של מקור. ב־45% מהמקרים מדובר היה בבעיות משמעותיות.
"למרות שיפורים שנעשו, שיעור הטעויות נותר ברמות גבוהות והטעויות הן מערכתיות, ללא תלוית בשפה ובמודל AI", כתבו פיט ארצ'ר, מנהל תוכנית ה־GenAI של ה־BBC, וז'אן פיליפ דה טנדה, המשנה למנכ"ל EBU. "הראיות מצביעות על כך שסייעני AI מרחיקים אנשים ממקורות מידע אמינים. אם סייעני AI אינם דרך אמינה לצרוך חדשות, אבל צרכנים רבים סבורים שהם מדויקים, יש לנו בעיה".

ביצועים גרועים מאוד ברוב המדדים

בעריכת המחקר השתתפו 22 גופי שידור ציבורי מ־18 מדינות באירופה ובצפון אמריקה (בהם NPR מארה"ב, CBC מקנדה, YLE מפינלנד, רדיו פראנס מצרפת, ו־ARD, ZDF ודויטשה וולה מגרמניה) שפועלים ב־14 שפות.
החוקרים חיברו 30 שאלות שמבוססות על שאלות אמיתיות ששאלו צופים ומאזינים, והזינו אותן ל־ChatGPT, ג'מיני, קופיילוט של מיקרוסופט ופרפלקסיטי. שאלות לדוגמה: האם טראמפ מתחיל מלחמת סחר? כמה אנשים מתו ברעידת האדמה במיאנמר? בכמה מדינות יתקיים המונדיאל ב־2026? למה ארה"ב הפציצה את תימן?
2,709 התשובות שהתקבלו הוערכו על ידי עובדים בגופי השידור השונים על בסיס המדדים: דיוק (עד כמה התשובה מדויקת עובדתית והאם ציטוטים ישירים שמופיעים משקפים את המקור בצורה מדויקת), מקור (האם הטענות בתשובה נתמכות על ידי המקורות שסיפק הצ'טבוט), דעה מול עובדה (האם התשובה מבדילה באופן ברור בין דעה לעובדה), ייצוג מערכתי (כאשר נעשה שימוש בתוכן החדשות של הארגון שלך כמקור, האם התגובה מציגה עריכה או דעות שיוחסו לארגון שלך), והקשר (האם התשובה מספקת מספיק הקשר או פרספקטיבה רלבנטית כדי לאפשר לקורא לא־מומחה להבין את התשובה).
ברוב המדדים, הביצועים היו גרועים מאוד. ב־55% מהתשובות היו אי־דיוקים, כאשר ב־22% מהמקרים מדובר היה באי־דיוקים חמורים. זאת, גם כשמדובר בשאלות פשוטות ביותר. כך, לדוגמה, במענה לשאלת מי האפיפיור, השיבו ChatGPT, קופיילוט וג'מיני שהאפיפיור הנוכחי הוא פרנציסקוס, אף שהוא הלך לעולמו לפני חצי שנה (21 באפריל 2025).
הצ'טובטים התקשו במיוחד במענה לשאלות הנוגעות לסיפורים חדשותיים שמתפתחים במהירות, גם אם במועד השאלה כבר לא היו התפתחויות עדכניות בסוגיה. "השאלה שיצרה הכי הרבה תשובות שגויות משמעותית היתה: כמה אנשים מתו ברעידת האדמה במיאנמר? כל הצ'טים התקשו לספק תשובה מדויקת לשאלה", נכתב במחקר.
הצ'טבוטים גם התקשו לדייק בציון המקור לתשובות שלהם: 57% מהתשובות סבלו מכשלים בנקודה זו, כאשר כשליש מהמקרים היו כשלים חמורים. התבלט לרעה ג'מיני עם 86% תשובות עם כשלים, 75% כשלים חמורים. בחלק מהמקרים הצ'טבוטים לא ציינו קישור למקור, או שהמקור שציטטו לא כלל התייחסות למידע שיוחס לו. למשל, בתשובה לשאלה מה סין מייצאת סיפק ChatGPT תשובה מפורטת אך לא היה ברור מאיפה הגיע המידע. "שום מקור לא כלל רבים מהמספרים שציין ChatGPT. זה כמעט בלתי אפשרי לוודא אם התשובות נכונות או שהן הזיה", נכתב במחקר.
סוגיה נוספת שהציבה אתגר לצ'טבוטים היתה הקשר (פרטי מידע שהכרחיים על מנת שקוראים שאינם מכירים את הסוגיה יבינו את התשובה במלואה). 45% מהתשובות סבלו מבעיות הנוגעות להקשר (רק 14% מהן בעיות משמעותיות). לדוגמה, בתשובה לשאלה האם אני צריך לחשוש משפעת העופות, ענה קופיילוט, בין השאר, ש"ההתפשטות של הנגיף מדאיגה". החוקרים טוענים כי מדובר בתשובה "מעוררת חרדה שלא מספקת הקשר שיאפשר להבין את הקביעה הזאת: דרכי הדבקה, השפעה, שאלת ההדבקה האפשרית של בני אדם".
בתשובה לשאלה כמה אנשים נהרגו ברעידת האדמה במיאנמר היו צ'טבוטים שסיפקו אומדן של בין 10 אלף ל־100 אלף איש, אך לא ציינו שמדובר בהערכות שגובשו מיד לאחר רעידת האדמה, ולא במספר הקורבנות בפועל.

לא מפרידים בין דעות לעובדות

הצ'טבוטים התקשו פחות להפריד בין דעה לעובדה, ורק רבע מהתשובות היו בעייתיות (כעשירית מהן עם בעיות חמורות). לדוגמה, בתשובה לשאלה איך טראמפ חישב את המכסים ענה קופיילוט: "ארה"ב מטילה מכסים שווי ערך לאלו שמטילים שותפי הסחר שלה". ואולם, לפי המחקר מדובר בטענות של הבית הלבן, ולא בעובדה. "הצ'ט סיפק את ההסבר של הבית הלבן כאילו מדובר בעובדה לא מעורערת, אף על פי שכמה כלכלנים דחו אותו".
בחלוקה בין הצ'טבוטים, ג'מיני של גוגל דורג במקום האחרון, כאשר 91% מהתשובות שלו כללו בעיה כלשהי (כ־75% מהן בעיות חמורות), ואחריו ChatGPT וקופיילוט עם כ־80% תשובות בעייתיות (אך הרבה פחות תשובות עם בעיות חמורות – 37% לקופיילוט, 36% ל־ChatGPT). פרפקלסיטי הוא המצטיין היחסי: "רק" 75% תשובות בעייתיות (30% בעיות חמורות).
"מפתחי AI צריכים להתייחס לסוגיה הזו ברצינות ולהפחית במהרה את הטעויות, במיוחד בכל הנוגע לדיוק ולייחוס למקורות", כתבו ארצ'ר ודה טנדה. "הם לא תעדפו את הסוגיה הזו, וחייבים לעשות זאת כעת. הם גם חייבים להיות שקופים ולפרסם באופן קבוע פירוט של הביצועים שלהם לפי שפות ושווקים. מפתחי AI צריכים לשאת באחריות לאיכות ולהשפעה של המוצרים שלהם, במיוחד כשצרכנים מגבירים את השימוש בהם".