סגור
גג דו"ח טכנולוגי עומר כביר דסקטופ

דו"ח טכנולוגי
לא להאמין: מצג השווא של מטא בנוגע לירידה בתוכן השנאה

מטא מספרת לנו שהיקף התוכן הרעיל בפלטפורמות שלה "צנח" ברבעון השלישי מ-0.05% ל-0.03% מכלל התוכן המתפסם בהן. היא רק שוכחת לציין כמה זה יוצא במספרים אבסולוטיים - ולא במקרה. הו, ממש לא במקרה

אם אתם רוצים לבלבל מישהו או לשקר לו, זרקו עליו קצת מספרים. הדרך הכי טובה לשקר היא עם מספרים. הם נראים מוחלטים, פשוטים להבנה, לא משתמעים לשני פנים, מוצקים. ואם המספרים נכונים, זה בכלל מצוין. הכי קל לבלבל ולשקר עם מספרים נכונים שמבוססים על נתונים מדויקים. כי במה כבר אפשר להאשים אותך? שהצגת את המספרים כמו שהם?
אבל המציאות היא שמספרים משקרים, ושעם נתונים וסטטיסטיקה אפשר לבלבל, לטמטם, להונות ולהתל. לא במקרה אחד הספרים המוכרים והפופולריים בתחום נקרא "איך לשקר עם סטטיסטיקה", והוא ממשיך להימכר יפה גם היום, קרוב ל-70 שנה אחרי שיצא לאור לראשונה.
מדיניות של הסתרה
אחד השקרים הפשוטים ביותר הוא שקר האחוזים. מישהו זורק לכם אחוז מסוים, אומר "זה קורה רק ב-0.1% מהמקרים" וזה נשמע כלום. מה זה כבר עשירית האחוז? אפשר בכלל לספור את זה? אבל מה שהוא אולי מסתיר מכם זה את המספר שממנו נגזר האחוז. מסתיר, כי ברגע שתראו את המספר האמיתי הלסת תישמט לרצפה והעיניים יתגלגלו בחוריהן. וזה, כך אני חושד לפחות, בדיוק מה שמטא (לשעבר פייסבוק) עושה בדו"ח השקיפות האחרון שלה.
הנתונים שמטא מציגה בדו"ח שלה מציגים לכאורה תמונה יפה מאוד: היקף תוכן השנאה באתר, למשל, המשיך לרדת ועמד ברבעון השלישי על 0.03% מכלל צפיות התוכן בפייסבוק (לעומת 0.05% ברבעון השני), או כמו שמטא מציגה את זה, 3 צפיות של תוכן שנאה לכל 10 אלף צפיות של תוכן. באינסטגרם עמד השיעור על 0.02%. "אנחנו ממשיכים לראות ירידה בתוכן שנאה הודות לשיפורים בטכנולוגיה ולשינויים בדירוג שמפחיתים את התוכן הבעייתי בפיד, כולל באמצעות התאמה אישית משופרת", אמרה החברה. תזכרו את השיפורים בטכנולוגיה. אנחנו נחזור אליהם בהמשך.
קריאות לאלימות עמדו על בין 0.04% ל-0.05% בפייסבוק ו-0.02% באינסטגרם ולדברי מטא היא הסירה 96.7% מהתוכן האלים בפייסבוק (13.6 מיליון יחידות תוכן) עוד לפני שמישהו דיווח לה על כך (אבל לא בהכרח לפני שמישהו ראה אותו). תוכן שמוגדר כ"ביריונות והטרדה" רשם בין 0.14% ל-0.15% מהצפיות ובפייסבוק ובין 0.05% ל-0.06% באינטסגרם.
עד כאן הנתונים כפי שמטא מציגה אותם. נשמע טוב, לא? מה זה כבר כמה מאיות האחוז פה, כמה עשיריות האחוז שם? הידד למטא. אבל אחוזים יכולים להציג תמונה מטעה - במיוחד כשמדובר במספרים גדולים. וכשעוסקים בפלטפורמות של מטא, אלה המספרים הגדולים ביותר שיש. במספרים כאלה גדולים, גם אחוזים קטנים יכולים להיות מפחידים מאוד.
4 צפייה בגלריה
פייסבוק משנה את השם ל Meta מטא השלט החדש במטה החברה בקליפורניה
פייסבוק משנה את השם ל Meta מטא השלט החדש במטה החברה בקליפורניה
השקת מטא בקליפורניה. מציגה תמונה מטעה
(גטי)
ננסה לנתח את זה, בהתחשב במגבלות המידע שיש לנו. כדי לפשט את העניין, נבחן רק את הנתונים של פייסבוק. מטא מדברת על אחוז מכלל הצפיות ולכן השאלה המעניינת במקרה זה היא כמה צפיות ביחידות תוכן יש ברשת החברתית וגם כיצד היא מגדירה צפיות. יחידת תוכן יכולה להיות פוסט, סרטון, תמונה וגם תגובות. האם כשאני צופה בפוסט וקורא שתי תגובות שנכתבו לו זו צפייה אחת (פוסט ותגובות נספרים ביחד), 2 צפיות (פוסט בנפרד ותגובות בנפרד), או 3 צפיות (כל יחידת תוכן נספרת בנפרד)? מטא לא מבהירה.
החברה גם לא מבהירה מהו היקף הצפיות בתכנים באתרה - שאלה חשובה על מנת להבין את ההיקף האבסולוטי של תכנים אלה. למרבה הצער נראה שאין מספרים עדכניים בנושא והנתונים העדכניים ביותר שהצלחתי למצוא הם בני קרוב לעשור. באוגוסט 2012 הודיעה מטא (אז עדיין קראו לה פייסבוק) שמידי יום נוצרות ברשת החברתית 2.5 מיליארד יחידות תוכן. בסוף אותה שנה היו לפייסבוק 618 מיליון משתמשים פעילים ביום. כלומר, קצת יותר מ-4 יחידות תוכן למשתמש ביום. כיום יש לרשת החברתית 1.93 מיליארד משתמשים פעילים ביום. בהנחה שהיקף יצירת התוכן לא השתנה - וזו הנחה שמרנית במיוחד כי סביר שבעשור שחלף היקף התכנים הממוצע למשתמש דווקא עלה - הרי שכיום מדי יום נוצרת בפייסבוק 7.81 מיליארד יחידות תוכן ביום.
ואולם, נתון זה לא עוזר לנו יותר מדי, כי המדד שמטא עוסקת בו הוא צפיות. כאן הנתונים מוגבלים אפילו יותר, והמספר הטוב ביותר שהצלחתי למצוא הוא מ-2015, שמדבר על מספר הצפיות בווידיאו בפייסבוק, שעמד בנובמבר של אותה שנה על 8 מיליארד צפיות ביום. נעשה כמה הנחות ושוב ננקוט בשמרנות קיצונית. נניח שווידיאו מהווה חצי מהיקף הצפיות בפייסבוק (אם כי סביר להניח שהנתח שלו נמוך הרבה יותר, במיוחד אם לצד פוסטים ותמונות מכלילים גם תגובות בספירת הצפיות). לפי הנחה זו, ב-2015 היו בפייסבוק 1.04 מיליארד משתמשים פעילים ביום (זה נתון רשמי) שצפו כל יום ב-16 מיליארד תכנים.
המספר האמיתי מבהיל
אם נשליך על המצב כיום - שוב, בהנחה השמרנית שהיקף הצפיות בתכנים לא השתנה מאז 2015 (אף שסביר שהוא דווקא עלה משמעותית, במיוחד לאור הגידול בתפוצה של סמארטפונים מאז) - הרי שכיום יש בפייסבוק 1.93 מיליארד משתמשים פעילים ביום שצופים ב-29.7 מיליארד יחידות תוכן מדי יום. נעשה לנו חיים קלים ונעגל את זה ל-30 מיליארד. כלומר, משתמש ממוצע צופה מדי יום בקצת יותר מ-15 יחידות תוכן. סביר להניח שזה הרבה יותר – כלומר, משתמש ממוצע צופה כנראה ביותר מ-15 יחידות תוכן בביקור אחד.
עכשיו אפשר לעשות כמה חישובים מעניינים. עם 30 מיליארד צפיות ביחידות תוכן ביום, זה אומר שמדי יום נצפים באתר 9 מיליון תכני שנאה, לפחות 12 מיליון תכני אלימות והסתה ולפחות 42 מיליון תכני ביריונות. אלה, כמובן, מספרים פחות מרשימים מ-0.03% או 0.14%. כותרות כמו "63 מיליון תכני שנאה, אלימות ובריונות נצפים בפייסבוק מדי יום" לא בדיוק יעשו לחברה שירות חיובי. וברור למה מטא לא רוצה להוציא אותם - במיוחד בהתחשב בכך שהמספרים האמיתיים כנראה גדולים בהרבה.
4 צפייה בגלריה
מארק צוקרברג פייסבוק על רקע דגל ארה"ב
מארק צוקרברג פייסבוק על רקע דגל ארה"ב
מנכ"ל מטא מארק צוקרברג. שה תמים
(Nick Wass)
פילוח לפי צפיות למשתמש צפוי להוביל לנתונים מבהילים עוד יותר, אבל בגלל הבסיס הרעוע של הניתוח לא כדאי להיכנס לזה כעת. מדובר יותר בתרגיל מחשבתי מאשר בניתוח מבוסס, אבל זה מדגים טוב עד כמה הנתונים מבוססי האחוזים שמציגה מטא יכולים להיות מנותקים מהמציאות, לא בהכרח מייצגים את הכמות המוחלטת של תוכן בעייתי בפייסבוק - וחשוב יותר את מספר המשתמשים שנחשף אליו בפועל. מטא כמובן מחזיקה במידע הזה, יכולה לשחרר אותו בקלות ולהעיר את עינינו. העובדה שהיא לא עושה את זה היא לכל הפחות חשודה.
ויש עוד בעיה עם הנתונים כפי שמטא מציגה אותם. הם לא בהכרח מתפרשים באופן שווה. מטא מרכזת יחד נתונים מכל המדינות ומכל השפות, אבל ייתכן שקיים אי-איזון בפריסה של תכני אלימות, שנאה וביריונות. אולי במדינות רבות הם אפסיים, אבל יש מדינה אחת שבה הם נפוצים מאוד וזורעים שם הרס משמעותי? אולי בקרב קבוצות שונות הם מזעריים, אבל יש קבוצות אוכלוסייה (למשל, תומכי QAnon) שבהן תכנים אלו מהווים את עיקר השיח? האופן שבו מטא מציגה את הנתונים מייצר את הרושם שפה ושם יש חשיפה אקראית לתכנים מסוכנים, אבל אולי רוב האנשים לא נחשפים אליהם כלל ויש קבוצות שבהן החשיפה היא בריכוז גבוהה ובהתאם גם יכולה לחולל נזק ניכר?
מתדלקת מלחמה באתיופיה
השיח שהוביל לניסיון ההפיכה בארה"ב ב-6 בינואר היה בוודאי מיעוט זעיר מכלל השיח בפייסבוק, אבל האימפקט שלו על אירועים מחוץ לרשת החברתית משמעותי. עד היום נעצרו והואשמו 691 איש בהשתתפות בניסיון ההפיכה. אם מטא היתה מציגה את הנתונים, היא הייתה אומרת שרק 0.00021% מאוכלוסיית ארה"ב הואשמה במעורבות באירועים. זה אולי נכון, אבל מתעלם מכך שריכוז גדול של שנאה ואלימות בקרב קבוצה קטנה מביא להשפעה ניכרת עם תוצאות מסוכנות לעתים - גם אם בתמונה הגדולה מדובר לכאורה במספרים זניחים.
ואז יש גם את השאלה האם הנתונים שמציגה מטא בכלל מדויקים, או שאולי הבעיה גדולה בהרבה. הבטחנו לחזור לשיפורים בטכנולוגיה של החברה, והנה אנחנו עושים את זה. הטכנולוגיה הזאת באמת עושה עבודה מצוינת בזיהוי ובהסרה מוקדמים של תכנים בעייתיים, אבל היא טובות בזה בעיקר כשמדובר באנגלית ובשפות מערביות אחרות, או בכאלה שיש להן מאות מיליוני דוברים ומעט ניבים. לכו לשפות של כמה מיליונים או שפות מרובות ניבים - במיוחד במדינות מתפתחות שמהן לא שוכרת החברה כמות משמעותית של מהנדסים - וההצלחה של הטכנולוגיה מתחילה לצנוח משמעותית. זה אומר, ראשית, שבמקומות אלה התפוצה של תכני ההסתה והשנאה גדולה הרבה יותר (ושוב אנחנו חוזרים לסוגיית הפריסה והריכוז של תכנים אלו), ושנית שייתכן שמטא בכלל לא מודדת בצורה מלאה את כל התכנים האסורים והמסוכנים.
4 צפייה בגלריה
מפגין תומך של דונלד טראמפ מחוץ ל גבעת הקפיטול ב ארה"ב ג'ייקוב אנתוני צ'נסלי נעצר אחרי כמה ימים
מפגין תומך של דונלד טראמפ מחוץ ל גבעת הקפיטול ב ארה"ב ג'ייקוב אנתוני צ'נסלי נעצר אחרי כמה ימים
מפגין מחוץ לגבעת הקפיטול בוושינגטון. פייסבוק לא עצרה אותו
(צילום: איי אף פי)
הנתונים של מטא מתייחסים רק לתכנים שהיא זיהתה והסירה בפועל. הם לא כוללים, ולא יכולים לכלול, את תכני ההסתה, האלימות, הביריונות וההטרדה שהמערכות שלה לא מזהות, כי הם נכתבו בשפה או בניב שהאלגוריתם לא מכיר מספיק טוב ושאיש מבקרי התוכן של החברה לא דובר. ייתכן שהמספרים בפועל גדולים משמעותית מאלה שמציגה החברה, אבל אין לנו כל דרך לדעת.
מה שאנחנו כן יכולים לדעת הוא מה קורה במקומות שבהם המערכות של מטא כושלות. למשל באתיופיה, שם הכשל של מטא לבלום את התפשטות שיח השנאה בפייסבוק מתדלק את מלחמת האזרחים. לוסי קאסה, עיתונאית מקומית שמסקרת נושאים כמו אלימות מינית ורעב מכירה את זה היטב. "בכל פעם שאני מפרסמת סיפור, מתחיל קמפיין הסתה נגדי בפייסבוק", היא סיפרה ל-Vice, "התוכן הוא ביטויי שטנה. אל ההשמצות והוצאת דיבה, והמטרה היא להפחיד אותי כדי שאעצור את התחקירים שלי, להטריד אותי ולאיים עלי".
במאי, למשל, אחרי שדיווחה קאסה על בת 13 שסובלת מכוויות מחרידות בכל גופה אחרי מתקפה צבאית, חשבון פייסבוק פרו-ממשלתי עם 200 אלף עוקבים פרסם תמונה שלה וקרא למעצרה (באתיופיה נעצרו בסכסוך הנוכחי כבר כמה עשרות עיתונאים). במשך שבועות סבלה קאסה מהטרדה בפלטפורמות מדיה חברתית, כולל איומים במוות ובאלימות מינית. הפוסט עדיין באוויר, עם 6,000 לייקים, אלף תגובות ומי יודע כמה צפיות (שלא נספרו על ידי מטא). זה ממחיש שגם כשהמספרים קטנים, הנזק שיכול להיגרם לפרטים הוא ממשי ומשמעותי.
זה לא הכל. לפני כחודש החל להסתובב בקרב משתמשים אתיופיים סרטון ויראלי שבו אדם קורא למיעוטים מסוימים "האויב". הוא פורסם ושותף מספר פעמים לפני שהוסר. פוסט אחר, מהחשבון שתקף את קאסה, שמשבח מעשי רצח של מליציה מקומית בשם אמהרה, לא הוסר. חשבון עם 28 אלף עוקבים העלה באפריל סרטון שמיועד לחברי אמהרה ומסביר איך להשתמש בקלצ'ניקוב. הוא עדיין באוויר, עם יותר כמעט 300 אלף צפיות. ב-30 באוקטובר חוקרים זיהו בפייסבוק פוסט ויראלי באמהרית שקורא בבירור לביצוע ג'נוסייד ואלימות נגד מיעוטים. לפייסבוק נדרשו 24 שעות להסיר אותו. וזה בלי לדבר על פייק ניוז ושקרים מסוגים שונים, שנגדם פייסבוק אפילו לא מתיימרת לפעול בנחישות.
4 צפייה בגלריה
טימניט גברו לשעבר חוקרת בתחום הבינה מלאכותית ב גוגל
טימניט גברו לשעבר חוקרת בתחום הבינה מלאכותית ב גוגל
טימניט גברו, לשעבר חוקרת בתחום הבינה מלאכותית ב גוגל
(צילום: גטי)
זה קורה כי האלגוריתם של פייסבוק מתקשה עם שפות אתיופיות כמו אמהרית ואורמו, וכי אין לה מספיק בקרי תוכן על מנת לנטר תכנים בשפה זו. פייסבוק, מצדה, טוענת שהיא הוסיפה בשנים האחרונות בקרים שדוברים את השפות המקומיות באתיופיה (אך לא מסרה כמה היא מעסיקה בפועל) והוסיפה זיהוי אוטומטי באמהרית ובאורמו, אולם חוקרים לא מתרשמים ומצביעים על כך שמאמצי החברה לא מספקים. התוצאה היא שבמקרה הטוב תכנים מסוכנים נשארים באוויר זמן רב ובמקרה הרע מטא בכלל לא מודעת לקיומם, לא מסירה אותם וכמובן שלא סופרת אותם.
"זה לא מספיק בכלל. זו התוצאה של להיות מודאגים?", אמרה ל-Vice ד"ר טימניט גברו, לשעבר ראשת צוות האתיקה בבינה מלאכותית של גוגל וילידת אתיופיה. "גם כשהם אומרים 'הוספנו תמיכה בשפה מקומית'. איך יכולתם לפעול במדינה לפני שעשיתם את זה? אנשים מבקרים אותם על המעט שהם עושים בארה"ב. דמיינו איך זה במקום אחר: הם עושים כמעט כלום".
זו המשמעות האמיתית של הנתונים שמציגה מטא. הם אולי נראים יפה על המסך ומספרים סיפור חביב על רשת חברתית עם מעט מאוד תוכן מסוכן, אבל מדובר בלא יותר ממצג שווא שכולל הצגה מטעה של הנתונים ומעוות את היקף הבעיה האמיתי - היעדר תובנות לגבי מה שמתרחש בפועל ברמה אזורית, חוסר התייחסות לכך שהנתונים אולי לא מייצגים את היקף הבעיה המלא והתעלמות מהעובדה שבתחתית המשפך יושבים אנשים שכל הזוהמה והרפש זולגים עליהם מלמעלה. ואין אף אחד במטא שיכול או רוצה לעזור להם.