אנתרופיק טוענת: חברות סיניות שאבו מאיתנו מידע כדי לשפר יכולות
מפתחת הצ'טבוט טוענת כי דיפסיק ושתי חברות סיניות נוספות ביצעו 16 מיליון אינטרקציות עם קלוד באמצעות חשבונות מזויפים, כדי לאמן את המודלים שלהן בשבריר העלות. לפי אנת'רופיק, המודלים שנוצרו חסרים את מנגנוני הבטיחות שמונעים שימוש ב-AI לפיתוח נשק ביולוגי ומתקפות סייבר
שלוש חברות AI סיניות, ובהן דיפסיק (DeepSeek), השתמשו בשיטות אסורות על מנת לשאוב מידע מהצ'טבוט קלוד כדי לאמן את המודלים שלהן – כך מאשימה מפתחת הצ'טבוט, אנתרופיק. לדבריה, שלוש החברות ביצעו 16 מיליון אינראקציות עם קלוד באמצעות 24 אלף חשבונות מזויפים, על מנת להפעיל ליישם טכניקה שמכונה "זיקוק" (distillation), במסגרתה מודלים מתקדם פחות מאומן באמצעות פלטים של מודל חזק יותר. "התחכום והתכיפות של מהלכים מסוג זה נמצאת בצמיחה", אמרה החברה בהודעה שפרסמה. "החלון לפעולה צר, והאיום גדול יותר מחברה אחת או מאזור אחד. התמודדות אתו דורשת פעולה מהירה ומתואמת של החברות, קובעי מדיניות וקהילת ה-AI העולמית".
לפני כשנה הדהימה דיפסיק את העולם כשחשפה את R1, מודל AI בעל יכולות דומות למודלים מובילים שאומן בעלות מזערית לעומתם. ימים ספורים לאחר שנחשף המודל, האשימו הבית הלבן ו-OpenAI את החברה בכך שהשתמשה בזיקוק על מנת לאמן את המודל. בשבוע שעבר, שבה OpenAI והעלתה שוב את האשמות אלו במזכר ששלחה לוועדת לענייני סין של בית הנבחרים. עתה, בהודעה שפרסמה, חושפת אנת'רופיק שתי חברות סיניות נוספות שאמנו את המודלים שלהם באמצעות שיטה זו – MoonShot AI ו-MiniMax – וגם נתונים על היקף ואופן השימוש שלהן.
דיפסיק, למשל, ביצעה 150 אלף אינטראקציות עם קלוד במטרה לשפר את יכולות ההיסק של המודל שלה וליצור חלופות מצונזרות לשאילתות בנושאים רגישים. "דיפסיק ג'ינרטה תנועה מסונכרנת בין החשבונות", הסבירה אנת'רופיק. "דפוסים זהים, שיטות תשלום משותפות ותזמון מתואם מצביעים על 'איזון עומסים' במטרה להגדיל את התפוקה, לשפר את האמינות ולהמנע מזיהוי. בטכניקה בולטת אחת, הפרומפטים שלהם ביקשו מקלוד לדמיין ולבטא את ההיגיון פנימי מאחורי תשובה, ולכתוב אותו צעד-אחרי-צעד – וכך יצרו למעשה מידע אימון מבוסס שרשרת חשיבה בקנה מידה רחב. גם זיהינו משימות שבהן נעשה שימוש בקלוד כדי לג'נרט חלופות מצונזרות לשאילתות בסוגיות בעלות רגישות פוליטית, כמו מתנגדי ממשל, מנהיגים במפלגה הקומוניסטית וסמכותניות. זאת, כנראה, במטרה לאמן את המודלים של דיפסיק להכווין את השיחות הרחק מנושאים אלו".
למונשוט (Moonshot) היו 3.4 מיליון אינטראקציות עם קלוד, ששימשו לאימון סוכני AI, כתיבת קוד, ניתוח דאטה וראייה ממוחשבת. "מונשוט עשתה שימוש במאות חשבונות מזויפים במספר שיטות גישה. סוגי חשבונות שונים הוגשו כדי להקשות על זיהוי הקמפיין כפעילות מתואמת. שייכנו את הפעילות לחברה באמצעות מטא-דאטה שתאם לפרופילים פומביים של בכירים במונשוט".
מינימקס (MiniMax) ניהלה עם קלוד 13 מיליון אינטראקציות, במטרה לפתח סוכני AI לכתיבת קוד. "זיהינו את הקמפיין כשעוד היה פעיל, לפני שמינימקס השיקה את המודל שאימנה, מה שסיפק לנו שקיפות חסרת תקדמים למחזור החיים של מתקפות זיקוק. החל מג'נרוט דאטה ועד השקת המודל. כשהשקנו מודל חדש בזמן הקמפיין של מינימקס הם ביצעו תפנית בתוך 24 שעות, והעבירו כמעט מחצית מהתעבורה שלהם ללכידת יכולות מהמערכות האחרונות שלנו".
לדברי אנת'רופיק, אף שלזיקוק יש שימושים לגיטימיים באימון מודלים והוא נמצא בשימוש רחב על ידי חברות AI שמזקקות את המודלים שלהן כדי ליצור מודלים קטנים וזולים יותר, יש לו גם היבטים אסורים. "מתחרות יכולים להשתמש בו כדי להשיג יכולות חזקות מחברות אחרות בשבריר הזמן והעלות שנדרשים לפיתוח עצמאי", הסבירה החברה. "למודלים אסורים מזוקקים אין את מנגנוני ההגנה הנחוצים, והם יוצרים סיכון לביטחון הלאומי. אנת'רופיק וחברות אמריקאיות אחרות מפתחות מערכות שמונעות שימוש ב-AI לפיתוח נשק ביולוגי או ביצוע מתקפות סייבר. מודלים שנבנו באמצעות זיקוק אסור לא משמרים מנגנונים אלו, ומאפשרים הפצה רחבה של יכולות מסוכנות. "חברות זרות שמזקקות מודלים אמריקאיים יכולות להזין את היכולות הללו למערכות צבא, מודיעין ומעקב – ולאפשר למשטרים סמכותניים לפרוס מודלי AIלביצוע מתקפות סייבר, קמפייני דיסאינפורנציה ומעקב המוני. עם מודלים מזוקקים מופצים בקוד פתוח, הסיכון גדל פי כמה וכמה כי היכולות מתפשטות באופן חופשי מעבר לשליטה של ממשלה אחת".
































