האם האינטרנט קטן מדי?

בינה מלאכותית לתמונות שלכם וגיל שויד על איומי הסייבר ואיך הוא משתמש בצ׳אט ג׳יפיטי

Omri Barak

Apr 13, 2024

היי ושבוע טוב! השבוע בניוזלטר

OpenAI השתמשה בסרטוני יוטיוב כדי לאמן את GPT-4; האם האינטרנט גדול מספיק בשביל מודלי ה-AI?
גאדג׳ט ה-AI הסודי שמנסה לגייס מיליארד דולר
גיל שויד על איומי הסייבר ובינה מלאכותית
החידושים של גוגל: עריכת תמונה ב-AI לכולם, תקציר ותרגום בזמן אמת
הצמיחה של טיקטוק: ממש לא רק בני נוער

אם עדיין לא נרשמתם לעדכון השבועי שלי, לחצו כאן, והניוזלטר יגיע בכל שבת ישירות למייל. לשיתוף הניוזלטר בווטסאפ

OpenAI תמללה סרטוני יוטיוב כדי לאמן את GPT-4

OpenAI Lifted YouTube Data for Its AI Efforts, an Apparent Violation of Google's Rules (Report) - TheWrap

בשבועות האחרונים שורה של דיווחים הטוענים כי חברות ה-AI כמו גוגל ו-OpenAI נתקלו בקיר בכל הקשור לאיסוף מידע איכותי שיאמן את מודלי השפה הגדולים שלהם. בעצם כדי שצ׳אט ג׳יפיטי או ג׳מיני של גוגל ימשיכו להתפתח ולהציג קפיצות טכנולוגיות משמעותיות כפי שראינו עד היום, הן חייבות מידע חדש ואיכותי. זה לדוגמה הפער בין כמויות המידע בין GPT-3 ל-GPT 4, שהוביל לשדרוג המשמעותי:

על פי הפרסומים השבוע בניו יורק טיימס , החברות פועלות בשטח האפור בכל הקשור לחוקי זכויות יוצרים. כך למשל באחד המקרים דווח כי OpenAI תמללה מיליוני שעות של סרטוני יוטיוב כדי לאמן את מודל ה-GPT-4, זאת למרות שהחברה ידעה שזה ממש לא בהכרח נופל תחת שימוש הוגן -Fair Use. מתברר כי גם גוגל עשתה שימוש בתמלולים של סרטוני יוטיוב, ועל פי החברה זה נעשה ״לפי ההסכמים שלה עם יוצרי התוכן של הפלטפורמה״.

במשך תקופה ארוכה, החברות לא חשפו על בסיס מה מתאמנים המודלים האלו. על פי הדיווח הזה, בשנה האחרונה גוגל הרחיבה את תנאי השימוש שלה כך שבעצם היא יכולה לקבל גישה ולעשות שימוש בתכנים פומביים כמו: מסמכי גוגל, ביקורות של מסעדות שנכתבו על ידי גולשים - כל אלו היו חלק מהתכנים שאימנו את מודלי הבינה המלאכותית. גוגל טענה בתגובה שהשינויים רק נועדו לצורכי שקיפות, ושהחברה לא עושה בהן שימוש״ (נכון לכרגע).

גם מטא נתקלת באותה בעיה, בין היתר בגלל העובדה שהתכנים בפייסבוק פחות איכותיים - בעיקר מפרסמים שם תמונות, ומימים - ופחות מה שמוגדר תוכן איכותי. על פי הדיווח בטיימס סגן הנשיא במטא האחראי על בינה מלאכותית אמר לבכירים בחברה ״שהמחלקה שלו עשתה שימוש בכמעט כל ספר, כתבה, או שיר שנכתב באנגלית ברשת, ושיהיה להם קשה מאוד להגיע לרמה של צ׳אט ג׳יפיטי מבלי גישה לעוד מידע. אחת האופציות שנבדקו היא רכישה של הוצאת הספרים ״סיימון ושוסטר״ שיעזור להם ללמד את המודל של פייסבוק.

למה זה חשוב? קודם כל כמובן שיש פה שאלה משפטית, האם זה בכלל חוקי לעשות שימוש במידע שבין היתר כולנו העלנו לרשת כדי לאמן את המודלים האלו? אז נגיד שהחברות יצליחו לצאת איכשהו מהתביעות שהוגשו ויוגשו כנגדן על שימוש לא הוגן ופגיעה בזכויות יוצרים. זה לא בהכרח יספיק להן, על פי דיווח בוול סטריט ג׳ורנל מתברר כי עד 2028 חברות ה-AI צפויות לעשות שימוש בכל התוכן הקיים ברשת - כולל תוכן חדש - כתבות, פודקאסטים, ספרים, סרטים סדרות וכו - ואז נשאלת השאלה האם מודלי ה-AI פגשו בחומה מה שיגרום להם להפסיק לצמוח ולהשתפר?

מה הפתרון? אחת האופציות הנבחנות, הוא לימוד של המודלים האלו על ידי ״תכנים/נתונים סינתטיים״, בעצם תכנים שנוצרו על ידי המודלים עצמם. או במילים אחרות - ה-AI ייצר תכנים כדי ללמד את ה-AI. גישה שעדיין לא הוכחה.

השבוע בטראשTech:

על המלחמה של הזמרים נגד הבינה המלאכותית, על ליקוי החמה שגלגל יותר ממילארד דולר לכלכלת ארצות הברית, הפייק ששיגע את לברון ג׳יימס וה-NBA וגם - המנצחים והמפסידים של השבוע

גאדג׳ט ה-AI הסודי שמגייס מיליארד דולר

Jony Ive and OpenAI's Altman reportedly collaborating on AI smartphone | Ars Technica

סאם אלטמן, מנכ״ל OpenAI והמעצב האגדי של אפל, ג׳וני איב מגייסים בימים אלו מיליארד דולר למיזם הסודי של - גאדג׳ט AI שאמור להחליף את האייפון. המוצר לא צפוי להיראות כמו טלפון, אבל כן ככל הנראה יעשה שימוש בבינה המלאכותית של OpenAI המאפשר שיח דמוי אנושי. אלטמן הוא משקיע מרכזי ב-Humane AI Pin, בינה מלאכותית לבישה (סיפרתי עליה כאן), שאולי תזכיר רעיונית את המוצר שהוא עובד עליו עם איב.

גיל שויד על איומי הסייבר ובינה מלאכותית

אם יש זירה אחת גלויה וברורה שבה אנחנו כבר נלחמים באיראניים היא זירת הסייבר (נכון לכתיבת שורות אלה לפחות), כך אמר לי השבוע גיל שויד בראיון שערכתי איתו לכנס של הקהילה העסקית של תגלית. מאז תחילת המלחמה ב-7 באוקטובר בזירת הסייבר עובדים מסביב לשעון כדי לעצור מתקפות מכל העולם, כשמרביתן מגיעות מאירן. על פי נתונים של חברת צ׳ק פוינט שפורסמו השבוע - רק השבוע היו יותר מ-2000 מתקפות לעומת 1000 בממוצע בשבועות שלפני כן, כשמרביתן מבוצעות על ידי משמרות המהפכה ומשרד המודיעין האיראני. המטרות הן לרוב מוסדות, ארגונים וחברות בניסיון לשבש את פעילות החברות, ליצור פגיעה כלכלית וכן מלחמה פסיכולוגית.

דיברתי עם שויד גם על העובדה שהודיע שויד ממש השנה כי לאחר 31 שנים כמנכ״ל החברה הוא יעזוב את התפקיד ויהפוך ליו״ר צ׳ק פוינט, הוא סיפר כי הוא כבר החל לחפש מחליף והוסיף ״שהוא מאוד רוצה שיהיה ישראלי״.

לסיום שאלתי אותו גם על מהפכת ה-AI, סקרן אותי לשמוע מה איך אדם עם ניסיון כשלו רואה את התקופה הזו שבה כל יום יוצא עדכון חדש וגם והאם הוא עושה שימוש בכלים השונים, הוא סיפר כי נעזר באופן תדיר בצ׳אט ג׳יפיטי ואפילו מייצר סיפורים ותמונות לילדים שלו. ואגב, לשאלה האם חושש ממקצועות שייעלמו, או עובדים שיפוטרו לטובת הרובוטים הוא אמר כי הדבר דומה למהפכות שחווינו בעבר והחשיבות היא באימוץ הטכנולוגיה ולא לפחד ממנה.

Three images showing the steps of using Magic Eraser in Google Photos.

פיצ׳ר עריכת התמונה בעזרת ה-AI יפתח לכל מי שמשתמש באפליקציית גוגל פוטוס, ללא צורך ברישום או תשלום. מדובר על הפיצ׳ר המאפשר למחוק בקלות אובייקטים מהתמונה ותיקון האור (הצפי 15 במאי). גוגל תאפשר עד 10 עריכות בחודש בחינם.
תרגום בזמן אמת וסיכום פגישה: בעלות של 10$ בחודש, גוגל מציגה פיצ׳ר שיסכם את הפגישה בזמן אמת ויתרגם את ל-69 שפות שונות.

הצמיחה של טיקטוק: ממש לא רק בני נוער

ההכנסות של בייטדאנס, הבעלים של טיקטוק, צמחו ב-2023 ב-66% ל-120 מיליארד דולר (מתוך זה טיקטוק הכניסה כ-20 מיליארד דולר). מטא (פייסבוק,אינסטגרם וכו) בהשוואה - הכניסה 135 מיליארד דולר.

📖 - מה אני קורא / עוד כותרות

בזכות עדכון חדש: ChatGPT יפסיק לחפור לכם בתשובות
ספוטיפיי בוחנת יצירת פלייליסטים בידי בינה מלאכותית מפרומפטים של טקסט
טיקטוק השיקה אפליקציה חדשות באירופה, שמשלמת למשתמשים על שימוש
Udio כלי בינה מלאכותית שמאפשר ליצור שיר (עד 40 שניות) משורת טקסט