סקירה מהירהמסוכם אוטומטית
  • מאגרי הטקסט האנושי באינטרנט מתקרבים למיצוי, עם תחזית לכילוי עד 2032.
  • תוכן שנוצר על ידי בינה מלאכותית עוקף כמותית תוכן אנושי ברשת, ומאיים על איכות האימון.
  • דאטה מקומית ומקצועית הופכת לנכס אסטרטגי לאומי, כולל בישראל.

בעוד שרוב המיקוד כיום הוא על שבבים מתקדמים וחוות שרתים ענקיות, המרוץ של הבינה המלאכותית נתקע דווקא ברכיב הכי שקוף בנוסחה: דאטה אנושית איכותית. חוקי הגדלת קנה המידה (Scaling laws), שהניחו כי יותר כוח מחשוב ועוד פרמטרים יפתרו את הכל, מתנגשים כעת עם תקרת זכוכית חדשה: מחסור בחומרי גלם אמינים, נגישים ולא ממוחזרים.

הבינה המלאכותית המודרנית נבנתה במידה רבה על האינטרנט, אך המאגר הזה אינו אינסופי, וכעת מתברר שהוא מתקרב למיצוי. חלקים רבים כבר נוצלו, בעוד שאחרים נסגרים תחת חומות רישום או מתערבבים בתוצרים של המודלים עצמם. בני האדם פשוט לא מייצרים טקסט איכותי חדש בקצב שישביע את התיאבון של מודלי הענק.

לפי הערכת Epoch AI, תחת תנאים מסוימים, מודלי שפה גדולים עלולים לכלות את מלאי הטקסט הציבורי האנושי מתישהו בין השנים 2026 ל-2032. השגת מאגרי מידע מקוריים ומורשים הופכת, אם כן, לחזית קריטית לא פחות מפיתוח שבבים.

לא כל דאטה היא מזון טוב למודל
התוכן ברשת אינו ספרייה מסודרת, אלא בליל של תוכן שיווקי, מידע משוכפל, הטיות ורעש. לכן, הצפת המודל בעוד דאטה לא בהכרח מוסיפה לו ידע. דוח מדד הבינה המלאכותית של Stanford HAI מדגיש כי האיכות בשלבי האימון הראשוניים של המודל נובעת דווקא מהפעולה ההפוכה: סינון וניקוי אגרסיבי. הדוח מציג למשל כיצד המודל הפתוח Olmo 3.1 Think 32B, עם כמעט פי 90 פרמטרים פחות ממפלצות מסחריות כמו Grok-4, הציג תוצאות דומות במדדים מסוימים, בזכות גיזום, הסרת כפילויות ובחירה קפדנית של חומרי האימון.


פתרון אינטואיטיבי נוסף למחסור הוא למלא את הפער במידע שמייצרים המודלים עצמם. זהו הרעיון שמאחורי דאטה סינתטית. אלא שכאן נחשף הגבול בין שני שלבים בחיי המודל. השלב הראשון הוא האימון הבסיסי (pre-training), שבו המערכת פוגשת את העולם דרך טקסטים ומפתחת ידע כללי, עובדות ודפוסי חשיבה. בשלב הזה, דאטה סינתטית היא משענת קנה רצוץ, משום שאימון על תוצרים של מודלים אחרים משטיח ומעוות את ההתפלגות של הידע האנושי.

חוקי המשחק משתנים כאשר המודל עובר לשלב של חידוד, התאמה ויישור (Fine-tuning). כאן, דאטה סינתטית הופכת לסיפור הצלחה. המערכת כבר לא לומדת את המציאות מאפס, אלא מתאמנת על מעקב אחר הוראות, נימוק ופתרון בעיות מורכבות. במקום להאכיל אותה במידע חדש, מייצרים עבורה סימולציות ומשימות בסביבה מבוקרת. לפיכך, לדאטה סינתטית יש ערך, אך היא אינה באר חדשה של אנושיות. היא דומה יותר למערכת השקיה מתוחכמת, ויעילה, התלויה לחלוטין במקור מים חיים.

כשהמודלים מתחילים לאכול את עצמם
אל תוך משוואת המחסור נכנס זיהום סביבתי חדש. הבינה המלאכותית אינה רק צורכת את האינטרנט, היא משנה אותו. מאז פריצת הכלים הגנרטיביים, הרשת מתמלאת בתוצרים של מכונות. מחקר של חברת Graphite, שבחן מדגם של כ-65 אלף כתבות באנגלית מתוך Common Crawl, המשמש כבסיס לאימון מודלים, מצא שבנובמבר 2024 מספר הכתבות שנוצרו בבינה מלאכותית עקף לראשונה את מספר הכתבות האנושיות במדגם. הנתון הזה מסמן שינוי אקולוגי עמוק, המוביל ללולאה מסוכנת של זיהום ידע. במקרים קיצוניים, התעשייה מדברת על "קריסת מודל" (Model collapse), מצב שבו המערכת תפסיק ללמוד על המציאות האמיתית, ותתחיל לחקור את ההדהוד של עצמה.


הבעיה אינה עצם השימוש ב-AI. הכלים הללו כבר הפכו לחלק בלתי נפרד מסביבת העבודה של עיתונאים, רופאים ומשפטנים. הזיהום מתחיל כשהפלט מדלג על פילטר אנושי. טקסט שנשלף ממודל ומועתק כמות שהוא, ללא מעבר דרך מחשבה מקצועית, נראה כמו ידע, אבל בפועל הוא מכניס לרשת שגיאות, ציטוטים לא קיימים, מסקנות שטוחות והקשרים מזויפים. כאשר תרבות ה״העתק-הדבק״ הזו נכנסת למאגרי האימון העתידיים, היא מלמדת את הדור הבא של המודלים לחקות ידע שלא באמת נבדק מול העולם.


לעומת זאת, עבודה מבוקרת עם המודל יכולה דווקא להשביח את הדאטה האנושית. עיתונאי שמשתמש במודל כדי לארגן טיעון, לבדוק זוויות או לאתגר את קו המחשבה שלו, אך מוסיף מחקר, הקשר, ושיפוט עצמאי, אינו ממחזר את המכונה, אלא מייצר תוצר חדש. רופא שמסתייע במודל כדי לנתח מקרה מורכב, אך בודק את הספרות הרפואית, מנפה מקורות שגויים, מוסיף הסתייגויות קליניות ונושא באחריות לתשובה, אינו מזהם את התיעוד הרפואי. להפך, הוא משאיר אחריו עקבה מקצועית עשירה ומדויקת יותר, שתשמש כחומר גלם מעולה למודלים רפואיים עתידיים.


במציאות הזו לא מספיק להטמיע את השימוש בטכנולוגיה, אלא יש להגדיר פרוטוקול של אחריות מקצועית. המבחן האמיתי הוא היכולת של המומחה לעבוד באינטגרציה עם המודל ולא להיעלם בתוכו, כך שהתוצר הסופי יישא תמיד חתימה של מומחיות אנושית. ללא הבקרה הזו, הרשת תתמלא בטקסטים חסרי ערך.הטמעה אחראית, לעומת זאת, תהפוך את הבינה המלאכותית מכלי שממחזר את הרשת, לכלי שמחדד את המחשבה האנושית.

הבהלה לזהב של מאגרי המידע
כשהרשת הפתוחה הופכת למגרש משחקים רועש ומזוהם, הערך האמיתי נודד אל מאחורי חומות תשלום: מאגרי דאטה קנייניים. מקורות מידע סגורים, מאומתים ומוגנים בזכויות, כמו ארכיוני עיתונות, מאמרים מדעיים, תיקים רפואיים, פסיקות משפטיות וקוד מקצועי, הופכים לחומר הגלם היקר ביותר. סביב המאגרים האלו התפתח בשנים האחרונות שוק פרוע של הסכמי בלעדיות, חומות רישום ורישיונות מסחריים. זוהי תזוזה דרמטית ביחסי הכוחות.

מידע איכותי שבעבר נתפס כמשאב ציבורי נגיש, מולאם כעת וננעל מאחורי חומות. מי שבידיו הון עתק ופלטפורמות ענק, יקנה גישה לבארות הידע הנקיות. מנגד, חברות סטארטאפ בתחילת דרכן, חוקרים עצמאיים והציבור הרחב עשויים להישאר מחוץ לגדר, עם אינטרנט רועש, ממוחזר ומזוהם. במובן הזה, המחסור בדאטה הוא עוד מנגנון של ריכוז כוח. ריבונות בבינה מלאכותית, אינה מסתכמת רק בשבבים ובמרכזי נתונים, אלא גם בשליטה על המידע: מי מחזיק בו, מי רשאי להשתמש בו, ובאיזו מידה הוא מייצג את החברה שהמערכת אמורה לשרת. זהו יתרון לאומי שלא בהכרח ניתן לקנות בכסף ברגע האחרון.

מי מחזיק במפתח לבאר הנקייה?
במשך שנים נהנתה ארה״ב מיתרון עצום בזכות השפה האנגלית והרשת הפתוחה, אך כשהמקור הזה מתקרב למיצוי ומזדהם בתוכן סינתטי, היתרון עובר למי שמחזיק במאגרים סגורים, מקצועיים וייחודיים. סין, מנגד, מציגה מודל אחר. היא נהנית מאוכלוסייה עצומה, פלטפורמות פנימיות ויכולת מדינתית לארגן מידע בדרכים שהמערב לא יכול ליישם.

בארה״ב הכוח מבוזר בין חברות ענק ושוק רישיונות מסחרי; בסין, הגבולות בין המדינה, התעשייה והדאטה כמעט ואינם קיימים. במילים אחרות, התחרות בין המעצמות מתמקדת ביכולת לחבר בין המידע, החוק והמדינה, ולא בצבירת כמויות של טקסט גולמי. למדינות קטנות ולשפות מקומיות יש אתגר מסוג אחר. מצד אחד, אין להן מאגרי טקסט בממדים של אנגלית או סינית, והתרבות המקומית שלהן כמעט אינה מיוצגת במודלים הגלובליים.

מצד שני, דווקא בגלל המחסור הזה, דאטה איכותית בשפות קטנות הופכת לנכס אסטרטגי. למאגר מקומי ומאומת, שמחזיק בהקשר התרבותי, החברתי והמוסדי, יש יתרון על פני מודל זר שמבין שהוא את ההקשר הזה רק מבחוץ. המרוץ הזה מסמן את סוף עידן הצבירה הגולמית, שבו המדד היחיד להצלחה היה שאיבת טקסט נוסף מהאינטרנט. בחזית החדשה, דאטה נקייה, מקורית ובעלת ערך נחוצה לא פחות ממאיצים גרפיים.

מהרשת העולמית אל הדאטה הישראלית
עבור ישראל, זהו בדיוק המקום שבו המגבלה יכולה להפוך ליתרון. בעולם שבו דאטה איכותית הופכת למשאב נדיר, עוצמתו של ידע מקומי נובעת מייחודיותו, ומחיבורו להקשרים שמודלים גלובליים אינם מסוגלים לפענח. שאלת המפתח עבור מדינה קטנה היא: מי מחזיק ידע אנושי אמין, נקי, מקומי ומורשה לשימוש? ההבנה כי דאטה מקומית היא נכס אסטרטגי כבר מתחילה להתרגם למדיניות בשטח. רשות החדשנות פרסמה מהלך להקמת שישה מאגרי מידע לאומיים בתחומי הבריאות והחקלאות, בהשקעה של 44 מיליון שקל, כחלק מהתשתיות ה-AI הלאומיות. זהו צעד שמפנים כי דאטה היא תשתית מחקר ופיתוח עצמאית, ולא סתם תוצר לוואי של בירוקרטיה. הדוגמה הבולטת ביותר לפוטנציאל הזה נמצאת במערכת הבריאות.

קופות החולים, הרציפות הטיפולית, והדיגיטציה ארוכת השנים יוצרים בסיס יוצא דופן לפיתוח מודלים רפואיים, כלי אבחון, רפואה מותאמת אישית, וניהול חכם של מערכות בריאות. מנגד, זהו גם אחד התחומים הרגישים ביותר. הנגשת דאטה רפואית ללא בקרה הדוקה פוגעת בפרטיות ובאמון הציבור. אימון מודלים על מאגרים אלו דורש הגדרת מדיניות ברורה: אנונימיזציה, סביבות מחקר מאובטחות, פיקוח, אתיקה ותנאים שמחזירים ערך לציבור.


העיקרון הזה נכון לכלל נכסי הידע במדינה. ככל שהמרוץ העולמי עובר ממקורות פתוחים למאגרים סגורים ומאומתים, חברות הענק הגלובליות יבקשו לרכוש גישה גם לארכיונים, לעיתונות, למשפט ולאקדמיה הישראלית. זוהי אמנם הזדמנות כלכלית, אך היא טומנת בחובה סיכון אסטרטגי. הידע המקומי עשוי להיבלע בתוך המודלים הזרים מבלי שהמדינה תקבל בתמורה שליטה, יכולת מחקרית או יתרון תעשייתי. הפתרון הוא מעבר לרישוי חכם. הסכמים מסחריים מול חברות טכנולוגיה חייבים לכלול תנאים קשיחים של הגנת פרטיות, שמירת זכויות יוצרים, הבטחת גישה למחקר הישראלי, ומעמד רשמי למוסדות מקומיים בפיתוח המודלים העתידיים. אחרת, ישראל עשויה למכור את הדאטה שלה, ובהמשך לשלם סכומי עתק כדי לקנות בחזרה את הטכנולוגיה שנבנתה עליה.
לצד המאגרים המקצועיים, יש לישראל נכס נוסף שקל לטעות בערכו: השפה עצמה. טעות נפוצה בדיון המקומי היא תפיסת השפה כבעיית לוקליזציה פשוטה. הצורך שהמודלים ״ידעו עברית״, יתרגמו היטב או יבינו פקודות. אך השפה מייצגת הרבה מעבר למילים.

היא מקפלת בתוכה תרבות, סלנג, ותפיסת מציאות ייחודית. מודל זר יכול לשלוט בעברית ברמה טכנית טובה, ועדיין לפספס את הטרמינולוגיה המשפטית המקומית, את עולם המושגים הממשלתי, או את הסלנג של הרחוב הישראלי. לכן, תשתיות שפה בעברית ובערבית הן שכבה של ריבונות, ולא רק שירות נוח לאזרח. התוכנית הלאומית לעיבוד שפה טבעית (NLP) מחדדת שעברית וערבית שונות מאוד מאנגלית, ושפות הרחוקות מהמבנה האנגלי נותרות מאחור משום שקשה ויקר יותר להתאים להן פיתוחים קיימים. כדי לגשר על הפער, התוכנית מפתחת ומנגישה מאגרי משאבים, מודלים וכלים פתוחים בשתי השפות.

הארכיון הוא כבר לא העבר, הוא העתיד
ככל שהאינטרנט מתמלא בתוכן סינתטי וממוחזר, ישראל נדרשת להגן על מקורות הידע האנושיים האמינים שלה, כדי שיהוו את הבסיס לאימון, להתאמה ולבדיקה של מערכות בינה מלאכותית מבוססות הקשר. במובן הזה, מוסדות הידע המסורתיים הם תשתית המחשוב העתידית. אוניברסיטאות, ארכיונים, בתי משפט, ספריות וגופי תיעוד ציבוריים מחזיקים בשכבות עמוקות של ידע מאומת.

פרויקטים תרבותיים, כמו תמלול מסמכי גניזת קהיר באמצעות בינה מלאכותית, מזכירים עד כמה מאגרי שפה עתיקים הופכים ממשאב היסטורי נשכח למנוע מחקר טכנולוגי חי, ברגע שהם עוברים דיגיטציה וארגון נכון. השורה התחתונה כאן היא פוליטית ואסטרטגית כאחד: מדינה שמחלישה את מוסדות הידע והרוח שלה, מחלישה באופן ישיר את היכולת שלה לבנות מערכות בינה מלאכותית אמינות וריבוניות.

המשמעות עבור ישראל ברורה: דאטה אינה תוצר לוואי של פעילות דיגיטלית, היא תשתית לאומית. אם כוח החישוב הוא החשמל של ה-AI, דאטה איכותית היא המזון שלה. כדי להוביל, על ישראל לבסס את מדיניות המידע שלה על ארבעה עקרונות מנחים: איכות (סינון, סימון וניקוי תוכן סינתטי); ייחודיות (התמקדות בעומק המקצועי והלשוני); רישוי (הצגת תנאים אסטרטגיים קשיחים מול חברות הענק); ונגישות בטוחה (פתיחת המאגרים למחקר ולתעשייה תוך שמירה מוחלטת על הפרטיות). צוואר הבקבוק הבא של עולם הטכנולוגיה יכול לשחק לטובתנו, ברגע שנפנים כי המידע שנצבר במערכות הציבוריות שלנו הוא נכס אסטרטגי מהמעלה הראשונה. אם נשכיל להגן על הידע המקומי, לזקק אותו, ולנהל אותו בחוכמה, הוא יהפוך לשכבת הריבונות הבאה של המדינה. אם נכשל בכך, נישאר תלויים במערכות ענק גלובליות, שפשוט לא מכירות אותנו מספיק.

מעוניינים לקבל סקירה חודשית על כל מה שנעשה בתחום התקשורת?