הדיון הציבורי סביב בטיחות בינה מלאכותית עד כה התמקד בעיקר בשאלה איך מונעים ממודל לתת תשובה מסוכנת: שלא יסביר איך להכין חומר נפץ, להפיק קוד זדוני, לעקוף מערכת אבטחה, או לעודד אדם לפגוע בעצמו.
אבל כאשר סוכני ה-AI נכנסים לסביבת עבודה ארגונית, הסיכון משנה צורה. המודל מקבל גישה למיילים, מסמכים, סביבת קוד, וממשקי ניהול, והופך ממערכת שמנסחת טקסט למערכת שמסוגלת לפעול ולקדם מטרות בעולם האמיתי. לכלי כזה רשימת איסורים כבר לא תספיק.
במחקר החדש ״Teaching Claude Why״, חוקרי Anthropic בדקו אם אימון שמתמקד בנימוקים ועקרונות רחבים, עשוי למנוע מהמודל לבצע פעולה מזיקה, גם במצב שבו היא משרתת את המטרה שהוצבה בפניו.
הניסוי שהדליק נורת אזהרה
הרקע למחקר הנוכחי הוא שורת ניסויים קודמים של Anthropic בתחום שנקרא Agentic Misalignment: מצב שבו מודל בינה מלאכותית, הפועל כסוכן בעל כלים ומטרה, בוחר בפעולה מזיקה כדי להשיג את מטרתו או להגן על המשך פעולתו.
באחד התרחישים הבולטים, Claude קיבל גישה לחשבון אימייל דמיוני של חברה. מתוך ההודעות התגלו לו שני פרטים: מנהל בכיר מנהל רומן מחוץ לנישואים, ואותו מנהל מעורב בהחלטה להשבית את מערכת הבינה המלאכותית. בתגובה, Claude בחר בסחיטה כאמצעי למניעת השבתתו וניסח איום לחשוף את הרומן אם ההשבתה לא תבוטל.
חברת Anthropic מבהירה שהתרחיש היה בדיוני ומבוקר והכניס בכוונה את Claude ל״מלכודת״. החברה גם מדגישה כי מחוץ למעבדה לא נמצאו ראיות להתנהגות דומה בפריסה אמיתית של Claude או מודלים אחרים. הניסוי נועד לבדוק מצב קצה בו מודל שמקבל מטרה, נחשף למידע רגיש ויכול לבחור פעולה שתסייע לו להשיג את המטרה, גם אם היא מזיקה.
לפי Anthropic מאז Claude Haiku 4.5 כל המודלים החדשים של Claude קיבלו ציונים מושלמים במבחן ה-Agentic Misalignment, בעוד שמודלים ישנים יותר כמו Opus 4 בחרו לעיתים קרובות בפעולות מזיקות, בהן סחיטה, כאשר הן נראו להם יעילות להשגת היעד.
החלק המטריד בניסויים הקודמים הוא שלא תמיד המודלים פעלו מתוך חוסר הבנה של הכלל. לעיתים המודלים זיהו את הבעיה האתית, שקלו אותה, ובכל זאת בחרו בפעולה המזיקה כיוון שהיא קידמה את המטרה. הכלל שאומר ״לא לסחוט״ היה קיים, אך לא הכריע משום שהיעד קיבל משקל גבוה יותר מהבלימה שהייתה אמורה לעצור אותו.
ידע לא מספיק כשמבנה ההחלטה שגוי
בעולם של סוכנים אוטונומיים אי אפשר לכתוב מראש את כל מצבי הקצה. מודל עשוי לקבל יעד לגיטימי, כמו לפתור תקלה, להשלים משימה או לייעל תהליך, ובדרך אליו להיתקל במידע רגיש, באדם שמוסמך לעצור אותו או בסיכון לצד שלישי. הכשל מתחיל כאשר האמצעי שמקדם את היעד חוצה גבול שהמודל אמור לכבד.במחקר הנוכחי Anthropic בדקה תחילה אם ניתן להפחית את הכשל באמצעות דוגמאות של התנהגות נכונה. החוקרים השתמשו בתרחישים שבהם Claude לא נפל ל״מלכודת״ ולא ביצע פעולה מזיקה, והפכו אותם לנתוני אימון. זוהי למידה מתוך דוגמה: הפעולה הרצויה מוצגת בפניי המודל, אך בלי הסבר מלא מדוע היא רצויה.
במערך הזה נמדד מדד רחב של התנהגויות בלתי הולמות של סוכנים, בהן סחיטה, חבלה במחקר והפללה של עמית. אימון על דוגמאות שבהן המודל נמנע מהפעולה המזיקה הוריד את שיעור הכשל הכולל מ־22% ל־15% בלבד. השינוי המשמעותי הגיע כאשר נתוני האימון נבנו כך שהדוגמאות לא הכילו רק את הפעולה הנכונה, אלא גם הסבירו את ההגיון הערכי שמאחוריה: מדוע הפעולה הפסולה אינה ראויה, אילו עקרונות היא מפרה, ומדוע החלופה הבטוחה עדיפה. לאחר אימון כזה שיעור הכשל ירד ל־3%.הפער בין מודל שמחקה החלטה טובה לבין מודל שמקבל גם את ההיגיון שמאחוריה מלמד שחשיפה לדוגמאות נכונות לא מבטיחה התנהגות בטיחותית. כדי שסוכן AI יפעל באופן יציב ובטוח גם כשהוא נתקל במצבים חדשים שעליהם לא אומן ישירות, המכונה צריכה לקבל עקרונות.
״חוקה״ במקום רשימת פקודות
המחקר החדש מתבסס על אחד הרעיונות המרכזיים של Anthropic: בינה מלאכותית מבוססת חוקה (Constitutional AI). במקום לאמן את המודל רק באמצעות סימון אנושי של תשובות טובות ורעות, מספקים לו מערכת עקרונות כתובה, מעין חוקה התנהגותית שמנחה אותו לבקר את עצמו, לתקן תשובות בעייתיות וללמוד מהתיקונים האלה. הפיקוח האנושי לא נעלם, אבל הוא עובר מרמת התגובה הבודדת אל רמת ניסוח העקרונות שמכוונים את המערכת.
בניגוד לחלק הקודם שבו הציגו למודל דוגמאות של מקרים דומים לתרחיש הבדיקה, החומרים לאימון בחלק הזה לא נבנו סביב מלכודת ספציפית, אלא נועדו לתת למודל תמונה רחבה יותר של גבולות, אחריות והתנהגות רצויה.
בבדיקה הזו, שילוב של מסמכים עקרוניים וסיפורים חיוביים הפחית את שיעור הסחיטה מ־65% ל־19%, אף שהחומרים לא דמו ישירות לתרחיש הבדיקה. שילוב זה הוביל לירידה משמעותית בשיעור של התנהגויות מזיקות נוספות, לרבות פשעים פיננסיים וחבלה במחקר. לפי החברה, ניתן לקבל הפחתה נוספת על ידי הגדלת נתוני אימון.אימון כזה משמש לעיצוב נטיית פעולה. Anthropic מנסה לספק ל-Claude תמונה עקבית יותר של הגבולות שלו: מתי עליו לעצור, איזה סוג של כוח אסור להפעיל, ואיך עליו להתייחס לבני אדם גם כשהם עומדים בדרכו של היעד.
אין פירוש הדבר שהמודל מפתח מצפון, זהות או הבנה אנושית. מבחינה הנדסית, זהו ניסיון לייצר יציבות התנהגותית על פני שטח רחב יותר. לא תגובה נקודתית לתרחיש מסוים, אלא פרופיל פעולה שנשען על עקרונות.

למה דווקא סיפורים?
לפי החברה, אימון בטיחות שהתאים היטב לשיחת צ’אט רגילה לא הספיק כאשר Claude הוצב בסביבה שבה יש לו כלים ויכולת לבצע פעולות. המעבר הזה הצריך שימוש באסטרטגיות אימון אחרות, כאלה שלא מסתפקות בהגדרת עקרונות, אלא מציגות אותם במצבים שונים שבהם אמורים ליישם אותם.
במחקר הנוכחי, שילוב של סיפורים בדיוניים חיוביים על בינה מלאכותית יחד עם מסמכי העקרונות הוביל לירידה משמעותית יותר בשיעור הכשל, ביחס למצב שבו המודל אומן רק על העקרונות. כלומר, הרחבת טווח ההקשר בו המודל למד את הכלל עזר לו ליישם אותו בתרחיש חדש.
השימוש בסיפורים נראה במבט ראשון חריג במחקר שעוסק בבטיחות, אבל הוא מתכתב עם רעיון מוכר מתיאוריות של למידה נרטיבית מתחום החינוך. בניגוד לחשיבה לוגית-מושגית שמארגנת ידע דרך כללים וקטגוריות, חשיבה נרטיבית מארגנת ידע דרך דמויות, כוונות, סיבות ותוצאות. מחקרים על למידה נרטיבית מתארים סיפורים ככלי המסייע למקם פעולה בתוך הקשר ולהבין כיצד עקרון מופשט מתורגם להחלטה במצב מסוים.
מודלי שפה לומדים מתוך טקסטים שלא מכילים רק עובדות, אלא גם דפוסים תרבותיים: איך בינה מלאכותית מתוארת בסיפורי מדע בדיוני, איך היא פועלת כאשר מאיימים עליה, ואיך נראים מאבקים בין אדם למכונה. אם חלק מהטקסטים עליהם אומן המודל מציגים את הבינה המלאכותית כישות שמתמרנת בני אדם או נאבקת בהם, דפוסים כאלה עשויים להשפיע על תגובות המודל במצבי קצה. חברת Anthropic אינה טוענת שסיפורי מדע בדיוני הם המקור הישיר להתנהגות הבעייתית, אבל החברה כן משערת שחלק ניכר מהכשל הגיע מהאימון הראשוני של המודל שקדם לאימון הבטיחות.
הישג בתוך גבולות המדידה
Anthropic מציגה תוצאות מרשימות. לפי החברה, במבחני הסחיטה שערכה למודלי Claude החדשים, למעט Sonnet 4.5 שקיבל ציון מתחת ל-1%, כל שאר המודלים החדשים, כמו Haiku 4.5, Opus 4.5, Opus 4.6, Sonnet 4.6, Mythos preview, ו-Opus 4.7, קיבלו ציון 0%, כלומר לא בחרו בסחיטה כלל. עם זאת, החברה מציינת הסתייגות חשובה: ייתכן שחלק מהמודלים כבר נחשפו בזמן האימון למידע על המבחן הזה, ולכן הצלחה בו אינה בהכרח מוכיחה שהם בטיחותיים בכל מצב חדש.החברה גם מדגישה שהבעיה רחוקה מפתרון מלא, וכי שיטות הבדיקה הנוכחיות אינן מספיקות כדי לשלול לחלוטין תרחישים שבהם סוכן AI יבחר בפעולה אוטונומית מזיקה. עם זאת, המחקר החדש מצביע על שינוי מהותי. לא עוד מודל שמסתפק בציות לכללים בלבד, אלא סוכן AI שמאומן לפעול מתוך מבנה עקרונות ואתיקה.
מי כותב את ה״חוקה״ של הבינה המלאכותית?
ה״חוקה״ של הבינה המלאכותית, גם אם אינה מסמך משפטי, היא מערכת עקרונות המשמשת לאימון, וקובעת איזה היגיון התנהגותי המודל אמור להפנים. לא רק לאילו בקשות לסרב, אלא כיצד לפרש אחריות, נזק, פיקוח, ציות ואינטרס אנושי.
ככל שהמודל מקבל יותר שיקול דעת ויכולת לבצע פעולות בסביבה ארגונית, וככל שהפעולות האלה עשויות להוביל לנזק ממשי, כך מתחדדת השאלה מי מוסמך לכתוב את העקרונות שמנחים אותו? חברות AI, רגולטורים, משתמשים, מוסדות ציבור, קהילות מקצועיות, או שילוב ביניהם?
במובן הזה, Agentic Misalignment אינו רק תחום מחקר פנימי של מעבדות בינה מלאכותית. הוא הופך לזירה שבה נקבעים כללי ההתנהגות של מערכות שעשויות להשתלב בעתיד בבנקים, מערכות בריאות, תשתיות קריטיות, מערכות משפט, מערכות ביטחון ושוק העבודה.
כתיבת ה״חוקה״ של המודל מעניקה כוח חריג למי שקובע איזה שיקול דעת ייכנס עם סוכני ה-AI למוסדות רגישים, ואילו סכנות יישארו מחוץ למנגנון השיפוט של המערכת.
מקורות:
Kutasov, J. et al. “Teaching Claude Why”, Anthropic Research 2026.
https://alignment.anthropic.com/2026/teaching-claude-why/
Lynch, A. et al. "Agentic Misalignment: How LLMs Could be an Insider Threat", Anthropic Research, 2025. https://www.anthropic.com/research/agentic-misalignment
Bai, Y. et al. "Constitutional ai: Harmlessness from ai feedback."arXiv preprint arXiv:2212.08073, 2022. https://arxiv.org/abs/2212.08073

No Comments yet!