כשהבינה המלאכותית לומדת את שפת הגוף

מחקרים חדשים מציגים מודלי AI המשלבים ראייה ממוחשבת וביומכניקה, כדי להבין ולנתח תנועה אנושית ברמת המפרק.

ד"ר מריה קרוט | עודכן: יוני 26, 2026

סקירה מהירהמסוכם אוטומטית

מערכת BioCoach החדשה משלבת ניתוח שלד תלת-ממדי ומודל שפה למשוב כושר מדויק.
המערכת ממירה וידאו תנועה לנתונים ביומכניים ומפיקה הנחיות מילוליות מותאמות אישית.
החוקרים מדגישים כי הטכנולוגיה אינה מחליפה איש מקצוע אלא משמשת ממשק תומך בלבד.

דמיינו אדם עומד מול מצלמה בסלון ומבצע סקוואט. מבחינת המחשב זו יכולה להיות עוד סצנה ויזואלית: גוף נע, ברכיים מתכופפות, ידיים מושטות קדימה. במשך שנים זה היה בערך גבול היכולת של רוב מערכות הכושר הדיגיטליות; לזהות תנוחה, לספור חזרות, ואולי להעיר שהגב אינו ישר. אבל הגוף האנושי הוא לא אוסף פיקסלים, ותנועה אינה רק צורה במרחב. מאחורי כל חזרה בתרגיל יש מפרקים, שרירים, מומנטים, טווחי תנועה, פיצויים, כאב, עייפות והרגלים שהתעצבו עם השנים. כדי לתת משוב איכותי, מערכת AI צריכה לעשות יותר מאשר לראות. היא צריכה לתרגם את הווידאו לשפה שבה הגוף פועל: זוויות, דרגות חופש, שלבי תנועה ואילוצים ביומכניים.

זה בדיוק הכיוון שמציג מחקר חדש בשם BioCoach, שפותח בידי חוקרים מ־Drexel University ומ־Michigan State University. הפיתוח מתואר כמאמן כושר מבוסס בינה מלאכותית, אבל ההגדרה הזאת כמעט קטנה עליו. במקום להסתפק בזיהוי חזותי של תרגיל מתוך וידאו, BioCoach משלב בין מראה הגוף, קינמטיקה של שלד תלת-ממדי ומודל שפה, במטרה לייצר משוב מילולי מדויק ומותאם אישית. המאמר, שפורסם ב־2026 כפרסום מחקרי ב־arXiv והתקבל ל־CVPR 2026, מציג מסגרת בשם המלא From 3D Pose to Prose: Biomechanics-grounded vision-language coaching. בשם מסתתרת ההבטחה: מעבר מפוזה תלת-ממדית לפרוזה. כלומר, לקחת תנועה גופנית, לפרק אותה לייצוג ביומכני, ואז להפוך אותה להנחיה שבן אדם יכול להבין בזמן אימון.

המחשב רואה, אבל האם הוא מבין?
ההתקדמות בתחום ניתוח התנועה נשענת על תחום ותיק יחסית בראייה ממוחשבת: Human Pose Estimation (הערכת תנוחת גוף). מערכות כאלה מזהות נקודות מפתח בגוף, כמו כתפיים, מרפקים, ברכיים וקרסוליים, ומייצרות מעין שלד דיגיטלי שמונח על גבי התמונה. Google, למשל, הציגה כבר בשנת 2020 את BlazePose, ארכיטקטורה קלה להערכת תנוחת גוף בזמן אמת במכשירים ניידים. המערכת מפיקה 33 נקודות גוף ופועלת בקצב של יותר מ-30 פריימים לשנייה על טלפון Pixel 2. זו קפיצה טכנולוגית משמעותית. ברגע שמצלמה רגילה יכולה לחלץ שלד מתוך וידאו, אפשר לבנות עליה אפליקציות שמנתחות יוגה, ריצה, ריקוד או אימוני כוח. הבעיה מתחילה כשהשלד הדיגיטלי מקבל מעמד גדול מדי. נקודות גוף אינן שקולות להבנה ביומכנית; הן אומרות איפה המפרק נראה בתמונה, בלי לספק מידע על מידת העומס עליו, מדוע התנועה משתבשת או איזה תיקון מתאים לאדם הספציפי שמול המצלמה. סקוואט, למשל, אינו רק ירידה ועלייה. יש בו שלב אקסצנטרי וקונצנטרי, יחס בין ירך, ברך וקרסול, שליטה בגו, חלוקת עומס ומבנה אנטומי אישי. מערכת שמזהה נקודות ציון יבשות יכולה לחשב זווית, אך היא עדיין לא יודעת בהכרח אם מדובר בטעות מסוכנת, וריאציה תקינה או פיצוי תנועתי שמגיע ממגבלה במקום אחר. כאן BioCoach מנסה להכניס שכבה נוספת: קונטקסט ביומכני מעבר לנקודות הגוף.

שכבת הביניים: לתרגם וידאו לגוף
המערכת בנויה כצינור עיבוד בשלושה שלבים: 1) בניית דרגות החופש הרלוונטיות לתרגיל – באילו מפרקים ותנועות כדאי להתמקד; 2) בניית הקשר ביומכני מובנה – איסוף מידע קינמטי של שלד תלת-ממדי, שלבי מחזור התנועה ואילוצי הגוף; 3) הפקת משוב מילולי – מודל השפה מקבל את המידע המעובד ומסביר מה לתקן, מתי ובאיזו רמת פירוט. זו תפנית חשובה ביחס למערכות שמסתמכות בעיקר על וידאו גולמי. מודל חזותי-לשוני סטנדרטי יכול לתאר מה מופיע בפריים, אך BioCoach מאלץ אותו להתייחס לגוף כמערכת תנועה דינמית. במקום לבקש מהמודל לנחש מתוך המראה הכללי של הסרטון, החוקרים מספקים לו רמזים מפורשים. במילים אחרות, BioCoach מעניק למערכת שפה נוספת, שפה של תנועה. זוהי דוגמה מצוינת לחיבור בין מודלי שפה ומודלים ויזואליים, שנוטים לעבוד על דפוסים סטטיסטיים רחבים, לבין ייצוגים מדעיים שמגיעים מתחום ידע מוגדר. החוקרים אף הרחיבו מאגר קיים של סרטוני תרגול, QEVD-fit-coach, והוסיפו לו משוב ביומכני מפורט יותר כדי ליצור גרסה חדשה בשם QEVD-bio-fit-coach. לפי המאמר, BioCoach הציג שיפור במדדי טקסט ושיפוט על המאגר המועשר, תוך שמירה על תזמון המשוב ביחס לשלב התנועה.

למה זה מעניין מעבר לכושר ביתי
במבט ראשון קל לתייג את BioCoach כעוד אפליקציית כושר חכמה לשימוש ביתי. אולם חשיבותו האמיתית היא ביצירת חלון לעולם חדש של מערכות AI שמנסות להבין תנועה אנושית באופן שניתן להסבר. בכושר, המשוב צריך להיות שימושי וברור; ברפואה ובשיקום, הדרישות גבוהות בהרבה. שם, כל תנועה יכולה לשקף פגיעה עצבית, כאב, חולשה או דפוס פיצוי לאחר ניתוח. מערכת שמנתחת הליכה של מטופל אינה יכולה להסתפק באבחנה אמורפית כמו ״הוא קצת צולע״.היא צריכה לזהות מה משתנה בין צד ימין לשמאל, באיזה שלב של מחזור ההליכה מופיעה החריגה, והאם מקורה בטווח תנועה או בחוסר יציבות.
הצורך הזה הוליד מחקר נוסף מאותה משפחה רעיונית: BioGait-VLM, שפורסם גם הוא ב־2026. המערכת מוגדרת כמסגרת תלת-מודאלית לניתוח הליכה קלינית, המחברת בין ראייה, שפה וביומכניקה. החוקרים טוענים כי מודלים מבוססי וידאו עשויים ללמוד ״קיצורי דרך חזותיים״, למשל סביבה, לבוש או איכות צילום, במקום לתפוס את דפוס התנועה הפתולוגי עצמו. BioGait-VLM מתמודדת עם הבעיה באמצעות ״טוקנים ביומכניים״ הנגזרים מרצפי שלד תלת-ממדיים ומיושרים לשפה, כך שהמודל יוכל לנמק על מכניקת מפרקים ולא רק לזהות מראה כללי של הליכה. מגמה זו מדגישה את המעבר לניתוח מבוסס הקשר: במקום להסתפק בהצמדת טקסט לתמונה, המערכות החדשות יוצקות לתוכן שכבת ידע כמותית ומדעית. הווידאו מספק את החומר הגולמי, השלד הדיגיטלי מספק מבנה, הביומכניקה נותנת משמעות, ומודל השפה הופך את המשמעות להנחיה או הערכה.

הגוף אינו רק שלד
כדי להבין את הגבולות של התחום צריך לחזור לביומכניקה הקלאסית. בעולם המחקר, ניתוח תנועה רציני לא נעצר בנקודות גוף על המסך. כלים כמו OpenSim, שפותח בסטנפורד, מאפשרים לבנות מודלים של מערכות שריר-שלד ולבצע סימולציות דינמיות של תנועה. לפי מאמר היסוד על OpenSim, סימולציות כאלה משמשות לחקר קואורדינציה עצבית-שרירית, ביצועים ספורטיביים, עומסים פנימיים במערכת השריר-שלד, תנועה פתולוגית ותכנון טיפולים. הפער בין OpenSim לבין אפליקציית מצלמה הוא שמצלמה יכולה להעריך תנועה חיצונית, אך היא אינה מודדת ישירות כוח תגובה מהקרקע, הפעלת שריר, עומס על רצועה, כאב או עייפות. גם כאשר המערכת מפיקה משוב משכנע, היא עדיין פועלת מתוך ייצוג חלקי בלבד של הגוף. אמנם שילוב קינמטיקה משפר את הדיוק, אך הוא אינו מחליף מדידה ישירה של עומסים פנימיים. ההבחנה הזו קריטית, בעיקר משום שמודלי שפה נוטים להפגין בטחון עצמי מופרז. משפט כמו ״העומס על הברך מוגבר בשל קריסת הוולגוס״ יכול להישמע מקצועי גם כשהנתונים אינם מספיקים לקביעה כזו. מערכת טובה תצטרך לדעת לסמן את גבול הוודאות שלה בצד מתן משוב: מה היא רואה, מה היא מסיקה, ומה מחייב בדיקה אנושית, מדידה נוספת או הקשר קליני.

מאמן, פיזיותרפיסט או מכשיר מדידה?
הפיתוי השיווקי ברור: ״מאמן AI אישי לכל אדם״. אבל ההבטחה הריאלית היא שיפור הנגישות למשוב גופני. הטכנולוגיה יכולה לספק למתאמנים אינדיקציה בסיסית, להעניק לפיזיותרפיסטים כלי מעקב רציף בין מפגשים, ולתעד דפוסי תנועה לאורך זמן. בתרחיש זה, AI אינו מחליף את איש המקצוע. אלא משמש כממשק שמתווך בין גוף, וידאו וידע מקצועי. עם זאת, הערך הרפואי האמיתי יגיע רק אם מערכות כאלה יעברו את מבחן השטח הקליני: האם הן מפחיתות פציעות? האם הן מזהות תנועה פתולוגית בצורה אמינה באוכלוסיות שונות? והאם הן מתפקדות בתנאים ביתיים של תאורה גרועה, בגדים רחבים או מגבלות תנועה אמיתיות? עד אז, נכון לראות ב-BioCoach אבטיפוס מבטיח, לא מוצר רפואי בשל. כוחו אינו בכך שהוא פותר את בעיית האימון מרחוק, אלא בכך שהוא מסמן כיוון: AI שמתחיל להתקרב אל הגוף דרך ייצוגים מדעיים, ולא דרך התרשמות חזותית בלבד.

השלב הבא: מודלים של תנועה
הסיפור הרחב יותר הוא הופעתם של מודלים שמנסים ללמוד תנועה אנושית כשפה בפני עצמה. לצד מודלי שפה, וידאו ותמונה, מתפתחים כעת מודלי בסיס לתנועה, מערכות שאמורות להבין רצפי תנועה מורכבים במרחב ובזמן. מחקר בשם MoFM, למשל, מציג Motion Foundation Model להבנה סמנטית של תנועות אנושיות מורכבות, עם יכולת התאמה למשימות שונות. אם הכיוון הזה יתפתח, בעתיד לא נדבר רק על בינה מלאכותית שמבינה טקסט או תמונה, אלא על מערכות שמבינות את התחביר של הגוף: איך תנועה מתחילה, איך היא מתארגנת, איפה היא מתפרקת, ואיזה דפוס חוזר מסמן מגבלה או סיכון. הגוף האנושי היה תמיד קשה לתרגום דיגיטלי. הוא אישי, משתנה ולא סימטרי. מערכות כמו BioCoach אונם אינן פותרות את המורכבות הזו, אך הן מכריחות את המודלים להביט מעבר למראה החזותי הגנרי ולעבור לניתוח מפרקי וביומכני. כאשר המצלמה קולטת אדם עושה סקוואט, האתגר הבא של המודלים כבר לא יהיה לפענח את הפיקסלים הרצים, אלא להבין את המכניקה שמאחוריהם. היכולת לזהות היכן הגוף מפצה, איפה הוא קורס, ומתי נדרשת התערבות, היא זו שתהפוך את ה-AI מסורק חזותי לשותף בריאותי.

מקורות

Ji, Y., Shen, Y., Zhu, S., Kong, Y., Liu, F.: From 3D pose to prose: Biomechanics- grounded vision-language coaching. In: CVPR (2026). arXiv:2603.26938
Bazarevsky, V., Grishchenko, I., Raveendran, K., Zhu, T., Zhang, F., & Grundmann, M. Blazepose: On-device real-time body pose tracking. arXiv preprint (2020). arXiv:2006.10204
Chen, E., et al. BioGait-VLM: A Tri-Modal Vision-Language-Biomechanics Framework for Interpretable Clinical Gait Assessment. arXiv preprint (2026). arXiv:2603.08564.
Delp, S.L., et al. OpenSim: open-source software to create and analyze dynamic simulations of movement. IEEE Trans Biomed Eng. 55(11), 1940-50 (2007). doi: 10.1109/TBME.2007.901024.
Baharani, M., Noghre, G. A., Pazho, A. D., Maldonado, G., & Tabkhi, H. Mofm: A large-scale human motion foundation model. arXiv preprint (2025). arXiv:2502.05432

אהבתם?

עקבו אחרינו

ד"ר מריה קרוט

ד״ר מריה קרוט, בעלת דוקטורט במדעי הרפואה מהטכניון, עם רקע מחקרי במדעי המוח, מערכת החיסון ומערכות חישה. כיום, מובילה פיתוח והטמעה של כלי בינה מלאכותית בארגון, בממשק שבין מדע, רפואה, משפט רפואי, אתיקה, פרטיות וחדשנות.