כלל בלשני פשוט הוא שאִפְשֵׁר את מהפכת הבינה המלאכותית ששינתה את חיינו בשלוש השנים האחרונות. מודלי שפה, כמו צ׳אט GPT, מסתמכים על כך שמלים בשפה טבעית לא מופיעות בזו אחר זו באקראי, אלא יש מבנה סטטיסטי שמאפשר לנחש את המלה הבאה בשיחה לפי קודמותיה. ועדיין, המודלים מפספסים עולם תוכן שלם בשיח האנושי, שכלל לא מועבר במלים עצמן. במחקר חדש, שממצאיו מתפרסמים היום בכתב-העת המדעי "רשומות האקדמיה למדעים של ארה"ב" (PNAS), חושפים מדעני מכון ויצמן למדע ממעבדתו של פרופ׳ אלישע מוזס כי המוזיקה של הדיבור בשיחות ספונטניות באנגלית מתנהגת כשפה של ממש, עם ״אוצר מלים״ של כמה מאות מלודיות בסיסיות ואף כללי תחביר שמנבאים מה תהיה המלודיה הבאה ברצף. בכך, מכין המחקר את הקרקע לבינה מלאכותית שתבין את השפה שמעבר למלים.

המוזיקה של הדיבור, המכונה בפי בלשנים ״פרוזודיה״, מקיפה את השינויים בגובה הצליל (אינטונציה), בעוצמת הקול (למשל, הדגשה), בקצב הדיבור ובאיכות הקול (למשל, לחישה או צרידות). דרך הבעה זו קדמה באבולוציה למלים, ומחקרים מהעת האחרונה הראו כי קריאות של שימפנזים ושירי לווייתנים כוללים מבני פרוזודיה מורכבים. בתרבות האנושית, הפרוזודיה נושאת מטען עם משמעות שלרוב אינו מועבר באמצעות מלים – הפסקה קצרה בדיבור, כמו פסיק, יכולה לשנות לחלוטין משמעות של משפט (Let's Eat Grandma) ומקצב של טקסט יכול להפוך אותו למותח. בעבר, חקר הפרוזודיה התמקד ביצירות ספרותיות ובאופן שבו הפרוזודיה משקפת שינויים היסטוריים. כך, למרות חשיבותה המכרעת להבנת שפה אנושית, העיסוק בה נחשב לאורך שנים נישתי ולא יישומי והתפתחו תאוריות סותרות לגבי המבנה והמשמעות שלה.
""המודל שיצרנו הוא כלי המאפשר להשלים פערים של מאות שנים בחקר ההבעה שמעבר למלים – בכל שפה אנושית ובאוכלוסיות דוברים שונות"
ואולם, פרוזודיה נוכחת בכל שיחה שלנו, מגדירה למלים את תפקידן הלשוני – למשל האם הן מציגות שאלה או קובעות עובדה – וכן חושפת את יחסו ותחושותיו של הדובר לנאמר. במחקר החדש, צוות החוקרים בהובלת הבלשן ד״ר נדב מטלון ומדען המוח ד״ר איל וינרב ממעבדתו של פרופ׳ מוזס במחלקה לפיזיקה של מערכות מורכבות, חקר את הפרוזודיה משל הייתה שפה חדשה ולא נודעת וניסה לספק תשובה מונחית נתונים לתעלומה הבלשנית של מבנה הפרוזודיה ומשמעותה. במקום לחקור נכסי תרבות, הם התמקדו בשני מאגרי הקלטות גדולים של שיחות ספונטניות, אחד של שיחות טלפון בין שני משתתפים ושני של שיחות פנים אל פנים במטבח, בכיתה ועוד.
המשימה הראשונה הייתה להרכיב מילון של מלודיות קצרות, שמהוות את ה״מלים״ בשפת הפרוזודיה באנגלית ולהצמיד לכל אחת תפקיד ומשמעות. ״כדי להבין מדוע אין עדיין מילון פרוזודי, מוטב להיזכר שעד למאה ה-19 כלל לא היה מילון אנגלי מקיף״, אומר פרופ׳ מוזס. ״כשהפרויקט הופקד בידי אוניברסיטת אוקספורד הוזמן הציבור לסייע בעומס העבודה ולשלוח ציטטות שמראות שינויים היסטוריים במשמעותן של מלים. אחד התורמים המרכזיים למילון היה אסיר שהעביר יותר מ-20 שנה בקריאת ספרים ושליחת ציטטות. במקום לאסוף מידע בעצמנו במשך עשרות שנים, ניתחנו מאגרי הקלטות גדולים באמצעות בינה מלאכותית״.

אומנם מנגינת הדיבור של כל אדם הינה ייחודית, אך מודל הבינה המלאכותית הצליח לזהות כמה מאות תבניות בסיסיות, שחוזרות על עצמן בשינויים קלים בכל השיחות הספונטניות באנגלית. בעוד שמלה כתובה היא רצף אותיות, "מלה" בשפת הפרוזודיה היא מלודיה קצרה, כלומר רצף של שינויים בגובה הצליל של הקול (הפיץ׳) לאורך כשנייה אחת בממוצע. כדי למצוא את משמעותן, דגם ד״ר מטלון 20 תבניות בסיסיות כאלה וחזר להאזין להקלטות. ״התברר שלכל תבנית יש כמה תפקידים לשוניים״, הוא מסביר. ״היא יכולה למשל להגדיר את המלים שנאמרו כשאלה או כקביעה כתלות בהקשר. עם זאת, יש לה לרוב משמעות אחת בכל הקשור ליחסו של הדובר לנאמר, כמו סקרנות, הפתעה, בלבול ועוד. דוגמה ל׳מלה׳ פרוזודית היא עלייה חדה בפיץ׳ ואחריה ירידה חדה. תבנית זו מביעה התלהבות ויכולה, בהקשרים שונים, למלא את התפקיד הלשוני של הסכמה חזקה או של אישור קבלת מידע חדש וחשוב״.
בשלב הבא, ניסו המדענים לזהות כללי תחביר המסדרים את התבניות הפרוזודיות בזו אחר זו, באופן שיאפשר למודלי שפה בעתיד להבין ולהשתמש בפרוזודיה. ״הבחנו שישנם זוגות של תבניות שנוטות להופיע יותר יחד בדיבור ספונטני״, אומר ד״ר וינרב. ״זו מערכת סטטיסטית פשוטה, שבה בחירה נכונה של היחידה הבאה ברצף תלויה רק ביחידה הקודמת. מערכת כזו מתאימה לשיחה ספונטנית, כי היא דורשת לתכנן רק כמה שניות קדימה, שזהו משך הזיכרון לטווח קצר״. הזוגות התבררו כמעין משפטים פשוטים המביעים ״רעיון אחד חדש״, כך שכל זוג מתייחס לנושא מסוים ואומר עליו דבר אחד, למשל מתייחס לעובדה שהוזכרה בשיחה ומספק תגובה חיובית.