מהירה יותר, פתוחה יותר, חכמה יותר: הפיתוח שמאיץ בינה מלאכותית

אלגוריתמים שפיתחו מדעני מכון ויצמן למדע וחוקרי מעבדות אינטל מאפשרים למיליוני מפתחי AI בעולם להשתמש בכוח המשולב של בינות מלאכותיות ש"חושבות" יחד

שתף

תגיות

כמו בני-אדם מלאומים שונים, גם מודלי בינה מלאכותית מדברים שפות דיגיטליות שונות: כל מודל בונה לעצמו שפה ייחודית – אוצר של סימנים (tokens) שרק הוא מבין. עד לאחרונה, לא הייתה תוכנת תרגום שמאפשרת למודלים של חברות שונות לתקשר ביניהם ישירות, לשלב כוחות ולהאיץ ביצועים. השבוע, בכנס הבינלאומי ללמידת מכונה (ICML) בוונקובר, קנדה, מציגים מדעני מכון ויצמן למדע וצוות חוקרים ממעבדות אינטל (Intel Labs) אלגוריתמים פורצי דרך שמאפשרים ליהנות מכוח החישוב המשולב של בינות מלאכותיות הפועלות יחד. האלגוריתמים החדשים השיגו האצה ממוצעת של פי 1.5 בביצועים של מודלי שפה גדולים (LLMs) – המודלים המובילים כיום בתחום הבינה המלאכותית היוצרת – והם כבר זמינים למיליוני מפתחים ברחבי העולם.

מודלי שפה גדולים כמו ChatGPT או ג'מיני הם כלי אדיר, אך יש להם "עקב אכילס" משמעותי: הם איטיים וזוללי משאבים. בשנת 2022 הבינו בענקיות הטכנולוגיה שממש כמו בני-אדם, מודלי בינה מלאכותית יכולים להרוויח משיתוף פעולה וחלוקת עבודה. כך נולדה שיטת ייעול שמכונה פענוח ספקולטיבי (speculative decoding), ובמסגרתה מודל שפה קטן ומהיר, אך בעל אוצר ידע מצומצם, מנחש תחילה מה התשובה הנכונה לשאלת המשתמש, ואחר כך מודל גדול ואיטי עובר עליה ומתקן אותה. הפענוח הספקולטיבי אומץ במהרה על ידי ענקיות הטכנולוגיה בזכות היתרון המובהק שלו – בעוד שמגוון שיטות אחרות מציעות האצה, הן נוטות לפגוע באיכות התוצאות; בפענוח ספקולטיבי האיכות נשמרת ב-100%. עם זאת, עד היום, שיטה זו עבדה רק אם שני המודלים – הגדול והקטן – דיברו בדיוק אותה שפה דיגיטלית ולא ניתן היה לשלב בין מודלים של חברות שונות.

"בזמן שבחברות הגדולות אימצו את הפענוח הספקולטיבי ונהנו מביצועים מהירים ומחיסכון של מיליארדי דולרים מדי שנה בהוצאות על כוח עיבוד, אחרים התקשו ליהנות מהשיטה, שכן רק לחברות הענק הייתה גישה למודל קטן ומהיר שמדבר באותה שפה כמו המודלים הגדולים", מסביר נדב תימור, דוקטורנט בקבוצת המחקר של פרופ' דוד הראל במחלקה למדעי המחשב ומתמטיקה שימושית במכון ויצמן, אשר הוביל את הפיתוח החדש. "סטארט-אפ שרצה ליהנות מהאצת הביצועים של פענוח ספקולטיבי היה צריך לאמן בעצמו מודל קטן – משימה מורכבת הדורשת התמחות והשקעה במשאבי חישוב יקרים".

""זה לא רק שיפור תיאורטי; אלו כלים מעשיים שכבר היום עוזרים למפתחים לבנות יישומים מהירים וחכמים יותר"

האלגוריתמים החדשים שפיתחו מדעני המכון וחוקרי מעבדות אינטל מאפשרים למפתחים ברחבי העולם לבחור כל מודל קטן וכל מודל גדול ולגרום להם לעבוד יחד. כדי להתגבר על המחסום השפתי, הגו החוקרים שני פתרונות. הראשון, אלגוריתם שמאפשר למודל שפה גדול שסיים תהליך "חשיבה" לתרגם את התוצאות שהגיע אליהן בשפתו הייחודית לשפה שמובנת לכל המודלים. השני, אלגוריתם שגורם למודלים אלה – הקטן והגדול – להשתמש בעבודתם המשותפת בעיקר בסימנים (tokens) שהם cognates – כלומר סימנים שמשמעותם זהה בשפות שונות, כמו למשל "בננה" או "אינטרנט" בשפות אנושיות.

"תחילה חששנו שיותר מדי מידע 'יאבד בתרגום' והמודלים השונים יתקשו לעבוד יחד, אך החששות התבדו", מתאר תימור. "האלגוריתמים השיגו האצה מקסימלית של פי 2.8 בביצועים של מודלי שפה גדולים, וכך, במבט כולל על התעשייה, הם מובילים לחיסכון אדיר בהוצאות על כוח עיבוד".

המחקר החדש זכה לכבוד יוצא דופן ונבחר להצגה בפני קהל בכנס ICML, זכות השמורה ל־1% בלבד מבין כ־15,000 קבוצות מחקר שהגישו מועמדות. "פתרנו בעיה בסיסית שפגעה בגמישות וביעילות של מערכות בינה מלאכותית יוצרת", אומר אורן פרג, חוקר בכיר במעבדות אינטל ואחד ממחברי המאמר. "זה לא רק שיפור תיאורטי; אלו כלים מעשיים שכבר היום עוזרים למפתחים לבנות יישומים מהירים וחכמים יותר". בחודשים האחרונים תרמו החוקרים את האלגוריתמים שפיתחו לפלטפורמת הקוד הפתוח Hugging Face, וכיום הם כבר משמשים מיליוני מפתחים והפכו לפרקטיקה מקובלת בעת הרצת בינה מלאכותית.

"לפיתוח החדש יש חשיבות מיוחדת עבור מכשירי קצה חכמים, מטלפונים ניידים ועד מכוניות ורחפנים אוטונומיים, שכן כאשר מכשירים אלה אינם מחוברים לאינטרנט הם נדרשים לפעול בתנאים של כוח חישוב מוגבל", מציין תימור. "דמיינו מכונית אוטונומית שמסתמכת על בינה מלאכותית כדי לנהוג בבטיחות – במקרה כזה ייעול והאצת ביצועים יכולים להיות ההבדל בין קבלת החלטה נכונה ברגע הנכון לבין שגיאה חמורה".

במחקר השתתפו גם ד"ר יונתן מאמו, דניאל קורת, משה ברצ'אנסקי ומשה וסרבלט ממעבדות אינטל וגאורב ג'יין מחברת d-Matrix.

לקבלת מידע נוסף, תמונות ולתיאום ראיונות:
משרד הדוברת - מכון ויצמן למדע
08-9343856 news@weizmann.ac.il

מספרי מדע

האלגוריתמים החדשים השיגו האצה ממוצעת של פי 1.5 בביצועים של מודלי שפה גדולים (LLMs) והאצה מקסימלית של פי 2.8.

שתף

תגיות: