בנויים לקשר

הינך נמצא כאן

 
 
יקיר רשף והילרי פינוקן. הולך ומתהדק
 
קשרים הם עניין מסובך, אך למזלו של יקיר רשף, נראה כי גילוי קשרים משמעותיים הוא דווקא הצד החזק שלו. יקיר, שנולד בישראל בשנת 1987 וגדל בארה"ב, הכיר את הילרי פינוקן בחטיבת הביניים, ומאז ועד היום הקשר ביניהם הולך ומתהדק: שניהם למדו במחלקה למתמטיקה באוניברסיטת הרווארד, ושניהם נמצאים כיום בפקולטה למתמטיקה ומדעי המחשב במכון ויצמן למדע. יקיר הוא חוקר הנתמך במלגת פולברייט, כסטודנט אורח בקבוצתו של פרופ' מוני נאור, והילרי לומדת לתואר שלישי בקבוצתו של פרופ' איתי בנימיני.
 
לאור כל זאת לא צריכה להפתיע העובדה, כי שני בני הזוג חתומים במשותף על מאמר שהתפרסם באחרונה בכתב העת Science, אשר עוסק בקשרים. מה שעשוי להפתיע בכל זאת הוא, ששותף נוסף במאמר הוא אחיו של יקיר, ד"ר דוד רשף, מדען בתחום מדעי המחשב במכון ברוד שליד המכון הטכנולוגי של מסצ'וסטס ואוניברסיטת הרווארד (Broad Institute of MIT and Harvard). המאמר מציג שיטה חדשה לעיבוד מידע, אשר מסוגלת לסרוק מערכים מורכבים של נתונים, ולאתר קשרים ומגמות מעניינים – שאין אפשרות לזהותם באמצעים אחרים לניתוח סטטיסטי.
 
"כאשר הייתי סטודנט בהרווארד, אחי ביקש ממני לעזור לו ליצור תוכנית מחשב שתבצע ויזואליזציה וניתוח של מערכי מידע גדולים בתחום בריאות הציבור. כשהתחלנו לעבוד, גילינו שכדי לעשות זאת, עליך קודם כל להחליט אילו קשרים להביא בחשבון", מסביר יקיר. תנאי זה, שעשוי להישמע פשוט, הולך ומסתבך ככל שמערכי הנתונים גדלים. כך, לדוגמה, מיקרוביולוגים אשר מעוניינים לנתח קשרים בין אוכלוסיות חיידקים השוכנים במעי של בני אדם ושל יונקים אחרים, מתמודדים עם טריליוני חיידקים. גם אם נצמצם את מערך הנתונים כך שיכיל רק 7,000 חיידקים, הרי שעדיין נקבל מעל 22 מיליון קשרים אפשריים בין זוגות חיידקים. מדובר באוקיינוס עצום של מידע, כל עוד איננו יודעים אילו סוגי תבניות לחפש. אתגרים מסוג זה, הכוללים מערכי מידע אשר מבוססים על אלפי משתנים, הולכים ונעשים נפוצים בתחומים שונים כמו גנומיקה, פיסיקה, מדעי המדינה, כלכלה ועוד, והביקוש לכלים יעילים לעיבוד המידע הולך וגדל.
 
המדענים הבינו שהם זקוקים לאלגוריתם שיוכל לגלות קשרים חדשים וחשובים, אך גם בלתי-צפויים – כאלה שעלולים היו לחמוק מן העין. השיטה שפיתחו – בהדרכת פרופ' מייקל מיצנמאכר מבית הספר להנדסה ולמדעים יישומיים בהרווארד, ופרופ' פרדיס סבטי ממכון ברוד – קרויה "מקדם מידע מרבי" (MIC - maximal information coefficient). היא מבוססת על הרעיון, שאם קיים קשר בין שני משתנים, אפשר לקבוע סרגלי ערכים עבור כל אחד מהם – שייצרו ביחד סריג משותף – אשר יבליטו את הקשר. האלגוריתם שמחשב את מקדם המידע המרבי סורק את הסריגים הרבים שאפשר ליצור באופן זה, בוחר בטוב שביניהם, ומכמת על פיו את חוזקו של הקשר. אפשר לחשב את מקדם המידע המרבי עבור כל צמד משתנים במערך הנתונים, לדרג את הצמדים על-פי הניקוד שקיבלו (ככל שהניקוד גבוה יותר, כך הקשר חזק יותר), ולאחר מכן לבחון את הצמדים שקיבלו את הניקוד הגבוה ביותר – כלומר, המשתנים בעלי ההשפעה החזקה ביותר זה על זה.
 
כדי לבחון את השיטה החדשה, הפעילו אותה המדענים על מספר מערכי נתונים, בתחומים כמו בריאות הציבור, ביטוי גנים, אוכלוסיות חיידקים במעי, וליגות בייסבול, והישוו את תוצאות האלגוריתם החדש לתוצאות המתקבלות בשיטות אחרות.
 
בניתוח נתוני חיידקי המעי הצליח האלגוריתם לצמצם את 22 מיליון זוגות המשתנים למאות אחדות של קשרים מעניינים, שרבים מהם לא התגלו באמצעות שיטות אחרות. כך, לדוגמה, התגלו מצבים של "אי-קיום במקביל", כלומר, כאשר סוג אחד של חיידק נפוץ מאוד, סוג אחר איננו נפוץ. כמה מאותם מצבי "אי-קיום במקביל" הם מקרים מוכרים, וידוע כי הם נגרמים עקב המזון שצורך בעל החיים שבו שוכנים החיידקים, ואילו מצבים אחרים היו ייחודיים, ורמזו על האפשרות כי קיים גורם נוסף, פרט לסוג המזון, אשר משפיע על מצב זה.
 
גרף המתאר את הקשר בין תת-מינים שונים של חיידקי מעי. הצמתים מייצגים את התת-מינים, והצלעות המחברות אותם מייצגות את 300 הקשרים הלא-ליניאריים העיקריים. גודל הצומת פרופורציונלי למספר הקשרים שלו. צלעות שחורות מייצגות קשרים המוסברים על-ידי צריכת מזון. הצמתים מוקפים בצבע בהתאם לחלקן היחסי של הצלעות השחורות, מתוך כל הצלעות הסמוכות להם (0% בכחול, 100% באדום)
 
בדוגמה אחרת בדק צוות המדענים מאגר נתונים של ארגון הבריאות העולמי, אשר כולל 357 משתנים ב-200 מדינות. אחד הקשרים המעניינים, שנמצאו באיי האוקיינוס השקט, היה יחס ישר בין השמנה בקרב נשים לבין רמת ההכנסה למשק הבית – בניגוד למתרחש בארצות אחרות, בהן ההשמנה קודם עולה ואחר כך יורדת. הסבר אפשרי לממצאים החריגים הוא, שבאיים אלה נחשבת השמנה לסמל סטטוס. הרבה שיטות מקובלות יגדירו מגמה חריגה כזו כ"רעש רקע", אולם האלגוריתם החדש מסוגל לזהות את קיומם של קשרים גם כאשר מדובר במגמות שונות – ואף מנוגדות.
 
ניתוח נתוני הבייסבול באמצעות האלגוריתם הראה, כי מספר החבטות, מספר הבסיסים, ומספר ההקפות שמייצר השחקן עבור הקבוצה הם הגורמים העיקריים הקובעים את משכורתו, בעוד ששיטות סטטיסטיות אחרות מיקמו בראש הרשימה שלושה גורמים אחרים. מי צודק? החוקרים מתכוונים להניח לאוהדי בייסבול להכריע בשאלה אילו גורמים משפיעים – או צריכים להשפיע – על משכורתם של השחקנים.
 
"שלא כמו שיטות אחרות, השיטה שלנו מעניקה ניקוד גבוה לטווח רחב של סוגי קשרים המסתתרים במאגרי נתונים גדולים, אך היא מסוגלת לתת ניקוד זהה גם לקשרים המוסתרים על-ידי רעשי רקע", אומרת הילרי פינוקן. ומשלים יקיר רשף: "במילים אחרות, היא מסוגלת למצוא דברים מעניינים שלא ציפית למצוא, וקשה לגלות אותם עם שיטות ניתוח אחרות".
 
ובנוגע להילרי וליקיר, נראה כי העבודה המשותפת על האלגוריתם עזרה להם להגדיר את סוג הקשר בעל הניקוד הגבוה ביותר עבורם – נישואין. "זה באמת נפלא עבורנו ששנינו חולקים את האהבה למתמטיקה", אומרים בני הזוג, שחולקים עוד אהבות משותפות – לנגינה בפסנתר, לריצה ולבישול.

שתף