למידה רב-מודאלית תמיד הייתה אתגר ב בינה מלאכותית, שכן סוגים שונים של נתונים דורשים גישות שונות לעיבוד יעיל - משהו שחלקם למידת מכונה עדיין רחוקים מלהתממש.
עם זאת, חוקרים מהאוניברסיטה הסינית של הונג קונג וממעבדת הבינה המלאכותית של שנחאי הגיעו לפתרון חדשני: ה "Meta-Transformer", מסגרת AI מאוחדת שיכולה להתמודד עם אופני נתונים מרובים באמצעות אותה סט של פרמטרים. הבן את הפרטים למטה!
ראה עוד
בינה מלאכותית ועומס עבודה: יתרון או אתגר לאנשי מקצוע?
היוצר של ChatGPT שם קץ לכלי לזיהוי טקסטים שנעשו...
O מוח אנושי מהווה השראה לגישה חדשה זו. המוח שלנו מעבד בו זמנית מידע ממספר כניסות חושיות, כגון אותות חזותיים, שמיעתיים ומישוש, והבנת מקור אחד יכולה לעזור בהבנת מקור אחר.
עם זאת, שכפול יכולת זו בתחום הבינה המלאכותית היה מאתגר בגלל הפער בשיטות בלמידה עמוקה.
(תמונה: Thinkhubstudio/iStock/פלייבק)
לאופני נתונים יש מאפיינים ברורים. לתמונות יש מידע מרחבי ויש להם יתירות של מידע בפיקסלים דחוסים. קשה לתאר ענני נקודה בגלל התפוצה הדלילה שלהם בחלל תלת מימד.
ספקטרוגרמות שמע הן דפוסי נתונים לא נייחים ומשתנים בזמן. נתוני וידאו, בתורם, מורכבים מסדרה של מסגרות תמונה, המאפשרות הקלטת מידע מרחבי ודינמיקה זמנית.
עד כה, גישות להתמודדות עם אופנים שונים כללו יצירת רשתות נפרדות עבור כל סוג נתונים, מה שהוביל לעבודה רבה כדי לכוונן את המודלים בנפרד. עם זאת, חוקרים סיניים הציעו דרך חדשה להתמודד עם המורכבות הזו.
Meta-Transformer מורכב משלושה מרכיבים עיקריים: מומחה מודאליות לאסימוני נתונים, א מקודד מודאלי משותף לחילוץ ייצוגים על פני אופנים וראשים ספציפיים למשימות עבור משימות "בְּמוֹרַד הַזֶרֶם".
מסגרת זו מאפשרת ליצור רצפי אסימונים משותפים מנתונים מולטי-מודאליים ולחלץ ייצוגים באמצעות מקודד עם פרמטרים קפואים. הגישה הפשוטה של Meta-Transformer מכשירה ייצוגים ספציפיים למשימה וגנרית ביעילות.
התוצאות של ניסויי Meta-Transformer היו מרשימות. המסגרת השיגה ביצועים יוצאי דופן במספר מערכי נתונים המשתרעים על פני 12 אופנים שונים.
גישה חדשנית זו מבטיחה כיוון חדש בפיתוח מסגרת אגנוסטית עבור מודאליות, המאחדת את כל סוגי הנתונים ומשפרת משמעותית את היכולת הֲבָנָה רב-מודאלי.
עם Meta-Transformer, החיפוש הרב-מודאלי עומד לעשות צעד גדול קדימה, ומספק התקדמות משמעותית בבינה מלאכותית ולמידת מכונה.
היכולת לעבד מספר אופני נתונים עם מסגרת אחת ומאוחדת מייצגת אבן דרך חשובה במסע אל AI חזק ויעיל יותר.