Мультимодальне навчання завжди було проблемою Штучний інтелект, оскільки різні типи даних вимагають різних підходів до ефективної обробки – те, що деякі машинне навчання ще далекі від реалізації.
Однак дослідники з Китайського університету Гонконгу та Шанхайської лабораторії штучного інтелекту запропонували інноваційне рішення: «Meta-Transformer», уніфікована структура ШІ, яка може обробляти різні модальності даних, використовуючи той самий набір параметри. Зрозумійте деталі нижче!
побачити більше
ШІ та робоче навантаження: користь чи виклик для професіоналів?
Творець ChatGPT кладе кінець інструменту для виявлення текстів, зроблених…
О мозок людини є джерелом натхнення для цього нового підходу. Наш мозок одночасно обробляє інформацію з багатьох сенсорних сигналів, таких як візуальні, слухові та тактильні сигнали, і розуміння одного джерела може допомогти зрозуміти інше.
Однак відтворити цю можливість у сфері штучного інтелекту було складно через розрив у модальності глибокого навчання.
(Зображення: Thinkhubstudio/iStock/playback)
Модальності даних мають відмінні характеристики. Зображення мають просторову інформацію та надлишковість інформації у стиснутих пікселях. Хмари точок важко описати через їх розрідженість у тривимірному просторі.
Аудіо спектрограми – це нестаціонарні шаблони даних, що змінюються в часі. Відеодані, у свою чергу, містять серію кадрів зображення, що дозволяє записувати просторову інформацію та часову динаміку.
Дотепер підходи до роботи з різними модальностями передбачали створення окремих мереж для кожного типу даних, що призвело до великої роботи для тонкого налаштування моделей окремо. Проте китайські дослідники запропонували новий спосіб вирішення цієї складності.
Meta-Transformer складається з трьох основних компонентів: спеціаліста з модальності для токенізації даних, спільний кодер модальності для отримання представлень модальностей і заголовків завдань для конкретних завдань «за течією».
Цей фреймворк дозволяє створювати спільні послідовності маркерів із мультимодальних даних і видобувати представлення за допомогою кодувальника із замороженими параметрами. Простий підхід Meta-Transformer ефективно тренує специфічні для завдань і загальні представлення модальності.
Результати експериментів Meta-Transformer були вражаючими. Фреймворк досяг виняткової продуктивності на кількох наборах даних, що охоплюють 12 різних модальностей.
Цей інноваційний підхід обіцяє новий напрямок у розвитку агностичної основи для модальність, яка уніфікує всі типи даних і значно покращує здатність до розуміння мультимодальний.
З Meta-Transformer мультимодальний пошук скоро зробить великий крок вперед, забезпечуючи значні досягнення в області штучного інтелекту та машинного навчання.
Здатність обробляти кілька модальностей даних за допомогою єдиної уніфікованої структури є важливою віхою на шляху до більш потужного та ефективного ШІ.