Дослідники в Китаї близькі до випуску найпотужнішого ШІ, який коли-небудь бачив світ

Мультимодальне навчання завжди було проблемою Штучний інтелект, оскільки різні типи даних вимагають різних підходів до ефективної обробки – те, що деякі машинне навчання ще далекі від реалізації.

Однак дослідники з Китайського університету Гонконгу та Шанхайської лабораторії штучного інтелекту запропонували інноваційне рішення: «Meta-Transformer», уніфікована структура ШІ, яка може обробляти різні модальності даних, використовуючи той самий набір параметри. Зрозумійте деталі нижче!

побачити більше

ШІ та робоче навантаження: користь чи виклик для професіоналів?

Творець ChatGPT кладе кінець інструменту для виявлення текстів, зроблених…

Інший підхід для нових результатів

О мозок людини є джерелом натхнення для цього нового підходу. Наш мозок одночасно обробляє інформацію з багатьох сенсорних сигналів, таких як візуальні, слухові та тактильні сигнали, і розуміння одного джерела може допомогти зрозуміти інше.

Однак відтворити цю можливість у сфері штучного інтелекту було складно через розрив у модальності глибокого навчання.

(Зображення: Thinkhubstudio/iStock/playback)

Модальності даних мають відмінні характеристики. Зображення мають просторову інформацію та надлишковість інформації у стиснутих пікселях. Хмари точок важко описати через їх розрідженість у тривимірному просторі.

Аудіо спектрограми – це нестаціонарні шаблони даних, що змінюються в часі. Відеодані, у свою чергу, містять серію кадрів зображення, що дозволяє записувати просторову інформацію та часову динаміку.

Дотепер підходи до роботи з різними модальностями передбачали створення окремих мереж для кожного типу даних, що призвело до великої роботи для тонкого налаштування моделей окремо. Проте китайські дослідники запропонували новий спосіб вирішення цієї складності.

Meta-Transformer складається з трьох основних компонентів: спеціаліста з модальності для токенізації даних, спільний кодер модальності для отримання представлень модальностей і заголовків завдань для конкретних завдань «за течією».

Цей фреймворк дозволяє створювати спільні послідовності маркерів із мультимодальних даних і видобувати представлення за допомогою кодувальника із замороженими параметрами. Простий підхід Meta-Transformer ефективно тренує специфічні для завдань і загальні представлення модальності.

Результати експериментів Meta-Transformer були вражаючими. Фреймворк досяг виняткової продуктивності на кількох наборах даних, що охоплюють 12 різних модальностей.

Цей інноваційний підхід обіцяє новий напрямок у розвитку агностичної основи для модальність, яка уніфікує всі типи даних і значно покращує здатність до розуміння мультимодальний.

З Meta-Transformer мультимодальний пошук скоро зробить великий крок вперед, забезпечуючи значні досягнення в області штучного інтелекту та машинного навчання.

Здатність обробляти кілька модальностей даних за допомогою єдиної уніфікованої структури є важливою віхою на шляху до більш потужного та ефективного ШІ.

Літературна діяльність: Луїс Ваз де Камоєс

on Jul 22, 2021

Дослідники в Китаї близькі до випуску найпотужнішого ШІ, який коли-небудь бачив світ

Інший підхід для нових результатів

Літературна діяльність: Луїс Ваз де Камоєс

Португальська діяльність: Прикметники

Інтерпретація тексту: Сімейний альбом