Мультимодальное обучение всегда было проблемой в Искусственный интеллект, так как разные типы данных требуют разных подходов к эффективной обработке. машинное обучение еще далеки от реализации.
Однако исследователи из Китайского университета Гонконга и Шанхайской лаборатории искусственного интеллекта предложили инновационное решение: «Мета-трансформер», унифицированная структура искусственного интеллекта, которая может обрабатывать несколько модальностей данных, используя один и тот же набор параметры. Подробности ниже!
узнать больше
ИИ и рабочая нагрузка: польза или вызов для профессионалов?
Создатель ChatGPT положил конец инструменту для обнаружения текстов, сделанных…
О человеческий мозг является источником вдохновения для этого нового подхода. Наш мозг одновременно обрабатывает информацию от нескольких сенсорных входов, таких как визуальные, слуховые и тактильные сигналы, и понимание одного источника может помочь понять другой.
Однако воспроизвести эту возможность в области ИИ было сложно из-за разрыва модальности в глубоком обучении.
(Изображение: Thinkhubstudio/iStock/воспроизведение)
Модальности данных имеют определенные характеристики. Изображения имеют пространственную информацию и имеют избыточность информации в сжатых пикселях. Облака точек трудно описать из-за их редкого распределения в трехмерном пространстве.
Аудиоспектрограммы представляют собой нестационарные, изменяющиеся во времени наборы данных. Видеоданные, в свою очередь, содержат серию кадров изображения, что позволяет записывать пространственную информацию и временную динамику.
До сих пор подходы к работе с различными модальностями включали создание отдельных сетей для каждого типа данных, что приводило к большой работе по точной настройке моделей по отдельности. Однако китайские исследователи предложили новый способ справиться с этой сложностью.
Meta-Transformer состоит из трех основных компонентов: специалиста по модальности для токенизации данных, Общий кодировщик модальности для извлечения представлений по модальностям и головок для конкретных задач для задач. «вниз по течению».
Эта структура позволяет создавать общие последовательности токенов из мультимодальных данных и извлекать представления с помощью кодировщика с фиксированными параметрами. Простой подход Meta-Transformer эффективно обучает репрезентации конкретных и общих модальностей.
Результаты экспериментов с Мета-Трансформером были впечатляющими. Платформа достигла исключительной производительности на нескольких наборах данных, охватывающих 12 различных модальностей.
Этот инновационный подход обещает новое направление в развитии агностической основы для модальность, объединяющая все типы данных и значительно улучшающая возможности понимание мультимодальный.
С Meta-Transformer мультимодальный поиск сделает большой шаг вперед, обеспечив значительный прогресс в области искусственного интеллекта и машинного обучения.
Возможность обрабатывать несколько модальностей данных с помощью единой унифицированной платформы представляет собой важную веху на пути к более мощному и эффективному ИИ.