Мултимодалното обучение винаги е било предизвикателство Изкуствен интелект, тъй като различните видове данни изискват различни подходи за ефективна обработка – нещо, което някои машинно обучение все още са далеч от реализиране.
Изследователи от Китайския университет в Хонг Конг и Шанхайската лаборатория за изкуствен интелект обаче излязоха с иновативно решение: „Meta-Transformer“, унифицирана AI рамка, която може да обработва множество модалности на данни, използвайки един и същ набор от параметри. Разберете подробностите по-долу!
виж повече
ИИ и натоварване: полза или предизвикателство за професионалистите?
Създателят на ChatGPT слага край на инструмента за откриване на текстове, направени...
О човешки мозък е вдъхновение за този нов подход. Нашият мозък едновременно обработва информация от множество сензорни входове, като визуални, слухови и тактилни сигнали, и разбирането на един източник може да помогне за разбирането на друг.
Възпроизвеждането на тази способност в областта на ИИ обаче беше предизвикателство поради празнината в модалността в дълбокото обучение.
(Изображение: Thinkhubstudio/iStock/playback)
Модалностите на данните имат различни характеристики. Изображенията имат пространствена информация и имат излишък от информация в компресирани пиксели. Облаците от точки са трудни за описание поради рядкото им разпространение в 3D пространството.
Аудио спектрограмите са нестационарни, променящи се във времето модели на данни. Видео данните от своя страна се състоят от поредица от кадри на изображението, което позволява запис на пространствена информация и времева динамика.
Досега подходите за работа с различни модалности включваха създаване на отделни мрежи за всеки тип данни, което доведе до много работа за фина настройка на моделите поотделно. Китайски изследователи обаче предложиха нов начин за справяне с тази сложност.
Мета-трансформаторът се състои от три основни компонента: специалист по модалност за токенизиране на данни, модален споделен енкодер за извличане на представяния между модалности и специфични за задачите глави за задачи „надолу по течението“.
Тази рамка позволява създаване на споделени последователности от токени от мултимодални данни и извличане на представяния с помощта на енкодер със замразени параметри. Опростеният подход на Meta-Transformer обучава ефикасно представяне на специфични за задачите и общи модалности.
Резултатите от експериментите с Meta-Transformer бяха впечатляващи. Рамката постигна изключителна производителност на множество набори от данни, обхващащи 12 различни модалности.
Този новаторски подход обещава нова посока в развитието на агностична рамка за модалност, която обединява всички видове данни и значително подобрява способността за разбиране мултимодален.
С Meta-Transformer мултимодалното търсене е на път да направи голяма крачка напред, осигурявайки значителен напредък в областта на изкуствения интелект и машинното обучение.
Способността да се обработват множество модалности на данни с единна унифицирана рамка представлява важен крайъгълен камък в пътуването към по-мощен и ефективен AI.