Мултимодално учење је увек представљало изазов у Вештачка интелигенција, пошто различите врсте података захтевају различите приступе ефикасној обради – нешто што неки машинско учење још увек су далеко од реализације.
Међутим, истраживачи са кинеског универзитета у Хонг Конгу и шангајске АИ лабораторије дошли су до иновативног решења: „Мета-Трансформер“, обједињени АИ оквир који може да обрађује више модалитета података користећи исти скуп параметрима. Разумите детаље у наставку!
види више
АИ и оптерећење: корист или изазов за професионалце?
Креатор ЦхатГПТ-а ставља тачку на алатку за откривање текстова направљених…
О људски мозак је инспирација за овај нови приступ. Наш мозак истовремено обрађује информације из више сензорних улаза, као што су визуелни, слушни и тактилни сигнали, а разумевање једног извора може помоћи у разумевању другог.
Међутим, реплицирање ове способности у области вештачке интелигенције било је изазовно због јаза у модалитету у дубоком учењу.
(Слика: Тхинкхубстудио/иСтоцк/плаибацк)
Модалитети података имају различите карактеристике. Слике имају просторне информације и имају вишак информација у компримованим пикселима. Облаке тачака је тешко описати због њихове ретке дистрибуције у 3Д простору.
Аудио спектрограми су нестационарни, временски променљиви обрасци података. Видео подаци, заузврат, обухватају серију оквира слике, што омогућава снимање просторних информација и временске динамике.
До сада, приступи бављења различитим модалитетима укључивали су креирање засебних мрежа за сваки тип података, што је резултирало доста посла на фином подешавању модела појединачно. Међутим, кинески истраживачи су предложили нови начин за решавање ове сложености.
Мета-Трансформер се састоји од три главне компоненте: специјалиста за модалитет за токенизацију података, дељени енкодер за модалитет за издвајање репрезентација између модалитета и глава специфичних за задатке за задатке "низводно".
Овај оквир омогућава креирање дељених секвенци токена из мултимодалних података и издвајање репрезентација помоћу енкодера са замрзнутим параметрима. Директан приступ Мета-Трансформер-а ефикасно обучава репрезентације специфичних и генеричких модалитета.
Резултати експеримената Мета-Трансформера били су импресивни. Оквир је постигао изузетне перформансе на више скупова података који обухватају 12 различитих модалитета.
Овај иновативни приступ обећава нови правац у развоју агностичког оквира за модалитет, који обједињује све врсте података и значајно унапређује способност да разумевање мултимодалне.
Са Мета-Трансформером, мултимодална претрага ће учинити велики корак напред, доносећи значајан напредак у вештачкој интелигенцији и машинском учењу.
Способност обраде вишеструких модалитета података са једним јединственим оквиром представља важну прекретницу на путу ка снажнијој и ефикаснијој вештачкој интелигенцији.