A multimodális tanulás mindig is kihívást jelentett Mesterséges intelligencia, mivel a különböző típusú adatok eltérő megközelítést igényelnek a hatékony feldolgozáshoz – amit egyesek gépi tanulás még messze vannak a megvalósulástól.
A Hongkongi Kínai Egyetem és a Shanghai AI Lab kutatói azonban egy innovatív megoldással álltak elő: a „Meta-Transformer”, egy egységes mesterséges intelligencia keretrendszer, amely többféle adatmódot képes kezelni ugyanazon paramétereket. Értsd meg az alábbi részleteket!
többet látni
AI és munkaterhelés: előny vagy kihívás a szakemberek számára?
A ChatGPT létrehozója véget vet az elkészített szövegek észlelésére szolgáló eszköznek…
O emberi agy ihletet ad ehhez az új megközelítéshez. Agyunk egyidejűleg több szenzoros bemenetből származó információt dolgoz fel, például vizuális, hallási és tapintható jeleket, és az egyik forrás megértése segíthet egy másik forrás megértésében.
Ennek a képességnek a megismétlése a mesterséges intelligencia területén azonban kihívást jelent a mély tanulás modalitási hiányosságai miatt.
(Kép: Thinkhubstudio/iStock/playback)
Az adatmódszereknek külön jellemzői vannak. A képek térinformációkkal rendelkeznek, és tömörített pixelekben redundanciájuk van. A pontfelhőket nehéz leírni a 3D térben való ritka eloszlásuk miatt.
Az audiospektrogramok nem stacionárius, időben változó adatminták. A videoadatok viszont képkockák sorozatát tartalmazzák, amelyek lehetővé teszik a térinformációk és az időbeli dinamika rögzítését.
Eddig a különböző módozatok kezelésének megközelítései minden adattípushoz külön hálózatot hoztak létre, ami sok munkát eredményezett a modellek egyedi finomhangolásához. A kínai kutatók azonban új módszert javasoltak ennek az összetettségnek a kezelésére.
A Meta-Transformer három fő összetevőből áll: egy modalitás specialista az adattokenizáláshoz, egy modalitás megosztott kódolója a modalitások reprezentációinak és a feladatok feladatspecifikus fejeinek kinyeréséhez „lefelé”.
Ez a keretrendszer lehetővé teszi megosztott tokenszekvenciák létrehozását multimodális adatokból és reprezentációk kinyerését egy fagyasztott paraméterekkel rendelkező kódoló segítségével. A Meta-Transformer egyszerű megközelítése hatékonyan képezi a feladatspecifikus és általános modalitás-reprezentációkat.
A Meta-Transformer kísérletek eredményei lenyűgözőek voltak. A keretrendszer kivételes teljesítményt ért el több adatkészleten, amelyek 12 különböző módozatot öleltek fel.
Ez az innovatív megközelítés új irányt ígér az agnosztikus keretrendszer fejlesztésében modalitás, amely egyesíti az összes adattípust és jelentősen javítja a képességet megértés kombinált.
A Meta-Transformerrel a multimodális keresés nagy lépést tesz előre, jelentős előrelépést hozva a mesterséges intelligencia és a gépi tanulás terén.
Az a képesség, hogy egyetlen, egységes keretrendszerrel több adatmódszert is feldolgozhatunk, fontos mérföldkövet jelent a hatékonyabb és hatékonyabb mesterségesintelligencia felé vezető úton.