Multimodalno učenje uvijek je predstavljalo izazov Umjetna inteligencija, budući da različite vrste podataka zahtijevaju različite pristupe učinkovitoj obradi – nešto što neki strojno učenje su još daleko od realizacije.
Međutim, istraživači s Kineskog sveučilišta u Hong Kongu i Shanghai AI Laba došli su do inovativnog rješenja: "Meta-Transformer", objedinjeni okvir umjetne inteligencije koji može obraditi više modaliteta podataka koristeći isti skup parametri. Razumite detalje u nastavku!
vidi više
AI i radno opterećenje: korist ili izazov za profesionalce?
Tvorac ChatGPT-a ukida alat za otkrivanje tekstova napravljenih…
O ljudski mozak je inspiracija za ovaj novi pristup. Naš mozak istovremeno obrađuje informacije iz više senzornih ulaza, kao što su vizualni, slušni i taktilni signali, a razumijevanje jednog izvora može pomoći u razumijevanju drugog.
Međutim, repliciranje ove sposobnosti u području umjetne inteligencije bilo je izazovno zbog jaza u modalitetima dubokog učenja.
(Slika: Thinkhubstudio/iStock/playback)
Modaliteti podataka imaju različite karakteristike. Slike imaju prostorne informacije i redundanciju informacija u komprimiranim pikselima. Oblake točaka teško je opisati zbog njihove rijetke distribucije u 3D prostoru.
Audio spektrogrami su nestacionarni, vremenski promjenjivi obrasci podataka. Videopodaci se sa svoje strane sastoje od niza slikovnih okvira koji omogućuju snimanje prostornih informacija i vremenske dinamike.
Do sada su pristupi bavljenju različitim modalitetima uključivali stvaranje zasebnih mreža za svaku vrstu podataka, što je rezultiralo velikim radom na finom podešavanju pojedinačnih modela. Međutim, kineski istraživači predložili su novi način rješavanja ove složenosti.
Meta-Transformer se sastoji od tri glavne komponente: stručnjaka za modalitet za tokenizaciju podataka, dijeljeni koder modaliteta za izdvajanje prikaza preko modaliteta i naslova specifičnih za zadatke "nizvodno".
Ovaj okvir omogućuje stvaranje sekvenci zajedničkih tokena iz multimodalnih podataka i izdvajanje prikaza pomoću kodera sa zamrznutim parametrima. Meta-Transformerov izravan pristup učinkovito uvježbava prikaze specifičnih zadataka i generičke modalnosti.
Rezultati eksperimenata s meta-transformatorom bili su impresivni. Okvir je postigao iznimnu izvedbu na više skupova podataka koji obuhvaćaju 12 različitih modaliteta.
Ovaj inovativni pristup obećava novi smjer u razvoju agnostičkog okvira za modalitet, koji objedinjuje sve vrste podataka i značajno poboljšava mogućnost da razumijevanje multimodalni.
S Meta-Transformerom, multimodalno pretraživanje će napraviti veliki korak naprijed, donoseći značajan napredak u umjetnoj inteligenciji i strojnom učenju.
Sposobnost obrade višestrukih modaliteta podataka s jedinstvenim, objedinjenim okvirom predstavlja važnu prekretnicu na putu prema moćnijoj i učinkovitijoj umjetnoj inteligenciji.