Multimodálne vzdelávanie bolo vždy výzvou Umela inteligencia, keďže rôzne typy údajov si vyžadujú rôzne prístupy k efektívnemu spracovaniu – niečo, čo niektorí strojové učenie sú ešte ďaleko od realizácie.
Výskumníci z Čínskej univerzity v Hong Kongu a Shanghai AI Lab však prišli s inovatívnym riešením: the „Meta-Transformer“, jednotný rámec AI, ktorý dokáže spracovať viacero dátových modalít pomocou rovnakej sady parametre. Pochopte podrobnosti nižšie!
pozrieť viac
AI a pracovné zaťaženie: prínos alebo výzva pre profesionálov?
Tvorca ChatGPT ukončuje nástroj na zisťovanie textov vytvorených...
O ľudský mozog je inšpiráciou pre tento nový prístup. Náš mozog súčasne spracováva informácie z viacerých zmyslových vstupov, ako sú vizuálne, sluchové a hmatové signály, a pochopenie jedného zdroja môže pomôcť porozumieť druhému.
Replikovanie tejto schopnosti v oblasti AI však bolo náročné kvôli rozdielu v modalite v hlbokom učení.
(Obrázok: Thinkhubstudio/iStock/playback)
Dátové modality majú odlišné charakteristiky. Obrázky majú priestorové informácie a majú redundanciu informácií v komprimovaných pixeloch. Mraky bodov sa ťažko opisujú z dôvodu ich riedkeho rozmiestnenia v 3D priestore.
Zvukové spektrogramy sú nestacionárne, časovo sa meniace vzory údajov. Video dáta zase obsahujú sériu obrazových snímok, ktoré umožňujú zaznamenávať priestorové informácie a časovú dynamiku.
Doteraz prístupy k riešeniu rôznych modalít zahŕňali vytváranie samostatných sietí pre každý typ údajov, čo viedlo k veľkému množstvu práce pri individuálnom dolaďovaní modelov. Čínski vedci však navrhli nový spôsob, ako sa s touto zložitosťou vysporiadať.
Meta-Transformer sa skladá z troch hlavných komponentov: špecialista na modality pre tokenizáciu dát, a kódovač zdieľaný modalitou na extrahovanie reprezentácií naprieč modalitami a hlavičky úloh špecifických pre úlohy „po prúde“.
Tento rámec umožňuje vytvárať zdieľané tokenové sekvencie z multimodálnych údajov a extrahovať reprezentácie pomocou kodéra so zmrazenými parametrami. Priamy prístup Meta-Transformer efektívne trénuje reprezentácie špecifickej úlohy a generickej modality.
Výsledky experimentov Meta-Transformer boli pôsobivé. Rámec dosiahol výnimočný výkon na viacerých súboroch údajov zahŕňajúcich 12 rôznych modalít.
Tento inovatívny prístup sľubuje nový smer vo vývoji agnostického rámca pre modalita, ktorá zjednocuje všetky typy údajov a výrazne zlepšuje schopnosť pochopenie multimodálne.
S Meta-Transformerom sa multimodálne vyhľadávanie chystá urobiť veľký krok vpred a prináša významný pokrok v oblasti umelej inteligencie a strojového učenia.
Schopnosť spracovávať viacero dátových modalít pomocou jediného zjednoteného rámca predstavuje dôležitý míľnik na ceste k výkonnejšej a efektívnejšej AI.