Multimodální učení bylo vždy výzvou Umělá inteligence, protože různé typy dat vyžadují různé přístupy k efektivnímu zpracování – něco, co někteří strojové učení ještě zdaleka nejsou realizovány.
Vědci z Čínské univerzity v Hongkongu a Shanghai AI Lab však přišli s inovativním řešením: the „Meta-Transformer“, jednotný rámec umělé inteligence, který dokáže zpracovat více datových modalit pomocí stejné sady parametry. Pochopte podrobnosti níže!
vidět víc
AI a pracovní zátěž: přínos nebo výzva pro profesionály?
Tvůrce ChatGPT ukončuje nástroj pro detekci vytvořených textů…
Ó lidský mozek je inspirací pro tento nový přístup. Náš mozek současně zpracovává informace z více smyslových vstupů, jako jsou vizuální, sluchové a hmatové signály, a pochopení jednoho zdroje může pomoci porozumět druhému.
Replikování této schopnosti v oblasti umělé inteligence však bylo náročné kvůli rozdílu v modalitě v hlubokém učení.
(Obrázek: Thinkhubstudio/iStock/playback)
Datové modality mají odlišné vlastnosti. Obrázky mají prostorovou informaci a mají redundanci informací v komprimovaných pixelech. Mračna bodů je obtížné popsat kvůli jejich řídkému rozložení ve 3D prostoru.
Zvukové spektrogramy jsou nestacionární, časově se měnící vzory dat. Video data zase obsahují řadu obrazových snímků, které umožňují záznam prostorových informací a časové dynamiky.
Doposud přístupy k řešení různých modalit zahrnovaly vytváření samostatných sítí pro každý datový typ, což vedlo k velkému úsilí při dolaďování jednotlivých modelů. Čínští vědci však navrhli nový způsob, jak se s touto složitostí vypořádat.
Meta-Transformer se skládá ze tří hlavních komponent: specialista na modality pro tokenizaci dat, a modality sdíleného kodéru pro extrahování reprezentací napříč modalitami a hlav pro úkoly specifické pro úkoly „po proudu“.
Tento rámec umožňuje vytvářet sdílené sekvence tokenů z multimodálních dat a extrahovat reprezentace pomocí kodéru se zmrazenými parametry. Přímý přístup Meta-Transformeru efektivně trénuje reprezentace konkrétních úkolů a generické modality.
Výsledky experimentů Meta-Transformer byly působivé. Rámec dosáhl výjimečného výkonu na více souborech dat zahrnujících 12 různých modalit.
Tento inovativní přístup slibuje nový směr ve vývoji agnostického rámce pro modalita, která sjednocuje všechny typy dat a výrazně zlepšuje schopnost porozumění multimodální.
S Meta-Transformerem se multimodální vyhledávání chystá udělat velký krok vpřed a přináší významný pokrok v umělé inteligenci a strojovém učení.
Schopnost zpracovávat více datových modalit pomocí jediného jednotného rámce představuje důležitý milník na cestě k výkonnější a efektivnější umělé inteligenci.