Multimodalno učenje je bilo vedno izziv Umetna inteligenca, saj različne vrste podatkov zahtevajo različne pristope k učinkoviti obdelavi – nekaj, kar nekateri strojno učenje so še daleč od uresničitve.
Vendar so raziskovalci s kitajske univerze v Hongkongu in šanghajskega laboratorija za umetno inteligenco našli inovativno rešitev: »Meta-Transformer«, poenoteno ogrodje AI, ki lahko obravnava več modalitet podatkov z uporabo istega nabora parametri. Razumejte spodnje podrobnosti!
Poglej več
Umetna inteligenca in delovna obremenitev: korist ali izziv za strokovnjake?
Ustvarjalec ChatGPT ukinja orodje za zaznavanje besedil, narejenih...
O človeški možgani je navdih za ta nov pristop. Naši možgani istočasno obdelujejo informacije iz več senzoričnih vnosov, kot so vizualni, slušni in tipni signali, in razumevanje enega vira lahko pomaga razumeti drugega.
Vendar pa je bilo posnemanje te zmožnosti na področju umetne inteligence zahtevno zaradi modalne vrzeli pri globokem učenju.
(Slika: Thinkhubstudio/iStock/playback)
Modalitete podatkov imajo različne značilnosti. Slike imajo prostorske informacije in imajo redundanco informacij v stisnjenih slikovnih pikah. Oblake točk je težko opisati zaradi njihove redke porazdelitve v 3D prostoru.
Zvočni spektrogrami so nestacionarni, časovno spremenljivi vzorci podatkov. Videopodatki pa so sestavljeni iz serije slikovnih okvirjev, ki omogočajo snemanje prostorskih informacij in časovne dinamike.
Do zdaj so pristopi k obravnavanju različnih modalitet vključevali ustvarjanje ločenih omrežij za vsako vrsto podatkov, kar je povzročilo veliko dela za natančno nastavitev posameznih modelov. Vendar so kitajski raziskovalci predlagali nov način za reševanje te zapletenosti.
Meta-Transformer je sestavljen iz treh glavnih komponent: specialista za modalitete za tokenizacijo podatkov, kodirnik v skupni rabi modalnosti za ekstrahiranje predstavitev med modalitetami in nalogami, specifičnimi za naloge “dolvodno”.
To ogrodje omogoča ustvarjanje zaporedij žetonov v skupni rabi iz večmodalnih podatkov in ekstrahiranje predstavitev z uporabo kodirnika z zamrznjenimi parametri. Preprost pristop Meta-Transformerja učinkovito usposablja predstavitve specifičnih nalog in generičnih načinov.
Rezultati poskusov Meta-Transformerja so bili impresivni. Ogrodje je doseglo izjemno zmogljivost na več nizih podatkov, ki obsegajo 12 različnih modalitet.
Ta inovativni pristop obljublja novo smer v razvoju agnostičnega okvira za modalnost, ki poenoti vse vrste podatkov in bistveno izboljša zmožnost za razumevanje multimodalni.
Z Meta-Transformerjem bo večmodalno iskanje naredilo velik korak naprej in prineslo pomemben napredek na področju umetne inteligence in strojnega učenja.
Zmožnost obdelave več modalitet podatkov z enim, poenotenim ogrodjem predstavlja pomemben mejnik na poti do močnejše in učinkovitejše umetne inteligence.