Învățarea multimodală a fost întotdeauna o provocare în Inteligenţă artificială, deoarece diferitele tipuri de date necesită abordări diferite ale procesării eficiente – ceva ce unii învățare automată sunt încă departe de a fi realizate.
Cu toate acestea, cercetătorii de la Universitatea Chineză din Hong Kong și de la Shanghai AI Lab au venit cu o soluție inovatoare: „Meta-Transformer”, un cadru AI unificat care poate gestiona mai multe modalități de date folosind același set de parametrii. Înțelege detaliile de mai jos!
Vezi mai mult
AI și volumul de muncă: beneficiu sau provocare pentru profesioniști?
Creatorul ChatGPT pune capăt instrumentului de detectare a textelor făcute...
O creier uman este o inspirație pentru această nouă abordare. Creierul nostru procesează simultan informații de la mai multe intrări senzoriale, cum ar fi semnalele vizuale, auditive și tactile, iar înțelegerea unei surse poate ajuta la înțelegerea alteia.
Cu toate acestea, replicarea acestei capacități în domeniul AI a fost o provocare din cauza decalajului de modalități în învățarea profundă.
(Imagine: Thinkhubstudio/iStock/redare)
Modalitățile de date au caracteristici distincte. Imaginile au informații spațiale și au redundanță de informații în pixeli comprimați. Norii de puncte sunt dificil de descris din cauza distribuției lor rare în spațiul 3D.
Spectrogramele audio sunt modele de date non-staționare, care variază în timp. Datele video, la rândul lor, cuprind o serie de cadre de imagine, care permit înregistrarea informațiilor spațiale și a dinamicii temporale.
Până acum, abordările de a face față diferitelor modalități implicau crearea de rețele separate pentru fiecare tip de date, ceea ce a dus la multă muncă pentru a ajusta modelele individual. Cu toate acestea, cercetătorii chinezi au propus o nouă modalitate de a face față acestei complexități.
Meta-Transformerul este compus din trei componente principale: un specialist în modalități pentru tokenizarea datelor, a codificator partajat de modalități pentru a extrage reprezentări între modalități și capete specifice sarcinilor pentru sarcini „în aval”.
Acest cadru permite crearea de secvențe de token partajate din date multimodale și extragerea reprezentărilor folosind un codificator cu parametri înghețați. Abordarea simplă a lui Meta-Transformer antrenează eficient reprezentările modalităților specifice sarcinii și generice.
Rezultatele experimentelor Meta-Transformer au fost impresionante. Cadrul a atins performanțe excepționale pe mai multe seturi de date care acoperă 12 modalități diferite.
Această abordare inovatoare promite o nouă direcție în dezvoltarea unui cadru agnostic pentru modalitate, care unifică toate tipurile de date și îmbunătățește semnificativ capacitatea de a înţelegere multimodal.
Cu Meta-Transformer, căutarea multimodală este pe cale să facă un mare pas înainte, oferind progrese semnificative în inteligența artificială și învățarea automată.
Capacitatea de a procesa mai multe modalități de date cu un singur cadru unificat reprezintă o etapă importantă în călătoria către o IA mai puternică și mai eficientă.