Multimodalinis mokymasis visada buvo iššūkis Dirbtinis intelektas, nes skirtingų tipų duomenims reikia skirtingų požiūrių į efektyvų apdorojimą – kai kurie tai daro mašininis mokymasis dar toli iki realizacijos.
Tačiau mokslininkai iš Kinijos Honkongo universiteto ir Šanchajaus AI laboratorijos sugalvojo naujovišką sprendimą: „Meta-Transformer“ – vieninga AI sistema, galinti apdoroti kelis duomenų būdus naudojant tą patį duomenų rinkinį. parametrus. Supraskite toliau pateiktą informaciją!
Žiūrėti daugiau
AI ir darbo krūvis: nauda ar iššūkis profesionalams?
„ChatGPT“ kūrėjas užbaigia sukurtų tekstų aptikimo įrankį…
O žmogaus smegenys yra šio naujo požiūrio įkvėpimas. Mūsų smegenys vienu metu apdoroja informaciją iš kelių jutiminių įvesties šaltinių, tokių kaip vaizdiniai, garsiniai ir lytėjimo signalai, o vieno šaltinio supratimas gali padėti suprasti kitą.
Tačiau atkartoti šią galimybę dirbtinio intelekto srityje buvo sudėtinga dėl gilaus mokymosi modalumo atotrūkio.
(Vaizdas: Thinkhubstudio/iStock/playback)
Duomenų perdavimo būdai turi skirtingas ypatybes. Vaizdai turi erdvinę informaciją ir informacijos dubliavimą suspaustais pikseliais. Taškinius debesis sunku apibūdinti, nes jie retai pasiskirsto 3D erdvėje.
Garso spektrogramos yra nestacionarūs, laikui bėgant kintantys duomenų modeliai. Savo ruožtu vaizdo duomenis sudaro vaizdo kadrų serija, leidžianti įrašyti erdvinę informaciją ir laiko dinamiką.
Iki šiol skirtingi metodai buvo susiję su atskirų tinklų kūrimu kiekvienam duomenų tipui, todėl reikėjo daug darbo, siekiant tiksliai suderinti modelius. Tačiau Kinijos mokslininkai pasiūlė naują būdą, kaip išspręsti šį sudėtingumą.
Meta transformatorius sudarytas iš trijų pagrindinių komponentų: duomenų atpažinimo modalumo specialisto, modalumo bendrai naudojamas koduotuvas, skirtas išgauti skirtingų modalų reprezentacijas ir konkrečioms užduotims skirtų užduočių galvutes „pasroviui“.
Ši sistema leidžia kurti bendras prieigos raktų sekas iš multimodalinių duomenų ir išgauti atvaizdus naudojant kodavimo įrenginį su fiksuotais parametrais. „Meta-Transformer“ paprastas metodas efektyviai apmoko konkrečios užduoties ir bendruosius modalumo vaizdus.
Meta-Transformerio eksperimentų rezultatai buvo įspūdingi. Sistema pasiekė išskirtinį našumą keliuose duomenų rinkiniuose, apimančiuose 12 skirtingų būdų.
Šis novatoriškas požiūris žada naują kryptį kuriant agnostinę sistemą modalumą, kuris suvienija visų tipų duomenis ir žymiai pagerina galimybes supratimas multimodalinis.
Naudojant „Meta-Transformer“, multimodalinė paieška žengs didelį žingsnį į priekį, pateikdama didelę pažangą dirbtinio intelekto ir mašininio mokymosi srityse.
Galimybė apdoroti kelis duomenų būdus naudojant vieną vieningą sistemą yra svarbus žingsnis siekiant galingesnio ir efektyvesnio AI.