Multimodaalne õpe on alati olnud väljakutseks Tehisintellekt, kuna erinevat tüüpi andmed nõuavad erinevat lähenemist tõhusale töötlemisele – midagi, mida mõned masinõpe on veel kaugel realiseerimisest.
Hiina Hongkongi ülikooli ja Shanghai tehisintellekti labori teadlased leidsid aga uuendusliku lahenduse: "Meta-Transformer" on ühtne tehisintellekti raamistik, mis suudab käsitleda mitut andmeviisi, kasutades sama komplekti. parameetrid. Saage aru allpool olevatest üksikasjadest!
näe rohkem
AI ja töökoormus: kasu või väljakutse professionaalidele?
ChatGPT looja lõpetab tehtud tekstide tuvastamise tööriista…
O inimese aju on selle uue lähenemisviisi inspiratsiooniks. Meie aju töötleb samaaegselt teavet mitmest sensoorsest sisendist, näiteks visuaalsetest, kuulmis- ja puutesignaalidest, ning ühe allika mõistmine võib aidata mõista teist.
Selle võimaluse kopeerimine tehisintellekti valdkonnas on aga olnud keeruline sügava õppimise modaalsuse lõhe tõttu.
(Pilt: Thinkhubstudio/iStock/playback)
Andmeviisidel on erinevad omadused. Piltidel on ruumiinformatsioon ja teabe liiasus tihendatud pikslites. Punktpilvi on raske kirjeldada nende hõreda leviku tõttu 3D-ruumis.
Helispektrogrammid on mittestatsionaarsed, ajas muutuvad andmemustrid. Videoandmed omakorda hõlmavad pildikaadrite seeriat, mis võimaldab salvestada ruumilist teavet ja ajalist dünaamikat.
Siiani hõlmasid erinevate meetodite käsitlemise lähenemisviisid iga andmetüübi jaoks eraldi võrkude loomist, mille tulemuseks oli palju tööd mudelite individuaalseks viimistlemiseks. Hiina teadlased on aga pakkunud välja uue viisi selle keerukusega toimetulemiseks.
Meta-Transformer koosneb kolmest põhikomponendist: andmete tokeniseerimise modaalsuse spetsialist, modaalsuse jagatud kodeerija modaalsuste esitusviiside eraldamiseks ja ülesannete ülesandespetsiifilised päid "allavoolu".
See raamistik võimaldab luua multimodaalsetest andmetest jagatud märgijadasid ja eraldada esitusi, kasutades külmutatud parameetritega kodeerijat. Meta-Transformeri lihtne lähenemine treenib tõhusalt ülesandespetsiifilisi ja üldiseid modaalsuse esitusi.
Meta-Transformeri katsete tulemused olid muljetavaldavad. Raamistik saavutas erakordse jõudluse mitmes andmekogumis, mis hõlmasid 12 erinevat viisi.
See uuenduslik lähenemine lubab uut suunda agnostilise raamistiku väljatöötamisel modaalsus, mis ühendab igat tüüpi andmeid ja parandab oluliselt nende võimet mõistmine multimodaalne.
Meta-Transformeriga astub multimodaalne otsing suure sammu edasi, pakkudes tehisintellekti ja masinõppe vallas olulisi edusamme.
Võimalus töödelda ühtse ühtse raamistikuga mitut andmeviisi on oluline verstapost teel võimsama ja tõhusama tehisintellekti poole.