Multimodaalinen oppiminen on aina ollut haaste Tekoäly, koska erityyppiset tiedot vaativat erilaisia lähestymistapoja tehokkaaseen käsittelyyn – jotain, jota jotkut koneoppimista ovat vielä kaukana toteutumisesta.
Hongkongin kiinalaisen yliopiston ja Shanghain AI Labin tutkijat keksivät kuitenkin innovatiivisen ratkaisun: "Meta-Transformer", yhtenäinen tekoälykehys, joka pystyy käsittelemään useita datamodaliteetteja käyttämällä samoja parametrit. Ymmärrä yksityiskohdat alla!
Katso lisää
Tekoäly ja työmäärä: hyöty vai haaste ammattilaisille?
ChatGPT: n luoja lopettaa työkalun tehtyjen tekstien havaitsemiseen…
O ihmisaivot on inspiraationa tälle uudelle lähestymistavalle. Aivomme käsittelevät samanaikaisesti tietoa useista sensorisista tuloista, kuten visuaalisista, kuulo- ja tuntosignaaleista, ja yhden lähteen ymmärtäminen voi auttaa ymmärtämään toista.
Tämän ominaisuuden kopioiminen tekoälyn alalla on kuitenkin ollut haastavaa syvän oppimisen modaalivajeen vuoksi.
(Kuva: Thinkhubstudio/iStock/playback)
Datamodaliteetilla on omat erityispiirteet. Kuvissa on paikkatietoa ja tiedon redundanssia pakatuina pikseleinä. Pistepilviä on vaikea kuvata, koska ne ovat harvassa 3D-avaruudessa.
Äänispektrogrammit ovat ei-stationaarisia, ajassa vaihtelevia datakuvioita. Videodata puolestaan käsittää sarjan kuvakehyksiä, jotka mahdollistavat tilatietojen ja ajallisen dynamiikan tallentamisen.
Tähän asti lähestymistavat erilaisten menetelmien käsittelyyn sisälsivät erillisten verkkojen luomisen kullekin tietotyypille, mikä johti paljon työtä mallien yksilölliseen hienosäätöön. Kiinalaiset tutkijat ovat kuitenkin ehdottaneet uutta tapaa käsitellä tätä monimutkaisuutta.
Meta-Transformer koostuu kolmesta pääkomponentista: modaliteettiasiantuntija datan tokenisointiin, modaliteetti jaettu kooderi poimimaan esityksiä modaliteeteista ja tehtäväkohtaisista tehtävistä "alavirtaan".
Tämä kehys mahdollistaa jaettujen merkkijonojen luomisen multimodaalisesta tiedosta ja esitysten poimimisen käyttämällä kooderia, jossa on jäädytetyt parametrit. Meta-Transformerin suoraviivainen lähestymistapa kouluttaa tehtäväkohtaisia ja yleisiä modaalisuuden esityksiä tehokkaasti.
Meta-Transformer-kokeiden tulokset olivat vaikuttavia. Viitekehys saavutti poikkeuksellisen suorituskyvyn useissa tietojoukkoissa, jotka kattavat 12 erilaista toimintatapaa.
Tämä innovatiivinen lähestymistapa lupaa uuden suunnan agnostisen viitekehyksen kehittämisessä modaliteetti, joka yhdistää kaikentyyppiset tiedot ja parantaa merkittävästi kykyä ymmärtäminen multimodaalinen.
Meta-Transformerin avulla multimodaalinen haku ottaa suuren askeleen eteenpäin ja tarjoaa merkittäviä edistysaskeleita tekoälyssä ja koneoppimisessa.
Kyky käsitellä useita datamodaliteetteja yhdellä yhtenäisellä kehyksellä on tärkeä virstanpylväs matkalla kohti tehokkaampaa ja tehokkaampaa tekoälyä.