Multimodal læring har alltid vært en utfordring i Kunstig intelligens, ettersom ulike typer data krever ulike tilnærminger til effektiv behandling – noe som noen maskinlæring er fortsatt langt fra realisert.
Imidlertid kom forskere fra det kinesiske universitetet i Hong Kong og Shanghai AI Lab med en innovativ løsning: "Meta-Transformer", et enhetlig AI-rammeverk som kan håndtere flere datamodaliteter ved å bruke samme sett med parametere. Forstå detaljene nedenfor!
se mer
AI og arbeidsmengde: fordel eller utfordring for profesjonelle?
Skaperen av ChatGPT setter en stopper for verktøyet for å oppdage tekster laget...
O Menneskehjerne er en inspirasjon for denne nye tilnærmingen. Hjernen vår behandler samtidig informasjon fra flere sensoriske innganger, for eksempel visuelle, auditive og taktile signaler, og forståelse av én kilde kan hjelpe til med å forstå en annen.
Imidlertid har det vært utfordrende å replikere denne evnen innen AI på grunn av modalitetsgapet i dyp læring.
(Bilde: Thinkhubstudio/iStock/playback)
Datamodaliteter har distinkte egenskaper. Bilder har romlig informasjon og har redundans av informasjon i komprimerte piksler. Punktskyer er vanskelige å beskrive på grunn av deres sparsomme distribusjon i 3D-rom.
Lydspektrogrammer er ikke-stasjonære, tidsvarierende datamønstre. Videodata består på sin side av en serie bilderammer, som tillater opptak av romlig informasjon og tidsmessig dynamikk.
Til nå har tilnærminger til å håndtere ulike modaliteter involvert å opprette separate nettverk for hver datatype, noe som har resultert i mye arbeid med å finjustere modellene individuelt. Kinesiske forskere har imidlertid foreslått en ny måte å håndtere denne kompleksiteten på.
Meta-Transformeren er sammensatt av tre hovedkomponenter: en modalitetsspesialist for datatokenisering, en modalitetsdelt koder for å trekke ut representasjoner på tvers av modaliteter og oppgavespesifikke hoder for oppgaver "nedstrøms".
Dette rammeverket gjør det mulig å lage delte token-sekvenser fra multimodale data og trekke ut representasjoner ved å bruke en koder med frosne parametere. Meta-Transformers enkle tilnærming trener oppgavespesifikke og generiske modalitetsrepresentasjoner effektivt.
Resultatene fra Meta-Transformer-eksperimentene var imponerende. Rammeverket oppnådde eksepsjonell ytelse på flere datasett som spenner over 12 forskjellige modaliteter.
Denne innovative tilnærmingen lover en ny retning i utviklingen av et agnostisk rammeverk for modalitet, som forener alle typer data og betydelig forbedrer muligheten til forståelse multimodal.
Med Meta-Transformer er multimodalt søk i ferd med å ta et stort skritt fremover, og levere betydelige fremskritt innen kunstig intelligens og maskinlæring.
Evnen til å behandle flere datamodaliteter med ett enkelt, enhetlig rammeverk representerer en viktig milepæl på reisen til kraftigere og mer effektiv AI.