Multimodal læring har altid været en udfordring i Kunstig intelligens, da forskellige typer data kræver forskellige tilgange til effektiv behandling – noget som nogle maskinlæring er stadig langt fra realiseret.
Men forskere fra det kinesiske universitet i Hong Kong og Shanghai AI Lab kom med en innovativ løsning: "Meta-Transformer", en samlet AI-ramme, der kan håndtere flere datamodaliteter ved hjælp af det samme sæt af parametre. Forstå detaljerne nedenfor!
se mere
AI og arbejdsbyrde: fordel eller udfordring for professionelle?
Skaberen af ChatGPT sætter en stopper for værktøjet til at opdage tekster lavet...
O menneskelig hjerne er en inspiration til denne nye tilgang. Vores hjerne behandler samtidig information fra flere sensoriske input, såsom visuelle, auditive og taktile signaler, og forståelse af én kilde kan hjælpe med at forstå en anden.
Det har imidlertid været udfordrende at kopiere denne evne inden for kunstig intelligens på grund af modalitetskløften i dyb læring.
(Billede: Thinkhubstudio/iStock/playback)
Datamodaliteter har forskellige karakteristika. Billeder har rumlig information og har redundans af information i komprimerede pixels. Punktskyer er svære at beskrive på grund af deres sparsomme fordeling i 3D-rum.
Lydspektrogrammer er ikke-stationære, tidsvarierende datamønstre. Videodata omfatter til gengæld en række billedrammer, som tillader optagelse af rumlig information og tidsmæssig dynamik.
Indtil nu har tilgange til at håndtere forskellige modaliteter involveret oprettelse af separate netværk for hver datatype, hvilket har resulteret i en masse arbejde med at finjustere modellerne individuelt. Kinesiske forskere har dog foreslået en ny måde at håndtere denne kompleksitet på.
Meta-Transformeren er sammensat af tre hovedkomponenter: en modalitetsspecialist til datatokenisering, en modalitetsdelt encoder til at udtrække repræsentationer på tværs af modaliteter og opgavespecifikke hoveder til opgaver "nedstrøms".
Denne ramme giver mulighed for at skabe delte token-sekvenser fra multimodale data og udtrække repræsentationer ved hjælp af en koder med frosne parametre. Meta-Transformers ligefremme tilgang træner opgavespecifikke og generiske modalitetsrepræsentationer effektivt.
Resultaterne af Meta-Transformer-eksperimenterne var imponerende. Rammen opnåede enestående ydeevne på flere datasæt, der spænder over 12 forskellige modaliteter.
Denne innovative tilgang lover en ny retning i udviklingen af en agnostisk ramme for modalitet, som samler alle typer data og væsentligt forbedrer muligheden for at forståelse multimodal.
Med Meta-Transformer er multimodal søgning ved at tage et stort skridt fremad og levere betydelige fremskridt inden for kunstig intelligens og maskinlæring.
Evnen til at behandle flere datamodaliteter med en enkelt, samlet ramme repræsenterer en vigtig milepæl på rejsen mod mere kraftfuld og effektiv AI.