Multimodaal leren is altijd een uitdaging geweest Kunstmatige intelligentie, aangezien verschillende soorten gegevens verschillende benaderingen voor efficiënte verwerking vereisen - iets dat sommigen machinaal leren zijn nog lang niet gerealiseerd.
Onderzoekers van de Chinese Universiteit van Hong Kong en het Shanghai AI Lab kwamen echter met een innovatieve oplossing: de "Meta-Transformer", een verenigd AI-framework dat meerdere gegevensmodaliteiten kan verwerken met behulp van dezelfde set van parameters. Begrijp de onderstaande details!
Bekijk meer
AI en werkdruk: voordeel of uitdaging voor professionals?
Maker van ChatGPT maakt een einde aan de tool voor het opsporen van teksten die...
O menselijke brein is een inspiratie voor deze nieuwe aanpak. Onze hersenen verwerken tegelijkertijd informatie van meerdere sensorische inputs, zoals visuele, auditieve en tactiele signalen, en het begrijpen van de ene bron kan helpen bij het begrijpen van een andere.
Het repliceren van deze mogelijkheid op het gebied van AI was echter een uitdaging vanwege de modaliteitskloof in diep leren.
(Afbeelding: Thinkhubstudio/iStock/afspelen)
Gegevensmodaliteiten hebben verschillende kenmerken. Afbeeldingen hebben ruimtelijke informatie en hebben redundantie van informatie in gecomprimeerde pixels. Puntenwolken zijn moeilijk te beschrijven vanwege hun schaarse verspreiding in de 3D-ruimte.
Audiospectrogrammen zijn niet-stationaire, in de tijd variërende gegevenspatronen. Videogegevens omvatten op hun beurt een reeks beeldframes, waarmee ruimtelijke informatie en temporele dynamiek kunnen worden vastgelegd.
Tot nu toe bestond de aanpak van het omgaan met verschillende modaliteiten uit het creëren van afzonderlijke netwerken voor elk gegevenstype, wat resulteerde in veel werk om de modellen afzonderlijk te verfijnen. Chinese onderzoekers hebben echter een nieuwe manier voorgesteld om met deze complexiteit om te gaan.
De Meta-Transformer bestaat uit drie hoofdcomponenten: een modaliteitsspecialist voor datatokenisatie, een modaliteit gedeelde encoder om representaties over modaliteiten en taakspecifieke hoofden voor taken te extraheren "stroomafwaarts".
Dit raamwerk maakt het mogelijk om gedeelde tokenreeksen te maken van multimodale gegevens en representaties te extraheren met behulp van een encoder met bevroren parameters. De ongecompliceerde aanpak van Meta-Transformer traint taakspecifieke en generieke modaliteitsrepresentaties efficiënt.
De resultaten van de Meta-Transformer-experimenten waren indrukwekkend. Het raamwerk behaalde uitzonderlijke prestaties op meerdere datasets verspreid over 12 verschillende modaliteiten.
Deze innovatieve aanpak belooft een nieuwe richting in de ontwikkeling van een agnostisch raamwerk voor modaliteit, die alle soorten gegevens verenigt en de mogelijkheid om dit te doen aanzienlijk verbetert begrip multimodaal.
Met Meta-Transformer staat multimodaal zoeken op het punt een grote stap voorwaarts te zetten, met aanzienlijke vooruitgang op het gebied van kunstmatige intelligentie en machine learning.
De mogelijkheid om meerdere datamodaliteiten te verwerken met één enkel, verenigd raamwerk is een belangrijke mijlpaal op de weg naar krachtigere en efficiëntere AI.