Multimodalt lärande har alltid varit en utmaning i Artificiell intelligens, eftersom olika typer av data kräver olika tillvägagångssätt för effektiv behandling – något som vissa maskininlärning är fortfarande långt ifrån förverkligade.
Men forskare från det kinesiska universitetet i Hong Kong och Shanghai AI Lab kom fram till en innovativ lösning: "Meta-Transformer", ett enhetligt AI-ramverk som kan hantera flera datamodaliteter med samma uppsättning av parametrar. Förstå detaljerna nedan!
se mer
AI och arbetsbelastning: fördel eller utmaning för proffs?
Skaparen av ChatGPT sätter stopp för verktyget för att upptäcka texter gjorda...
O mänsklig hjärna är en inspiration för detta nya tillvägagångssätt. Vår hjärna bearbetar samtidigt information från flera sensoriska input, såsom visuella, auditiva och taktila signaler, och att förstå en källa kan hjälpa till att förstå en annan.
Att replikera denna förmåga inom AI-området har dock varit utmanande på grund av modalitetsgapet i djupinlärning.
(Bild: Thinkhubstudio/iStock/playback)
Datamodaliteter har distinkta egenskaper. Bilder har rumslig information och har redundans av information i komprimerade pixlar. Punktmoln är svåra att beskriva på grund av deras sparsamma distribution i 3D-rymden.
Ljudspektrogram är icke-stationära, tidsvarierande datamönster. Videodata består i sin tur av en serie bildramar, vilket möjliggör inspelning av rumslig information och tidsdynamik.
Hittills har tillvägagångssätt för att hantera olika modaliteter inneburit att skapa separata nätverk för varje datatyp, vilket resulterat i mycket arbete för att finjustera modellerna individuellt. Kinesiska forskare har dock föreslagit ett nytt sätt att hantera denna komplexitet.
Meta-Transformer är sammansatt av tre huvudkomponenter: en modalitetsspecialist för datatokenisering, en modalitetsdelad kodare för att extrahera representationer över modaliteter och uppgiftsspecifika huvuden för uppgifter "nedströms".
Detta ramverk gör det möjligt att skapa delade tokensekvenser från multimodala data och extrahera representationer med hjälp av en kodare med frusna parametrar. Meta-Transformers enkla tillvägagångssätt tränar uppgiftsspecifika och generiska modalitetsrepresentationer effektivt.
Resultaten av Meta-Transformer-experimenten var imponerande. Ramverket uppnådde exceptionell prestanda på flera datamängder som spänner över 12 olika modaliteter.
Detta innovativa tillvägagångssätt lovar en ny riktning i utvecklingen av ett agnostisk ramverk för modalitet, som förenar alla typer av data och avsevärt förbättrar förmågan att förståelse multimodal.
Med Meta-Transformer är multimodal sökning på väg att ta ett stort steg framåt och leverera betydande framsteg inom artificiell intelligens och maskininlärning.
Möjligheten att bearbeta flera datamodaliteter med ett enda enhetligt ramverk representerar en viktig milstolpe på resan mot mer kraftfull och effektiv AI.