L'apprendimento multimodale è sempre stato una sfida in Intelligenza artificiale, poiché diversi tipi di dati richiedono approcci diversi per un'elaborazione efficiente, cosa che alcuni apprendimento automatico sono ancora lontani dall'essere realizzati.
Tuttavia, i ricercatori dell'Università cinese di Hong Kong e dello Shanghai AI Lab hanno escogitato una soluzione innovativa: il "Meta-Transformer", un framework AI unificato in grado di gestire più modalità di dati utilizzando lo stesso set di parametri. Comprendere i dettagli di seguito!
Vedi altro
AI e carico di lavoro: vantaggio o sfida per i professionisti?
Il creatore di ChatGPT mette fine allo strumento per rilevare i testi fatti...
O cervello umano è un'ispirazione per questo nuovo approccio. Il nostro cervello elabora simultaneamente le informazioni da più input sensoriali, come segnali visivi, uditivi e tattili, e comprendere una fonte può aiutare a capirne un'altra.
Tuttavia, replicare questa capacità nel campo dell'intelligenza artificiale è stato difficile a causa del divario di modalità nel deep learning.
(Immagine: Thinkhubstudio/iStock/riproduzione)
Le modalità dei dati hanno caratteristiche distinte. Le immagini hanno informazioni spaziali e hanno ridondanza di informazioni in pixel compressi. Le nuvole di punti sono difficili da descrivere a causa della loro scarsa distribuzione nello spazio 3D.
Gli spettrogrammi audio sono modelli di dati non stazionari e variabili nel tempo. I dati video, a loro volta, comprendono una serie di fotogrammi di immagini, che consentono di registrare informazioni spaziali e dinamiche temporali.
Fino ad ora, gli approcci alla gestione delle diverse modalità comportavano la creazione di reti separate per ciascun tipo di dati, con conseguente notevole lavoro di messa a punto dei singoli modelli. Tuttavia, i ricercatori cinesi hanno proposto un nuovo modo per affrontare questa complessità.
Il Meta-Transformer è composto da tre componenti principali: uno specialista della modalità per la tokenizzazione dei dati, a modalità codificatore condiviso per estrarre rappresentazioni tra modalità e teste specifiche per attività per le attività "a valle".
Questo framework consente di creare sequenze di token condivise da dati multimodali ed estrarre rappresentazioni utilizzando un codificatore con parametri congelati. L'approccio diretto di Meta-Transformer forma rappresentazioni di modalità specifiche e generiche in modo efficiente.
I risultati degli esperimenti del Meta-Transformer sono stati impressionanti. Il framework ha ottenuto prestazioni eccezionali su più set di dati che coprono 12 diverse modalità.
Questo approccio innovativo promette una nuova direzione nello sviluppo di un quadro agnostico per modalità, che unifica tutti i tipi di dati e migliora significativamente la capacità di comprensione multimodale.
Con Meta-Transformer, la ricerca multimodale sta per fare un grande passo avanti, offrendo progressi significativi nell'intelligenza artificiale e nell'apprendimento automatico.
La capacità di elaborare più modalità di dati con un unico framework unificato rappresenta un'importante pietra miliare nel viaggio verso un'IA più potente ed efficiente.