L'apprentissage multimodal a toujours été un défi dans Intelligence artificielle, car différents types de données nécessitent différentes approches pour un traitement efficace - quelque chose que certains apprentissages automatiques sont encore loin d'être réalisés.
Cependant, des chercheurs de l'Université chinoise de Hong Kong et du Shanghai AI Lab ont proposé une solution innovante: le "Meta-Transformer", un cadre d'IA unifié qui peut gérer plusieurs modalités de données en utilisant le même ensemble de paramètres. Comprenez les détails ci-dessous!
voir plus
IA et charge de travail: avantage ou défi pour les professionnels?
Le créateur de ChatGPT met fin à l'outil de détection des textes rédigés…
O cerveau humain est une source d'inspiration pour cette nouvelle approche. Notre cerveau traite simultanément les informations provenant de plusieurs entrées sensorielles, telles que les signaux visuels, auditifs et tactiles, et la compréhension d'une source peut aider à en comprendre une autre.
Cependant, la reproduction de cette capacité dans le domaine de l'IA a été difficile en raison du manque de modalités dans l'apprentissage en profondeur.
(Image: Thinkhubstudio/iStock/lecture)
Les modalités de données ont des caractéristiques distinctes. Les images ont des informations spatiales et ont une redondance d'informations dans les pixels compressés. Les nuages de points sont difficiles à décrire en raison de leur faible répartition dans l'espace 3D.
Les spectrogrammes audio sont des modèles de données non stationnaires et variant dans le temps. Les données vidéo, à leur tour, comprennent une série de trames d'images, ce qui permet d'enregistrer des informations spatiales et des dynamiques temporelles.
Jusqu'à présent, les approches pour traiter les différentes modalités impliquaient la création de réseaux distincts pour chaque type de données, ce qui impliquait beaucoup de travail pour affiner les modèles individuellement. Cependant, des chercheurs chinois ont proposé une nouvelle façon de faire face à cette complexité.
Le méta-transformateur est composé de trois composants principaux: un spécialiste des modalités pour la tokenisation des données, un encodeur partagé de modalité pour extraire les représentations à travers les modalités et les têtes spécifiques aux tâches pour les tâches "en aval".
Ce cadre permet de créer des séquences de jetons partagés à partir de données multimodales et d'extraire des représentations à l'aide d'un encodeur avec des paramètres figés. L'approche simple de Meta-Transformer entraîne efficacement les représentations de modalités génériques et spécifiques à une tâche.
Les résultats des expériences Meta-Transformer ont été impressionnants. Le cadre a atteint des performances exceptionnelles sur plusieurs ensembles de données couvrant 12 modalités différentes.
Cette approche innovante promet une nouvelle direction dans le développement d'un cadre agnostique pour modalité, qui unifie tous les types de données et améliore considérablement la capacité à compréhension multimodal.
Avec Meta-Transformer, la recherche multimodale est sur le point de faire un grand pas en avant, offrant des avancées significatives en matière d'intelligence artificielle et d'apprentissage automatique.
La capacité de traiter plusieurs modalités de données avec un cadre unique et unifié représente une étape importante sur la voie d'une IA plus puissante et plus efficace.