Multimodales Lernen war schon immer eine Herausforderung Künstliche Intelligenz, da unterschiedliche Arten von Daten unterschiedliche Ansätze für eine effiziente Verarbeitung erfordern – etwas, das einige Maschinelles Lernen sind noch lange nicht realisiert.
Forscher der Chinesischen Universität Hongkong und des Shanghai AI Lab haben jedoch eine innovative Lösung gefunden: die „Meta-Transformer“, ein einheitliches KI-Framework, das mehrere Datenmodalitäten mit demselben Satz von Daten verarbeiten kann Parameter. Verstehen Sie die Details unten!
Mehr sehen
KI und Arbeitsbelastung: Nutzen oder Herausforderung für Berufstätige?
Der Schöpfer von ChatGPT macht Schluss mit dem Tool zum Erkennen von Texten, die erstellt wurden…
Ö menschliches Gehirn ist eine Inspiration für diesen neuen Ansatz. Unser Gehirn verarbeitet gleichzeitig Informationen aus mehreren sensorischen Eingaben wie visuellen, akustischen und taktilen Signalen, und das Verstehen einer Quelle kann dabei helfen, eine andere zu verstehen.
Allerdings war die Replikation dieser Fähigkeit im Bereich der KI aufgrund der Modalitätslücke beim Deep Learning eine Herausforderung.
(Bild: Thinkhubstudio/iStock/playback)
Datenmodalitäten weisen unterschiedliche Merkmale auf. Bilder verfügen über räumliche Informationen und Informationsredundanz in komprimierten Pixeln. Punktwolken sind aufgrund ihrer geringen Verteilung im 3D-Raum schwer zu beschreiben.
Audiospektrogramme sind instationäre, zeitlich veränderliche Datenmuster. Videodaten wiederum bestehen aus einer Reihe von Einzelbildern, die die Aufzeichnung räumlicher Informationen und zeitlicher Dynamik ermöglichen.
Bisherige Ansätze für den Umgang mit unterschiedlichen Modalitäten umfassten die Erstellung separater Netzwerke für jeden Datentyp, was zu einem hohen Aufwand bei der individuellen Feinabstimmung der Modelle führte. Chinesische Forscher haben jedoch einen neuen Weg vorgeschlagen, mit dieser Komplexität umzugehen.
Der Meta-Transformer besteht aus drei Hauptkomponenten: einem Modalitätsspezialisten für die Daten-Tokenisierung, a Modality Shared Encoder zum Extrahieren von Darstellungen über Modalitäten und aufgabenspezifische Köpfe für Aufgaben „stromabwärts“.
Dieses Framework ermöglicht die Erstellung gemeinsamer Token-Sequenzen aus multimodalen Daten und das Extrahieren von Darstellungen mithilfe eines Encoders mit eingefrorenen Parametern. Der unkomplizierte Ansatz von Meta-Transformer trainiert aufgabenspezifische und generische Modalitätsdarstellungen effizient.
Die Ergebnisse der Meta-Transformer-Experimente waren beeindruckend. Das Framework erzielte eine außergewöhnliche Leistung bei mehreren Datensätzen, die 12 verschiedene Modalitäten abdecken.
Dieser innovative Ansatz verspricht eine neue Richtung bei der Entwicklung eines agnostischen Rahmens für Modalität, die alle Arten von Daten vereinheitlicht und die Fähigkeit dazu erheblich verbessert Verständnis multimodal.
Mit Meta-Transformer macht die multimodale Suche einen großen Schritt nach vorne und bringt bedeutende Fortschritte in den Bereichen künstliche Intelligenz und maschinelles Lernen.
Die Fähigkeit, mehrere Datenmodalitäten mit einem einzigen, einheitlichen Framework zu verarbeiten, stellt einen wichtigen Meilenstein auf dem Weg zu einer leistungsfähigeren und effizienteren KI dar.