Multimodalne uczenie się zawsze było wyzwaniem Sztuczna inteligencja, ponieważ różne typy danych wymagają różnych podejść do wydajnego przetwarzania – coś, co niektórzy uczenie maszynowe są jeszcze dalekie od realizacji.
Jednak naukowcy z Chińskiego Uniwersytetu w Hongkongu i Shanghai AI Lab wymyślili innowacyjne rozwiązanie: tzw „Meta-Transformer”, ujednolicona platforma AI, która może obsługiwać wiele modalności danych przy użyciu tego samego zestawu parametry. Zapoznaj się z poniższymi szczegółami!
Zobacz więcej
Sztuczna inteligencja i obciążenie pracą: korzyść czy wyzwanie dla profesjonalistów?
Twórca ChatGPT kładzie kres narzędziu do wykrywania tekstów stworzonych…
O ludzki mózg jest inspiracją dla tego nowego podejścia. Nasz mózg jednocześnie przetwarza informacje z wielu bodźców sensorycznych, takich jak sygnały wizualne, słuchowe i dotykowe, a zrozumienie jednego źródła może pomóc w zrozumieniu innego.
Jednak powielanie tej możliwości w dziedzinie sztucznej inteligencji było wyzwaniem ze względu na lukę modalną w głębokim uczeniu się.
(Zdjęcie: Thinkhubstudio/iStock/odtwarzanie)
Mody danych mają różne cechy. Obrazy mają informacje przestrzenne i nadmiarowość informacji w skompresowanych pikselach. Chmury punktów są trudne do opisania ze względu na ich rzadkie rozmieszczenie w przestrzeni 3D.
Spektrogramy audio to niestacjonarne, zmienne w czasie wzorce danych. Z kolei dane wideo składają się z szeregu klatek obrazu, które umożliwiają rejestrację informacji przestrzennych i dynamiki czasowej.
Do tej pory podejście do radzenia sobie z różnymi modalnościami polegało na tworzeniu oddzielnych sieci dla każdego typu danych, co skutkowało dużym nakładem pracy w celu indywidualnego dostrojenia modeli. Jednak chińscy naukowcy zaproponowali nowy sposób radzenia sobie z tą złożonością.
Meta-Transformer składa się z trzech głównych komponentów: specjalisty modalności do tokenizacji danych, a współdzielony koder modalności do wyodrębniania reprezentacji z różnych modalności i specyficznych dla zadań nagłówków zadań "w dół rzeki".
Ta struktura umożliwia tworzenie wspólnych sekwencji tokenów z danych multimodalnych i wyodrębnianie reprezentacji za pomocą kodera z zamrożonymi parametrami. Proste podejście Meta-Transformer skutecznie trenuje reprezentacje modalności specyficzne dla zadania i ogólne.
Wyniki eksperymentów z Meta-Transformatorem były imponujące. Ramy osiągnęły wyjątkową wydajność na wielu zestawach danych obejmujących 12 różnych modalności.
To innowacyjne podejście obiecuje nowy kierunek w rozwoju agnostycznych ram dla modalność, która ujednolica wszystkie rodzaje danych i znacznie poprawia możliwość zrozumienie multimodalny.
Dzięki Meta-Transformer wyszukiwanie multimodalne zrobi duży krok naprzód, zapewniając znaczny postęp w sztucznej inteligencji i uczeniu maszynowym.
Zdolność do przetwarzania wielu modalności danych za pomocą jednej, ujednoliconej struktury stanowi ważny kamień milowy na drodze do potężniejszej i wydajniejszej sztucznej inteligencji.