Çok modlu öğrenme her zaman bir zorluk olmuştur. Yapay zeka, farklı veri türleri, verimli işleme için farklı yaklaşımlar gerektirdiğinden - bazılarının makine öğrenmeleri gerçekleştirmekten henüz çok uzaktır.
Ancak Hong Kong Çin Üniversitesi ve Şangay Yapay Zeka Laboratuvarı'ndan araştırmacılar yenilikçi bir çözüm buldu: Aynı veri setini kullanarak birden çok veri yöntemini işleyebilen birleşik bir yapay zeka çerçevesi olan “Meta-Transformer” parametreler. Aşağıdaki ayrıntıları anlayın!
daha fazla gör
AI ve iş yükü: profesyoneller için avantaj mı yoksa zorluk mu?
ChatGPT'nin yaratıcısı, yapılan metinleri algılama aracına son veriyor…
Ö İnsan beyni bu yeni yaklaşım için bir ilham kaynağı. Beynimiz aynı anda görsel, işitsel ve dokunsal sinyaller gibi birden çok duyusal girdiden gelen bilgileri işler ve bir kaynağı anlamak diğerini anlamaya yardımcı olabilir.
Ancak, derin öğrenmedeki modalite boşluğu nedeniyle bu yeteneği yapay zeka alanında çoğaltmak zor olmuştur.
(Resim: Thinkhubstudio/iStock/playback)
Veri modaliteleri farklı özelliklere sahiptir. Görüntüler uzamsal bilgiye sahiptir ve sıkıştırılmış piksellerde bilgi fazlalığına sahiptir. 3B uzayda seyrek dağılımları nedeniyle nokta bulutlarını tanımlamak zordur.
Ses spektrogramları durağan olmayan, zamanla değişen veri kalıplarıdır. Video verileri ise mekansal bilgilerin ve zamansal dinamiklerin kaydedilmesine izin veren bir dizi görüntü karesinden oluşur.
Şimdiye kadar, farklı modalitelerle başa çıkmaya yönelik yaklaşımlar, her veri türü için ayrı ağlar oluşturmayı içeriyordu ve bu da modellerin ayrı ayrı ince ayarını yapmak için çok çalışmayla sonuçlandı. Ancak Çinli araştırmacılar bu karmaşıklıkla başa çıkmak için yeni bir yol önerdiler.
Meta-Transformer üç ana bileşenden oluşur: veri tokenizasyonu için bir modalite uzmanı, modaliteler arasında temsilleri ve görevler için göreve özel kafaları ayıklamak için modalite paylaşımlı kodlayıcı "akıntı yönünde".
Bu çerçeve, çok modlu verilerden paylaşılan belirteç dizileri oluşturmaya ve donmuş parametrelere sahip bir kodlayıcı kullanarak gösterimleri çıkarmaya izin verir. Meta-Transformer'ın basit yaklaşımı, göreve özgü ve genel modalite temsillerini verimli bir şekilde eğitir.
Meta-Transformer deneylerinin sonuçları etkileyiciydi. Çerçeve, 12 farklı modaliteyi kapsayan birden çok veri kümesinde olağanüstü performans elde etti.
Bu yenilikçi yaklaşım, agnostik bir çerçevenin geliştirilmesinde yeni bir yön vaat ediyor. tüm veri türlerini birleştiren ve önemli ölçüde anlayış çok modlu.
Meta-Transformer ile çok modlu arama, yapay zeka ve makine öğreniminde önemli ilerlemeler sağlayarak ileriye doğru büyük bir adım atmak üzere.
Birden çok veri yöntemini tek bir birleşik çerçeveyle işleyebilme yeteneği, daha güçlü ve verimli yapay zekaya giden yolda önemli bir kilometre taşını temsil ediyor.