Pembelajaran multimodal selalu menjadi tantangan di Indonesia Kecerdasan buatan, karena jenis data yang berbeda memerlukan pendekatan yang berbeda untuk pemrosesan yang efisien – sesuatu yang bagi sebagian orang pembelajaran mesin masih jauh dari realisasi.
Namun, para peneliti dari Chinese University of Hong Kong dan Shanghai AI Lab menemukan solusi inovatif: the "Meta-Transformer", kerangka kerja AI terpadu yang dapat menangani banyak modalitas data menggunakan kumpulan data yang sama parameter. Pahami detail di bawah ini!
lihat lebih banyak
AI dan beban kerja: manfaat atau tantangan bagi para profesional?
Pembuat ChatGPT mengakhiri alat untuk mendeteksi teks yang dibuat…
HAI otak manusia merupakan inspirasi untuk pendekatan baru ini. Otak kita secara bersamaan memproses informasi dari berbagai masukan sensorik, seperti sinyal visual, pendengaran, dan taktil, dan memahami satu sumber dapat membantu memahami sumber lainnya.
Namun, mereplikasi kemampuan ini di bidang AI menjadi tantangan karena kesenjangan modalitas dalam pembelajaran mendalam.
(Gambar: Thinkhubstudio/iStock/playback)
Modalitas data memiliki karakteristik yang berbeda. Gambar memiliki informasi spasial dan redundansi informasi dalam piksel terkompresi. Awan titik sulit dideskripsikan karena distribusinya yang jarang dalam ruang 3D.
Spektogram audio adalah pola data yang tidak stasioner dan bervariasi waktu. Data video, pada gilirannya, terdiri dari serangkaian bingkai gambar, yang memungkinkan perekaman informasi spasial dan dinamika temporal.
Hingga saat ini, pendekatan untuk berurusan dengan berbagai modalitas melibatkan pembuatan jaringan terpisah untuk setiap tipe data, menghasilkan banyak pekerjaan untuk menyempurnakan model secara individual. Namun, peneliti China telah mengusulkan cara baru untuk mengatasi kompleksitas ini.
Meta-Transformer terdiri dari tiga komponen utama: spesialis modalitas untuk tokenisasi data, a modality shared encoder untuk mengekstrak representasi lintas modalitas dan kepala tugas khusus untuk tugas "hilir".
Kerangka kerja ini memungkinkan untuk membuat urutan token bersama dari data multimodal dan mengekstraksi representasi menggunakan encoder dengan parameter beku. Pendekatan langsung Meta-Transformer melatih representasi modalitas tugas-spesifik dan umum secara efisien.
Hasil percobaan Meta-Transformer sangat mengesankan. Framework ini mencapai performa luar biasa pada beberapa set data yang mencakup 12 modalitas berbeda.
Pendekatan inovatif ini menjanjikan arah baru dalam pengembangan kerangka agnostik untuk modalitas, yang menyatukan semua jenis data dan secara signifikan meningkatkan kemampuan untuk memahami multimodal.
Dengan Meta-Transformer, pencarian multimodal akan mengambil langkah maju yang besar, menghadirkan kemajuan signifikan dalam kecerdasan buatan dan pembelajaran mesin.
Kemampuan untuk memproses beberapa modalitas data dengan satu kerangka kerja terpadu merupakan tonggak penting dalam perjalanan menuju AI yang lebih kuat dan efisien.