მულტიმოდალური სწავლა ყოველთვის იყო გამოწვევა Ხელოვნური ინტელექტი, რადგან სხვადასხვა ტიპის მონაცემები მოითხოვს განსხვავებულ მიდგომას ეფექტური დამუშავებისადმი – რაღაც, რასაც ზოგიერთი მანქანათმცოდნეობა ჯერ კიდევ შორს არიან განხორციელებისგან.
თუმცა, ჩინეთის ჰონგ კონგის უნივერსიტეტისა და შანხაის AI ლაბორატორიის მკვლევარებმა მიიღეს ინოვაციური გადაწყვეტა: "მეტა-ტრანსფორმერი", ერთიანი ხელოვნური ინტელექტის ჩარჩო, რომელსაც შეუძლია მონაცემთა მრავალჯერადი მოდალობის მართვა ერთიდაიგივე კომპლექტის გამოყენებით. პარამეტრები. გაიგე დეტალები ქვემოთ!
მეტის ნახვა
AI და დატვირთვა: სარგებელი თუ გამოწვევა პროფესიონალებისთვის?
ChatGPT-ის შემქმნელი წყვეტს შესრულებული ტექსტების აღმოჩენის ხელსაწყოს…
ო ადამიანის ტვინი არის ამ ახალი მიდგომის შთაგონება. ჩვენი ტვინი ერთდროულად ამუშავებს ინფორმაციას მრავალი სენსორული წყაროდან, როგორიცაა ვიზუალური, აუდიტორია და ტაქტილური სიგნალები, და ერთი წყაროს გაგება დაგეხმარებათ მეორის გაგებაში.
თუმცა, ამ შესაძლებლობის გამეორება ხელოვნური ინტელექტის სფეროში რთული იყო ღრმა სწავლის მოდალობის ხარვეზის გამო.
(სურათი: Thinkhubstudio/iStock/დაკვრა)
მონაცემთა მოდალობას აქვს განსხვავებული მახასიათებლები. სურათებს აქვთ სივრცითი ინფორმაცია და აქვთ ინფორმაციის სიჭარბე შეკუმშულ პიქსელებში. წერტილოვანი ღრუბლების აღწერა რთულია 3D სივრცეში მათი იშვიათი განაწილების გამო.
აუდიო სპექტროგრამები არის არასტაციონარული, დროში ცვალებადი მონაცემების შაბლონები. ვიდეო მონაცემები, თავის მხრივ, მოიცავს გამოსახულების ჩარჩოების სერიას, რაც საშუალებას იძლევა ჩაწეროს სივრცითი ინფორმაცია და დროითი დინამიკა.
აქამდე სხვადასხვა მოდალებთან ურთიერთობის მიდგომები მოიცავდა ცალკეული ქსელების შექმნას მონაცემთა თითოეული ტიპისთვის, რის შედეგადაც ბევრი სამუშაო იყო მოდელების ინდივიდუალურად დაზუსტებაზე. თუმცა, ჩინელმა მკვლევარებმა შემოგვთავაზეს ახალი გზა ამ სირთულის დასაძლევად.
მეტა-ტრანსფორმერი შედგება სამი ძირითადი კომპონენტისგან: მონაცემთა ტოკენიზაციის მოდალობის სპეციალისტი, მოდალობის გაზიარებული ენკოდერი მოდალობისა და ამოცანის სპეციფიკური თავების ამოსაღებად "ქვემოთ".
ეს ჩარჩო საშუალებას გაძლევთ შექმნათ საერთო ნიშნების მიმდევრობები მულტიმოდალური მონაცემებიდან და ამოიღოთ წარმოდგენები ენკოდერის გამოყენებით გაყინული პარამეტრებით. Meta-Transformer-ის პირდაპირი მიდგომა ეფექტურად ავარჯიშებს ამოცანის სპეციფიკურ და ზოგად მოდალობის წარმოდგენებს.
მეტა-ტრანსფორმერის ექსპერიმენტების შედეგები შთამბეჭდავი იყო. ჩარჩომ მიაღწია განსაკუთრებულ შესრულებას მრავალრიცხოვან მონაცემთა ნაკრებზე, რომელიც მოიცავს 12 სხვადასხვა მოდალობას.
ეს ინოვაციური მიდგომა გვპირდება ახალ მიმართულებას აგნოსტიკური ჩარჩოს შემუშავებაში მოდალობა, რომელიც აერთიანებს ყველა ტიპის მონაცემს და მნიშვნელოვნად აუმჯობესებს უნარს გაგება მულტიმოდალური.
Meta-Transformer-ით, მულტიმოდალური ძიება დიდი ნაბიჯის გადადგმას აპირებს, რაც მნიშვნელოვან წინსვლას მიაღწევს ხელოვნურ ინტელექტსა და მანქანათმცოდნეობაში.
მონაცემთა მრავალი მოდალობის დამუშავების შესაძლებლობა ერთიანი, ერთიანი ჩარჩოთი წარმოადგენს მნიშვნელოვან ეტაპს უფრო მძლავრ და ეფექტურ AI-სკენ მოგზაურობისას.