لطالما كان التعلم متعدد الوسائط يمثل تحديًا في الذكاء الاصطناعي، حيث تتطلب أنواع مختلفة من البيانات مناهج مختلفة للمعالجة الفعالة - وهو أمر يحتاجه البعض تعلم الآلة لا تزال بعيدة عن التحقيق.
ومع ذلك ، توصل باحثون من جامعة هونج كونج الصينية ومختبر شنغهاي للذكاء الاصطناعي إلى حل مبتكر: "Meta-Transformer" ، إطار عمل ذكاء اصطناعي موحد يمكنه التعامل مع أنماط بيانات متعددة باستخدام نفس المجموعة حدود. افهم التفاصيل أدناه!
شاهد المزيد
الذكاء الاصطناعي وعبء العمل: فائدة أم تحدي للمحترفين؟
منشئ ChatGPT يضع حدا لأداة الكشف عن النصوص التي تم إنشاؤها...
ا العقل البشري هو مصدر إلهام لهذا النهج الجديد. يعالج دماغنا المعلومات في وقت واحد من مدخلات حسية متعددة ، مثل الإشارات البصرية والسمعية واللمسية ، ويمكن أن يساعد فهم مصدر واحد في فهم الآخر.
ومع ذلك ، فإن تكرار هذه القدرة في مجال الذكاء الاصطناعي يمثل تحديًا بسبب فجوة الأسلوب في التعلم العميق.
(الصورة: Thinkhubstudio / iStock / playback)
طرائق البيانات لها خصائص مميزة. تحتوي الصور على معلومات مكانية ولها تكرار للمعلومات في وحدات البكسل المضغوطة. يصعب وصف الغيوم النقطية بسبب توزيعها المتناثر في الفضاء ثلاثي الأبعاد.
مخططات الصوت الطيفية هي أنماط بيانات متغيرة بمرور الوقت. تشتمل بيانات الفيديو ، بدورها ، على سلسلة من إطارات الصور ، والتي تسمح بتسجيل المعلومات المكانية والديناميات الزمنية.
حتى الآن ، تضمنت مناهج التعامل مع الأساليب المختلفة إنشاء شبكات منفصلة لكل نوع بيانات ، مما أدى إلى الكثير من العمل لضبط النماذج بشكل فردي. ومع ذلك ، فقد اقترح باحثون صينيون طريقة جديدة للتعامل مع هذا التعقيد.
يتكون Meta-Transformer من ثلاثة مكونات رئيسية: أخصائي أسلوب لترميز البيانات ، أ طريقة التشفير المشتركة لاستخراج التمثيلات عبر الطرائق ورؤساء المهام المحددة للمهام "المصب".
يسمح إطار العمل هذا بإنشاء تسلسلات رمزية مشتركة من البيانات متعددة الوسائط واستخراج التمثيلات باستخدام برنامج تشفير مع معلمات مجمدة. يعمل النهج المباشر لمحول Meta-Transformer المباشر على تدريب تمثيلات طريقة محددة وعامة بكفاءة.
كانت نتائج تجارب Meta-Transformer مثيرة للإعجاب. حقق إطار العمل أداءً استثنائيًا على مجموعات بيانات متعددة تغطي 12 طريقة مختلفة.
يعد هذا النهج المبتكر باتجاه جديد في تطوير إطار عمل لا أدري لـ الطريقة ، التي توحد جميع أنواع البيانات وتحسن بشكل كبير القدرة على فهم متعدد الوسائط.
باستخدام Meta-Transformer ، يوشك البحث متعدد الوسائط على اتخاذ خطوة كبيرة إلى الأمام ، مما يؤدي إلى تقدم كبير في الذكاء الاصطناعي والتعلم الآلي.
تمثل القدرة على معالجة أنماط بيانات متعددة بإطار عمل واحد وموحد معلمًا هامًا في الرحلة نحو ذكاء اصطناعي أكثر قوة وكفاءة.