मल्टीमॉडल लर्निंग हमेशा से एक चुनौती रही है कृत्रिम होशियारी, क्योंकि विभिन्न प्रकार के डेटा को कुशल प्रसंस्करण के लिए अलग-अलग तरीकों की आवश्यकता होती है - कुछ और मशीन लर्निंग अभी भी साकार होने से कोसों दूर हैं।
हालाँकि, चीनी विश्वविद्यालय हांगकांग और शंघाई एआई लैब के शोधकर्ता एक अभिनव समाधान लेकर आए: "मेटा-ट्रांसफॉर्मर", एक एकीकृत एआई ढांचा जो एक ही सेट का उपयोग करके कई डेटा तौर-तरीकों को संभाल सकता है पैरामीटर. नीचे दिए गए विवरण को समझें!
और देखें
एआई और कार्यभार: पेशेवरों के लिए लाभ या चुनौती?
ChatGPT के निर्माता ने टेक्स्ट का पता लगाने वाले टूल को ख़त्म कर दिया है...
हे मानव मस्तिष्क इस नए दृष्टिकोण के लिए एक प्रेरणा है। हमारा मस्तिष्क एक साथ दृश्य, श्रवण और स्पर्श संकेतों जैसे कई संवेदी इनपुट से जानकारी संसाधित करता है, और एक स्रोत को समझने से दूसरे को समझने में मदद मिल सकती है।
हालाँकि, गहन शिक्षण में तौर-तरीकों के अंतर के कारण एआई के क्षेत्र में इस क्षमता को दोहराना चुनौतीपूर्ण रहा है।
(छवि: थिंकहबस्टूडियो/आईस्टॉक/प्लेबैक)
डेटा तौर-तरीकों की विशिष्ट विशेषताएं होती हैं। छवियों में स्थानिक जानकारी होती है और संपीड़ित पिक्सेल में जानकारी का अतिरेक होता है। 3डी अंतरिक्ष में उनके विरल वितरण के कारण बिंदु बादलों का वर्णन करना कठिन है।
ऑडियो स्पेक्ट्रोग्राम डेटा के गैर-स्थिर, समय-परिवर्तनशील पैटर्न हैं। बदले में, वीडियो डेटा में छवि फ़्रेमों की एक श्रृंखला शामिल होती है, जो स्थानिक जानकारी और अस्थायी गतिशीलता को रिकॉर्ड करने की अनुमति देती है।
अब तक, विभिन्न तौर-तरीकों से निपटने के दृष्टिकोण में प्रत्येक डेटा प्रकार के लिए अलग-अलग नेटवर्क बनाना शामिल था, जिसके परिणामस्वरूप मॉडल को व्यक्तिगत रूप से ठीक करने के लिए बहुत काम करना पड़ता था। हालाँकि, चीनी शोधकर्ताओं ने इस जटिलता से निपटने के लिए एक नया तरीका प्रस्तावित किया है।
मेटा-ट्रांसफॉर्मर तीन मुख्य घटकों से बना है: डेटा टोकनाइजेशन के लिए एक मॉडेलिटी विशेषज्ञ, ए कार्यों के लिए तौर-तरीकों और कार्य-विशिष्ट प्रमुखों में अभ्यावेदन निकालने के लिए मॉडेलिटी साझा एनकोडर "डाउनस्ट्रीम"।
यह ढांचा मल्टीमॉडल डेटा से साझा टोकन अनुक्रम बनाने और जमे हुए मापदंडों के साथ एक एनकोडर का उपयोग करके प्रतिनिधित्व निकालने की अनुमति देता है। मेटा-ट्रांसफॉर्मर का सीधा दृष्टिकोण कार्य-विशिष्ट और सामान्य तौर-तरीकों के प्रतिनिधित्व को कुशलतापूर्वक प्रशिक्षित करता है।
मेटा-ट्रांसफॉर्मर प्रयोगों के परिणाम प्रभावशाली थे। फ्रेमवर्क ने 12 अलग-अलग तौर-तरीकों में फैले कई डेटासेट पर असाधारण प्रदर्शन हासिल किया।
यह अभिनव दृष्टिकोण अज्ञेयवादी ढांचे के विकास में एक नई दिशा का वादा करता है तौर-तरीके, जो सभी प्रकार के डेटा को एकीकृत करते हैं और करने की क्षमता में उल्लेखनीय सुधार करते हैं समझ बहुविध.
मेटा-ट्रांसफॉर्मर के साथ, मल्टीमॉडल खोज कृत्रिम बुद्धिमत्ता और मशीन लर्निंग में महत्वपूर्ण प्रगति प्रदान करते हुए एक बड़ा कदम आगे बढ़ाने वाली है।
एकल, एकीकृत ढांचे के साथ कई डेटा तौर-तरीकों को संसाधित करने की क्षमता अधिक शक्तिशाली और कुशल एआई की यात्रा में एक महत्वपूर्ण मील का पत्थर दर्शाती है।