การเรียนรู้หลายรูปแบบเป็นสิ่งที่ท้าทายมาโดยตลอด ปัญญาประดิษฐ์เนื่องจากข้อมูลประเภทต่างๆ ต้องการแนวทางที่แตกต่างกันในการประมวลผลที่มีประสิทธิภาพ ซึ่งบางอย่าง การเรียนรู้ของเครื่อง ยังห่างไกลจากการรับรู้
อย่างไรก็ตาม นักวิจัยจากมหาวิทยาลัยจีนแห่งฮ่องกงและ Shanghai AI Lab ได้คิดค้นวิธีแก้ปัญหาที่เป็นนวัตกรรม: “Meta-Transformer” ซึ่งเป็นเฟรมเวิร์ก AI แบบรวมที่สามารถจัดการข้อมูลหลายรูปแบบโดยใช้ชุดข้อมูลเดียวกัน พารามิเตอร์ ทำความเข้าใจรายละเอียดด้านล่าง!
ดูเพิ่มเติม
AI และภาระงาน: ประโยชน์หรือความท้าทายสำหรับมืออาชีพ?
ผู้สร้าง ChatGPT ยุติเครื่องมือตรวจจับข้อความที่สร้างขึ้น...
อ สมองมนุษย์ เป็นแรงบันดาลใจสำหรับแนวทางใหม่นี้ สมองของเราประมวลผลข้อมูลจากประสาทสัมผัสหลายอย่างพร้อมกัน เช่น สัญญาณภาพ การได้ยิน และสัญญาณสัมผัส และการเข้าใจแหล่งที่มาหนึ่งสามารถช่วยให้เข้าใจอีกแหล่งหนึ่งได้
อย่างไรก็ตาม การจำลองความสามารถนี้ในด้าน AI เป็นเรื่องที่ท้าทายเนื่องจากช่องว่างของวิธีการในการเรียนรู้เชิงลึก
(ภาพ: Thinkhubstudio/iStock/playback)
รูปแบบข้อมูลมีลักษณะเฉพาะที่แตกต่างกัน รูปภาพมีข้อมูลเชิงพื้นที่และมีข้อมูลซ้ำซ้อนในพิกเซลที่บีบอัด เมฆแบบจุดนั้นอธิบายได้ยากเนื่องจากการกระจายที่กระจัดกระจายในพื้นที่ 3 มิติ
สเปกตรัมเสียงเป็นรูปแบบของข้อมูลที่ไม่คงที่และเปลี่ยนแปลงตามเวลา ในทางกลับกัน ข้อมูลวิดีโอประกอบด้วยชุดของเฟรมภาพ ซึ่งช่วยให้สามารถบันทึกข้อมูลเชิงพื้นที่และพลวัตเชิงเวลาได้
จนถึงขณะนี้ วิธีการจัดการกับรูปแบบต่างๆ เกี่ยวข้องกับการสร้างเครือข่ายแยกต่างหากสำหรับข้อมูลแต่ละประเภท ส่งผลให้มีงานมากมายในการปรับแต่งโมเดลทีละรายการอย่างละเอียด อย่างไรก็ตาม นักวิจัยชาวจีนได้เสนอวิธีใหม่ในการจัดการกับความซับซ้อนนี้
Meta-Transformer ประกอบด้วยองค์ประกอบหลัก 3 ส่วน ได้แก่ ผู้เชี่ยวชาญด้านการดัดแปลงสำหรับโทเค็นข้อมูล ก ตัวเข้ารหัสที่ใช้ร่วมกันแบบโมดาลิตี้เพื่อแยกการเป็นตัวแทนข้ามโมดัลลิตี้และหัวเฉพาะงานสำหรับงาน “ปลายน้ำ”.
เฟรมเวิร์กนี้อนุญาตให้สร้างลำดับโทเค็นที่ใช้ร่วมกันจากข้อมูลต่อเนื่องหลายรูปแบบและแยกการแทนโดยใช้ตัวเข้ารหัสที่มีพารามิเตอร์แช่แข็ง แนวทางที่ตรงไปตรงมาของ Meta-Transformer ฝึกฝนการแสดงกิริยาเฉพาะและทั่วไปอย่างมีประสิทธิภาพ
ผลลัพธ์ของการทดลอง Meta-Transformer นั้นน่าประทับใจ กรอบงานได้รับประสิทธิภาพที่ยอดเยี่ยมในชุดข้อมูลหลายชุดซึ่งครอบคลุม 12 รูปแบบที่แตกต่างกัน
วิธีการที่เป็นนวัตกรรมใหม่นี้ให้คำมั่นสัญญาถึงทิศทางใหม่ในการพัฒนากรอบการทำงานแบบไม่เชื่อเรื่องพระเจ้าสำหรับ โมดิลิตีซึ่งรวมข้อมูลทุกประเภทเป็นหนึ่งเดียวและปรับปรุงความสามารถอย่างมีนัยสำคัญ ความเข้าใจ หลายรูปแบบ.
ด้วย Meta-Transformer การค้นหาหลายรูปแบบกำลังจะก้าวไปข้างหน้า นำเสนอความก้าวหน้าที่สำคัญในด้านปัญญาประดิษฐ์และการเรียนรู้ของเครื่อง
ความสามารถในการประมวลผลรูปแบบข้อมูลที่หลากหลายด้วยเฟรมเวิร์กที่รวมเป็นหนึ่งเดียวแสดงถึงหลักชัยที่สำคัญในการเดินทางสู่ AI ที่ทรงพลังและมีประสิทธิภาพยิ่งขึ้น