다중 모드 학습은 항상 인공 지능, 서로 다른 유형의 데이터에는 효율적인 처리를 위한 서로 다른 접근 방식이 필요하므로 일부는 기계 학습 아직 실현되려면 멀었습니다.
그러나 홍콩 중문 대학과 상하이 AI 연구소의 연구원들은 혁신적인 솔루션을 내놓았습니다. 동일한 세트를 사용하여 여러 데이터 형식을 처리할 수 있는 통합 AI 프레임워크인 "Meta-Transformer" 매개변수. 아래 내용을 숙지하세요!
더보기
AI 및 워크로드: 전문가를 위한 이점 또는 과제?
ChatGPT의 제작자는 만든 텍스트를 감지하는 도구를 종료합니다…
영형 인간의 뇌 이 새로운 접근 방식에 대한 영감입니다. 우리의 뇌는 시각, 청각 및 촉각 신호와 같은 여러 감각 입력의 정보를 동시에 처리하며 하나의 소스를 이해하면 다른 소스를 이해하는 데 도움이 됩니다.
그러나 AI 분야에서 이 기능을 복제하는 것은 딥 러닝의 양식 격차로 인해 어려운 일이었습니다.
(이미지: Thinkhubstudio/iStock/재생)
데이터 형식에는 고유한 특성이 있습니다. 이미지에는 공간 정보가 있으며 압축된 픽셀에 정보가 중복됩니다. 포인트 클라우드는 3D 공간에서 분포가 희박하기 때문에 설명하기 어렵습니다.
오디오 스펙트로그램은 고정되지 않고 시간에 따라 변하는 데이터 패턴입니다. 비디오 데이터는 일련의 이미지 프레임으로 구성되어 공간 정보와 시간 역학을 기록할 수 있습니다.
지금까지 다양한 양식을 처리하는 접근 방식에는 각 데이터 유형에 대해 별도의 네트워크를 만드는 것이 포함되어 모델을 개별적으로 미세 조정하는 데 많은 작업이 필요했습니다. 그러나 중국 연구자들은 이러한 복잡성을 다루는 새로운 방법을 제안했습니다.
Meta-Transformer는 데이터 토큰화를 위한 양식 전문가, 양식 및 작업에 대한 작업별 헤드에서 표현을 추출하기 위한 양식 공유 인코더 "하류".
이 프레임워크를 사용하면 멀티모달 데이터에서 공유 토큰 시퀀스를 생성하고 고정 매개변수가 있는 인코더를 사용하여 표현을 추출할 수 있습니다. Meta-Transformer의 간단한 접근 방식은 작업별 및 일반 양식 표현을 효율적으로 훈련합니다.
Meta-Transformer 실험의 결과는 인상적이었습니다. 이 프레임워크는 12개의 서로 다른 양식에 걸친 여러 데이터 세트에서 뛰어난 성능을 달성했습니다.
이 혁신적인 접근 방식은 불가지론적 프레임워크 개발의 새로운 방향을 약속합니다. 모든 유형의 데이터를 통합하고 이해 복합적.
Meta-Transformer를 사용하면 다중 모드 검색이 크게 발전하여 인공 지능 및 머신 러닝에 상당한 발전을 가져올 것입니다.
단일 통합 프레임워크로 여러 데이터 양식을 처리하는 기능은 보다 강력하고 효율적인 AI로의 여정에서 중요한 이정표를 나타냅니다.