
マルチモーダル学習は常に課題であり、 人工知能データの種類が異なれば、効率的な処理には異なるアプローチが必要となるため、一部のユーザーは 機械学習 実現にはまだ程遠いです。
しかし、香港中文大学と上海 AI 研究所の研究者たちは、革新的なソリューションを考案しました。 同じセットを使用して複数のデータモダリティを処理できる統合 AI フレームワーク「Meta-Transformer」 パラメーター。 以下の詳細を理解してください!
続きを見る
AI とワークロード: 専門家にとっての利点か課題?
ChatGPT の作成者は、作成されたテキストを検出するツールを終了します…
○ 人間の脳 はこの新しいアプローチのインスピレーションです。 私たちの脳は、視覚、聴覚、触覚信号などの複数の感覚入力からの情報を同時に処理し、1 つの情報源を理解することは、別の情報源を理解するのに役立ちます。
ただし、ディープラーニングにおけるモダリティのギャップにより、この機能を AI の分野で再現することは困難でした。
(画像: Thinkhubstudio/iStock/再生)
データ モダリティには独特の特徴があります。 画像には空間情報があり、圧縮されたピクセルに情報の冗長性があります。 点群は 3D 空間にまばらに分布しているため、説明するのが困難です。
オーディオ スペクトログラムは、非定常で時間とともに変化するデータ パターンです。 ビデオ データは一連の画像フレームで構成されており、空間情報と時間的ダイナミクスを記録できます。
これまで、さまざまなモダリティに対処するアプローチでは、データ タイプごとに個別のネットワークを作成する必要があり、モデルを個別に微調整するのに多くの作業が必要でした。 しかし、中国の研究者たちは、この複雑さに対処する新しい方法を提案しました。
Meta-Transformer は、データ トークン化のモダリティ スペシャリスト、 モダリティ全体の表現とタスクのタスク固有のヘッドを抽出するためのモダリティ共有エンコーダー "下流"。
このフレームワークにより、マルチモーダル データから共有トークン シーケンスを作成し、凍結されたパラメーターを持つエンコーダーを使用して表現を抽出することができます。 Meta-Transformer の直接的なアプローチは、タスク固有のモダリティ表現と一般的なモダリティ表現を効率的にトレーニングします。
メタトランスフォーマーの実験結果は印象的でした。 このフレームワークは、12 の異なるモダリティにわたる複数のデータセットで優れたパフォーマンスを達成しました。
この革新的なアプローチは、非依存的なフレームワークの開発における新たな方向性を約束します。 モダリティ。あらゆる種類のデータを統合し、次の能力を大幅に向上させます。 理解 マルチモーダル.
Meta-Transformer により、マルチモーダル検索は大きな一歩を踏み出そうとしており、人工知能と機械学習に大きな進歩をもたらします。
単一の統合フレームワークで複数のデータ モダリティを処理できる機能は、より強力で効率的な AI への道のりにおける重要なマイルストーンとなります。