商品

Marengo 2.6:あらゆるメディア間の検索に対応する、最先端のビデオ・ファウンデーション・モデル

エイデン・リー、ジェームズ・リー

Twelve Labsは、ビデオ、画像、オーディオにわたる「any-to-any(任意のモダリティから任意のモダリティへの)」検索向けに構築されたマルチモーダル基盤モデルである「Marengo 2.6」をリリースします。これにより、単一の埋め込みモデルで、これら3つのモダリティすべてにおけるゼロショット検索の新たな最先端(SOTA)ベンチマークを確立します。

Twelve Labsは、ビデオ、画像、オーディオにわたる「any-to-any(任意のモダリティから任意のモダリティへの)」検索向けに構築されたマルチモーダル基盤モデルである「Marengo 2.6」をリリースします。これにより、単一の埋め込みモデルで、これら3つのモダリティすべてにおけるゼロショット検索の新たな最先端(SOTA)ベンチマークを確立します。

この記事の内容

No headings found on page

ニュースレターに登録する

ニュースレターに登録する

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

AIを活用してビデオを検索、分析、探索します。

2024/03/01

5分

記事へのリンクをコピー

1 - 要約弾丸ポイント

  • Marengo-2.6の紹介:テキストからビデオ、テキストから画像、テキストからオーディオ、オーディオからビデオ、画像からビデオなど、あらゆる検索タスク(Any-to-Any)を実行できる、新しい最先端(SOTA)のマルチモーダル基盤モデルです。このモデルは、ビデオ理解技術における大きな飛躍を意味し、さまざまなメディアタイプにわたって、より直感的で包括的な検索機能を可能にします。

  • 新しい最先端のパフォーマンス:Marengo-2.6は、単一の埋め込みモデルで、ゼロショットのテキストからビデオ、テキストから画像、テキストからオーディオの検索タスクにおいて新しいベンチマークを設定します。MSR-VTTデータセットではGoogleのVideoPrism-Gモデルを+10%、ActivityNetデータセットでは+3%上回っています。さらに、ゼロショットのテキストから画像への検索タスクにおいて最先端の画像基盤モデルを凌駕し、視覚的なコンテンツを理解して処理する能力を示しています。この結果は、当社のビデオファーストの研究姿勢の有効性を揺るぎないものにします。ビデオから学習するAIシステムは、複数のモダリティにわたって優れた知覚的推理能力を発揮することができます。

  • 拡張されたマルチモーダル機能:モデルの拡張された機能により、あらゆるメディアタイプ間を橋渡しする(クロスモダリティ)検索タスクが可能になり、幅広いアプリケーションに対応する汎用性の高いツールとなっています。これには、テキストからビデオ、テキストから画像、テキストからオーディオ、オーディオからビデオ、画像からビデオのタスクが含まれます。

  • 強化された時間的ローカライズ:より正確な時間的ローカライズを実現するために、Rerankerモデルを導入しています。この機能強化により、より高精度な検索結果が得られます。

2 - ビデオ基盤モデルの台頭

ビデオデータは、本質的に冗長で、高次元、かつ時間的に構造化されており、感覚データに酷似していますが、解析や解釈が困難です。従来のモデルでは、フレーム間の微妙な相互作用を捉えるのが難しく、ビデオに意味を与える豊かな文脈的手がかりを見落としがちでした。

効果的なビデオ理解に向けた道のりは、マルチモーダル埋め込みモデルの大幅な進歩をもたらしました。人間の知覚は本質的にマルチモーダルであるという理解が、複数のタイプのデータを処理および統合できるモデルの開発につながっています。

視覚、テキスト、聴覚の情報を統合することにより、マルチモーダル埋め込みモデルは世界をより強固に表現することを学習します。Marengo-2.6は当社の取り組みの集大成であり、ビデオ理解とAny-to-Any検索タスクにおいて比類のない機能を提供します。

3 - Marengo 2.6 モデル概要

3.1 - アーキテクチャ: Gated Modality Experts (ゲート付きモダリティ・エキスパート)

上の視覚的な図に示すように、Marengo-2.6のアーキテクチャは「Gated Modality Experts」の概念に基づいています。これにより、マルチモーダルな入力を専門のエンコーダーで処理した後に、それらを統合的なマルチモーダル表現に組み合わせることができます。

このアーキテクチャは、いくつかの重要なコンポーネントで構成されています。

  • Visual Expertは、ビデオ内の外観、動き、および時間的な変化を取得するために視覚情報を処理します。

  • Audio Expertは、ビデオに関連する言語的および非言語的な音声信号の両方を取得するために聴覚情報を処理します。

  • Gated Fusion Moduleは、ビデオに対する各エキスパートの貢献度を評価し、それらをAny-to-Any検索タスク用の統一されたマルチモーダル表現にマージします。

3.2 - トレーニングとデータ

Marengo-2.6のトレーニングは、包括的なマルチモーダルデータセットに対する対照学習を用いた自己教師あり学習に焦点を当てています。前回のブログで言及したように、モデルのトレーニングに有益なデータセットをキュレーションおよび拡張しました。それには以下が含まれます:

  • ビデオデータ:6,000万本のビデオ。視覚情報と聴覚情報の両方が抽出されています

  • 画像データ:5億枚の画像

  • オーディオデータ:50万個のサウンド。一般的な非言語的サウンドと音楽の両方が含まれます

この多様で大規模なデータセットにより、Marengo-2.6はさまざまなモダリティを深く理解し、幅広い検索タスクに対応できるようになりました。

4 - 評価と結果

4.1 - 定量的結果

Marengo-2.6モデルは、さまざまなモダリティの最先端の基盤モデルと比較して評価されています。定量的結果は、様々なテキストから任意のメディアへの検索タスクにおけるその優れたパフォーマンスを示しています。

このモデルは、すべてのテキストから任意のメディアへの検索データセットにおいて、これまでの最先端パフォーマンスの記録を塗り替え、既存のモデルを大幅に上回りました。一般的な埋め込みベースのタスク向けの、より広範なベンチマーク結果をまもなく公開する予定です。

ベースラインモデル

  1. Data Filtering Network-H/14-378 (Fang et al, Apple & ワシントン大学, 2023.09):このオープンソース画像基盤モデルは、CLIPトレーニング目標に基づいています。378x378の画像解像度の50億個の画像とテキストのペアでトレーニングされました。

  2. LanguageBind-H (Zhu et al, 北京大学, 2024.02):このオープンソースビデオ基盤モデルは、音声情報と視覚情報の両方を処理し、報道によると1,000万個のビデオとテキストのペア (VIDAL-10mデータセット) でトレーニングされました。

  3. VideoPrism-G (Zhao et al, Google, 2024.02):このビデオ基盤モデルは視覚情報を処理し、報道によると6億1,800万個のビデオとテキストのペアでトレーニングされました。

  4. (商業用) Google Gemini(GenAI) Multimodal Embedding API

ゼロショット動画検索 (ZS-T2V):

Marengo-2.6は、MSR-VTTおよびActivityNetデータセットで新たな最先端(SOTA)をマークし、従来の最良モデルと比較して、MSR-VTTで平均+4%、ActivityNetで+2.9%の想起率(Recall)向上を達成しました。(平均想起率は、Recall@1とRecall@5の平均として計算されます)

ゼロショット画像検索 (ZS-T2I):

また、MS-COCOおよびFlickr30kデータセットにおいて、新たな最先端のパフォーマンスを確立しました。注目すべきことに、大規模な画像データのコーパスのみでトレーニングされた従来の最先端画像基盤モデルをも凌駕しています。これは、Marengo-2.6が大規模なビデオコーパスを通じて空間的な視覚的手がかりを効果的に学習できることを示唆しています。(平均想起率は、Recall@1とRecall@5の平均として計算されます)

ゼロショット音声検索 (ZS-T2A):

最後に、ビデオから聴覚的手がかりを学習することにより、ClothoおよびAudioCapsデータセットにおいて、新たな最先端のパフォーマンスを発揮します。ただし、ビジュアル検索のベンチマークと比較すると、絶対的なパフォーマンスは低くなります。この差は、将来のモデル反復における潜在的な改善領域を浮き彫りにしています。(平均想起率は、Recall@1とRecall@10の平均として計算されます)

これらの結果は、当社のモデルのアーキテクチャとトレーニングの有効性を検証するだけでなく、マルチモーダルなデータ検索および理解の分野における進歩を加速させる可能性を強調しています。

4.2 - 定性的検索結果

テキストからビデオ (T2V)

クエリ: 背番号3のシアトル・シーホークスがサックを避け、エンドゾーンの背番号83デビッド・ムーアにパスを投げてタッチダウン。

上位3位の結果:



テキストから画像 (T2I)

クエリ: 花柄の傘を持ってヤクを撫でている子供。

上位3位の結果:

クエリ: 芝生の上で隣同士に立っている二頭のキリン。

上位3位の結果:



テキストからオーディオ (T2A)

クエリ: 激しく吹き荒れた後、風は最終的に収まる。

上位3位の結果:

James LeによるT2A1

James LeによるT2A2

James LeによるT2A3

クエリ: 子供たちのグループが一緒に遊んで歓声を上げている。

上位3位の結果:

James LeによるT2A4

James LeによるT2A5

James LeによるT2A6



オーディオからビデオ (A2V)

クエリ (地下鉄の音)

James LeによるA2V1

上位3位の結果 (音声は使用されません):

クエリ (羊の鳴き声)

James LeによるA2V5

上位3位の結果 (音声は使用されません):



画像からビデオ (I2V)

クエリ (画像):

上位3位の結果:

クエリ (画像):

上位3位の結果:

ビデオからビデオ (V2V)

クエリ:

上位3位の結果:

クエリ:

上位3位の結果:



おわりに

Twelve LabsはMarengo-2.6を発表できることを誇りに思います。当社のビデオ基盤モデルは、ビデオだけでなく画像やオーディオに対しても、マルチモーダル表現のタスクに向けた先駆的なアプローチを提供します。これは、ビデオをテキストと同じくらい扱いやすくするという当社のミッションを達成するための、有意義な第一歩です。

2024年3月の来週中には、当社の Playground および API 環境で Marengo-2.6 をお使いいただけるようになります。これにより、ユーザーはモデルを直接操作してその機能を体験し、その最先端のパフォーマンスを独自のアプリケーションやワークフローに統合する機会を得ることができます。

当社のチームは、モデルのパフォーマンスにおける継続的な改善と透明性の確保に取り組んでいます。そのために、Marengo-2.6を他の埋め込みタスクと比較する、より広範なベンチマークを間もなくリリースする予定です。これにより、モデルのパフォーマンスと同分野における位置付けのより包括的な視点を提供します。

私たちは、人類の向上のために技術的シンギュラリティを推進するというビジョンを持った、あらゆる分野から集まったフレンドリーで知的好奇心が旺盛、かつ情熱的なグループです。

詳細は近日中に公開予定です。

謝辞 - Twelve Labsチーム:

これは、モデルとデータ(「core」はコア貢献者を示します)、エンジニアリング、プロダクト、ビジネス開発など、複数の機能グループにわたる共同のチーム努力の成果です。(ファーストネームのアルファベット順表記)

モデル: Aiden Lee, Cooper Han, Flynn Jang, Jae Lee, Jay Yi, Jeff Kim (core), Jeremy Kim, Kyle Park, Lucas Lee, Mars Ha (core), Minjoon Seo, Ray Jung, William Go

データ: Daniel Kim (core), Jay Suh (core)

デプロイメント: Abraham Jo, Ed Park, Hassan Kianinejad, SJ Kim, Tony Moon, Wade Jeong

プロダクト: Andrei Popescu, Esther Kim, EK Yoon, Genie Heo, Henry Choi, Jenna Kang, Kevin Han, Noah Seo, Sunny Nguyen, Ryan Won, Yeonhoo Park

ビジネス&オペレーション: Anthony Giuliani, Dave Chung, Hans Yoon, James Le, Jenny Ahn, June Lee, Maninder Saini, Meredith Sanders, Soyoung Lee, Sue Kim, Travis Couture

参考資料:

  1. APIへのサインアップとプレイグランドのリンク(Marengo-2.6は3月の来週中にプレイグランドで利用可能になります)

  2. APIドキュメントへのリンク

  3. 仲間のユーザーや開発者とつながるための、Discordコミュニティへのリンク

このモデルを研究などで使用する場合は、以下のBibTeX引用を使用し、著者としてTwelve Labsを指定してください。



1 - 要約弾丸ポイント

  • Marengo-2.6の紹介:テキストからビデオ、テキストから画像、テキストからオーディオ、オーディオからビデオ、画像からビデオなど、あらゆる検索タスク(Any-to-Any)を実行できる、新しい最先端(SOTA)のマルチモーダル基盤モデルです。このモデルは、ビデオ理解技術における大きな飛躍を意味し、さまざまなメディアタイプにわたって、より直感的で包括的な検索機能を可能にします。

  • 新しい最先端のパフォーマンス:Marengo-2.6は、単一の埋め込みモデルで、ゼロショットのテキストからビデオ、テキストから画像、テキストからオーディオの検索タスクにおいて新しいベンチマークを設定します。MSR-VTTデータセットではGoogleのVideoPrism-Gモデルを+10%、ActivityNetデータセットでは+3%上回っています。さらに、ゼロショットのテキストから画像への検索タスクにおいて最先端の画像基盤モデルを凌駕し、視覚的なコンテンツを理解して処理する能力を示しています。この結果は、当社のビデオファーストの研究姿勢の有効性を揺るぎないものにします。ビデオから学習するAIシステムは、複数のモダリティにわたって優れた知覚的推理能力を発揮することができます。

  • 拡張されたマルチモーダル機能:モデルの拡張された機能により、あらゆるメディアタイプ間を橋渡しする(クロスモダリティ)検索タスクが可能になり、幅広いアプリケーションに対応する汎用性の高いツールとなっています。これには、テキストからビデオ、テキストから画像、テキストからオーディオ、オーディオからビデオ、画像からビデオのタスクが含まれます。

  • 強化された時間的ローカライズ:より正確な時間的ローカライズを実現するために、Rerankerモデルを導入しています。この機能強化により、より高精度な検索結果が得られます。

2 - ビデオ基盤モデルの台頭

ビデオデータは、本質的に冗長で、高次元、かつ時間的に構造化されており、感覚データに酷似していますが、解析や解釈が困難です。従来のモデルでは、フレーム間の微妙な相互作用を捉えるのが難しく、ビデオに意味を与える豊かな文脈的手がかりを見落としがちでした。

効果的なビデオ理解に向けた道のりは、マルチモーダル埋め込みモデルの大幅な進歩をもたらしました。人間の知覚は本質的にマルチモーダルであるという理解が、複数のタイプのデータを処理および統合できるモデルの開発につながっています。

視覚、テキスト、聴覚の情報を統合することにより、マルチモーダル埋め込みモデルは世界をより強固に表現することを学習します。Marengo-2.6は当社の取り組みの集大成であり、ビデオ理解とAny-to-Any検索タスクにおいて比類のない機能を提供します。

3 - Marengo 2.6 モデル概要

3.1 - アーキテクチャ: Gated Modality Experts (ゲート付きモダリティ・エキスパート)

上の視覚的な図に示すように、Marengo-2.6のアーキテクチャは「Gated Modality Experts」の概念に基づいています。これにより、マルチモーダルな入力を専門のエンコーダーで処理した後に、それらを統合的なマルチモーダル表現に組み合わせることができます。

このアーキテクチャは、いくつかの重要なコンポーネントで構成されています。

  • Visual Expertは、ビデオ内の外観、動き、および時間的な変化を取得するために視覚情報を処理します。

  • Audio Expertは、ビデオに関連する言語的および非言語的な音声信号の両方を取得するために聴覚情報を処理します。

  • Gated Fusion Moduleは、ビデオに対する各エキスパートの貢献度を評価し、それらをAny-to-Any検索タスク用の統一されたマルチモーダル表現にマージします。

3.2 - トレーニングとデータ

Marengo-2.6のトレーニングは、包括的なマルチモーダルデータセットに対する対照学習を用いた自己教師あり学習に焦点を当てています。前回のブログで言及したように、モデルのトレーニングに有益なデータセットをキュレーションおよび拡張しました。それには以下が含まれます:

  • ビデオデータ:6,000万本のビデオ。視覚情報と聴覚情報の両方が抽出されています

  • 画像データ:5億枚の画像

  • オーディオデータ:50万個のサウンド。一般的な非言語的サウンドと音楽の両方が含まれます

この多様で大規模なデータセットにより、Marengo-2.6はさまざまなモダリティを深く理解し、幅広い検索タスクに対応できるようになりました。

4 - 評価と結果

4.1 - 定量的結果

Marengo-2.6モデルは、さまざまなモダリティの最先端の基盤モデルと比較して評価されています。定量的結果は、様々なテキストから任意のメディアへの検索タスクにおけるその優れたパフォーマンスを示しています。

このモデルは、すべてのテキストから任意のメディアへの検索データセットにおいて、これまでの最先端パフォーマンスの記録を塗り替え、既存のモデルを大幅に上回りました。一般的な埋め込みベースのタスク向けの、より広範なベンチマーク結果をまもなく公開する予定です。

ベースラインモデル

  1. Data Filtering Network-H/14-378 (Fang et al, Apple & ワシントン大学, 2023.09):このオープンソース画像基盤モデルは、CLIPトレーニング目標に基づいています。378x378の画像解像度の50億個の画像とテキストのペアでトレーニングされました。

  2. LanguageBind-H (Zhu et al, 北京大学, 2024.02):このオープンソースビデオ基盤モデルは、音声情報と視覚情報の両方を処理し、報道によると1,000万個のビデオとテキストのペア (VIDAL-10mデータセット) でトレーニングされました。

  3. VideoPrism-G (Zhao et al, Google, 2024.02):このビデオ基盤モデルは視覚情報を処理し、報道によると6億1,800万個のビデオとテキストのペアでトレーニングされました。

  4. (商業用) Google Gemini(GenAI) Multimodal Embedding API

ゼロショット動画検索 (ZS-T2V):

Marengo-2.6は、MSR-VTTおよびActivityNetデータセットで新たな最先端(SOTA)をマークし、従来の最良モデルと比較して、MSR-VTTで平均+4%、ActivityNetで+2.9%の想起率(Recall)向上を達成しました。(平均想起率は、Recall@1とRecall@5の平均として計算されます)

ゼロショット画像検索 (ZS-T2I):

また、MS-COCOおよびFlickr30kデータセットにおいて、新たな最先端のパフォーマンスを確立しました。注目すべきことに、大規模な画像データのコーパスのみでトレーニングされた従来の最先端画像基盤モデルをも凌駕しています。これは、Marengo-2.6が大規模なビデオコーパスを通じて空間的な視覚的手がかりを効果的に学習できることを示唆しています。(平均想起率は、Recall@1とRecall@5の平均として計算されます)

ゼロショット音声検索 (ZS-T2A):

最後に、ビデオから聴覚的手がかりを学習することにより、ClothoおよびAudioCapsデータセットにおいて、新たな最先端のパフォーマンスを発揮します。ただし、ビジュアル検索のベンチマークと比較すると、絶対的なパフォーマンスは低くなります。この差は、将来のモデル反復における潜在的な改善領域を浮き彫りにしています。(平均想起率は、Recall@1とRecall@10の平均として計算されます)

これらの結果は、当社のモデルのアーキテクチャとトレーニングの有効性を検証するだけでなく、マルチモーダルなデータ検索および理解の分野における進歩を加速させる可能性を強調しています。

4.2 - 定性的検索結果

テキストからビデオ (T2V)

クエリ: 背番号3のシアトル・シーホークスがサックを避け、エンドゾーンの背番号83デビッド・ムーアにパスを投げてタッチダウン。

上位3位の結果:



テキストから画像 (T2I)

クエリ: 花柄の傘を持ってヤクを撫でている子供。

上位3位の結果:

クエリ: 芝生の上で隣同士に立っている二頭のキリン。

上位3位の結果:



テキストからオーディオ (T2A)

クエリ: 激しく吹き荒れた後、風は最終的に収まる。

上位3位の結果:

James LeによるT2A1

James LeによるT2A2

James LeによるT2A3

クエリ: 子供たちのグループが一緒に遊んで歓声を上げている。

上位3位の結果:

James LeによるT2A4

James LeによるT2A5

James LeによるT2A6



オーディオからビデオ (A2V)

クエリ (地下鉄の音)

James LeによるA2V1

上位3位の結果 (音声は使用されません):

クエリ (羊の鳴き声)

James LeによるA2V5

上位3位の結果 (音声は使用されません):



画像からビデオ (I2V)

クエリ (画像):

上位3位の結果:

クエリ (画像):

上位3位の結果:

ビデオからビデオ (V2V)

クエリ:

上位3位の結果:

クエリ:

上位3位の結果:



おわりに

Twelve LabsはMarengo-2.6を発表できることを誇りに思います。当社のビデオ基盤モデルは、ビデオだけでなく画像やオーディオに対しても、マルチモーダル表現のタスクに向けた先駆的なアプローチを提供します。これは、ビデオをテキストと同じくらい扱いやすくするという当社のミッションを達成するための、有意義な第一歩です。

2024年3月の来週中には、当社の Playground および API 環境で Marengo-2.6 をお使いいただけるようになります。これにより、ユーザーはモデルを直接操作してその機能を体験し、その最先端のパフォーマンスを独自のアプリケーションやワークフローに統合する機会を得ることができます。

当社のチームは、モデルのパフォーマンスにおける継続的な改善と透明性の確保に取り組んでいます。そのために、Marengo-2.6を他の埋め込みタスクと比較する、より広範なベンチマークを間もなくリリースする予定です。これにより、モデルのパフォーマンスと同分野における位置付けのより包括的な視点を提供します。

私たちは、人類の向上のために技術的シンギュラリティを推進するというビジョンを持った、あらゆる分野から集まったフレンドリーで知的好奇心が旺盛、かつ情熱的なグループです。

詳細は近日中に公開予定です。

謝辞 - Twelve Labsチーム:

これは、モデルとデータ(「core」はコア貢献者を示します)、エンジニアリング、プロダクト、ビジネス開発など、複数の機能グループにわたる共同のチーム努力の成果です。(ファーストネームのアルファベット順表記)

モデル: Aiden Lee, Cooper Han, Flynn Jang, Jae Lee, Jay Yi, Jeff Kim (core), Jeremy Kim, Kyle Park, Lucas Lee, Mars Ha (core), Minjoon Seo, Ray Jung, William Go

データ: Daniel Kim (core), Jay Suh (core)

デプロイメント: Abraham Jo, Ed Park, Hassan Kianinejad, SJ Kim, Tony Moon, Wade Jeong

プロダクト: Andrei Popescu, Esther Kim, EK Yoon, Genie Heo, Henry Choi, Jenna Kang, Kevin Han, Noah Seo, Sunny Nguyen, Ryan Won, Yeonhoo Park

ビジネス&オペレーション: Anthony Giuliani, Dave Chung, Hans Yoon, James Le, Jenny Ahn, June Lee, Maninder Saini, Meredith Sanders, Soyoung Lee, Sue Kim, Travis Couture

参考資料:

  1. APIへのサインアップとプレイグランドのリンク(Marengo-2.6は3月の来週中にプレイグランドで利用可能になります)

  2. APIドキュメントへのリンク

  3. 仲間のユーザーや開発者とつながるための、Discordコミュニティへのリンク

このモデルを研究などで使用する場合は、以下のBibTeX引用を使用し、著者としてTwelve Labsを指定してください。



1 - 要約弾丸ポイント

  • Marengo-2.6の紹介:テキストからビデオ、テキストから画像、テキストからオーディオ、オーディオからビデオ、画像からビデオなど、あらゆる検索タスク(Any-to-Any)を実行できる、新しい最先端(SOTA)のマルチモーダル基盤モデルです。このモデルは、ビデオ理解技術における大きな飛躍を意味し、さまざまなメディアタイプにわたって、より直感的で包括的な検索機能を可能にします。

  • 新しい最先端のパフォーマンス:Marengo-2.6は、単一の埋め込みモデルで、ゼロショットのテキストからビデオ、テキストから画像、テキストからオーディオの検索タスクにおいて新しいベンチマークを設定します。MSR-VTTデータセットではGoogleのVideoPrism-Gモデルを+10%、ActivityNetデータセットでは+3%上回っています。さらに、ゼロショットのテキストから画像への検索タスクにおいて最先端の画像基盤モデルを凌駕し、視覚的なコンテンツを理解して処理する能力を示しています。この結果は、当社のビデオファーストの研究姿勢の有効性を揺るぎないものにします。ビデオから学習するAIシステムは、複数のモダリティにわたって優れた知覚的推理能力を発揮することができます。

  • 拡張されたマルチモーダル機能:モデルの拡張された機能により、あらゆるメディアタイプ間を橋渡しする(クロスモダリティ)検索タスクが可能になり、幅広いアプリケーションに対応する汎用性の高いツールとなっています。これには、テキストからビデオ、テキストから画像、テキストからオーディオ、オーディオからビデオ、画像からビデオのタスクが含まれます。

  • 強化された時間的ローカライズ:より正確な時間的ローカライズを実現するために、Rerankerモデルを導入しています。この機能強化により、より高精度な検索結果が得られます。

2 - ビデオ基盤モデルの台頭

ビデオデータは、本質的に冗長で、高次元、かつ時間的に構造化されており、感覚データに酷似していますが、解析や解釈が困難です。従来のモデルでは、フレーム間の微妙な相互作用を捉えるのが難しく、ビデオに意味を与える豊かな文脈的手がかりを見落としがちでした。

効果的なビデオ理解に向けた道のりは、マルチモーダル埋め込みモデルの大幅な進歩をもたらしました。人間の知覚は本質的にマルチモーダルであるという理解が、複数のタイプのデータを処理および統合できるモデルの開発につながっています。

視覚、テキスト、聴覚の情報を統合することにより、マルチモーダル埋め込みモデルは世界をより強固に表現することを学習します。Marengo-2.6は当社の取り組みの集大成であり、ビデオ理解とAny-to-Any検索タスクにおいて比類のない機能を提供します。

3 - Marengo 2.6 モデル概要

3.1 - アーキテクチャ: Gated Modality Experts (ゲート付きモダリティ・エキスパート)

上の視覚的な図に示すように、Marengo-2.6のアーキテクチャは「Gated Modality Experts」の概念に基づいています。これにより、マルチモーダルな入力を専門のエンコーダーで処理した後に、それらを統合的なマルチモーダル表現に組み合わせることができます。

このアーキテクチャは、いくつかの重要なコンポーネントで構成されています。

  • Visual Expertは、ビデオ内の外観、動き、および時間的な変化を取得するために視覚情報を処理します。

  • Audio Expertは、ビデオに関連する言語的および非言語的な音声信号の両方を取得するために聴覚情報を処理します。

  • Gated Fusion Moduleは、ビデオに対する各エキスパートの貢献度を評価し、それらをAny-to-Any検索タスク用の統一されたマルチモーダル表現にマージします。

3.2 - トレーニングとデータ

Marengo-2.6のトレーニングは、包括的なマルチモーダルデータセットに対する対照学習を用いた自己教師あり学習に焦点を当てています。前回のブログで言及したように、モデルのトレーニングに有益なデータセットをキュレーションおよび拡張しました。それには以下が含まれます:

  • ビデオデータ:6,000万本のビデオ。視覚情報と聴覚情報の両方が抽出されています

  • 画像データ:5億枚の画像

  • オーディオデータ:50万個のサウンド。一般的な非言語的サウンドと音楽の両方が含まれます

この多様で大規模なデータセットにより、Marengo-2.6はさまざまなモダリティを深く理解し、幅広い検索タスクに対応できるようになりました。

4 - 評価と結果

4.1 - 定量的結果

Marengo-2.6モデルは、さまざまなモダリティの最先端の基盤モデルと比較して評価されています。定量的結果は、様々なテキストから任意のメディアへの検索タスクにおけるその優れたパフォーマンスを示しています。

このモデルは、すべてのテキストから任意のメディアへの検索データセットにおいて、これまでの最先端パフォーマンスの記録を塗り替え、既存のモデルを大幅に上回りました。一般的な埋め込みベースのタスク向けの、より広範なベンチマーク結果をまもなく公開する予定です。

ベースラインモデル

  1. Data Filtering Network-H/14-378 (Fang et al, Apple & ワシントン大学, 2023.09):このオープンソース画像基盤モデルは、CLIPトレーニング目標に基づいています。378x378の画像解像度の50億個の画像とテキストのペアでトレーニングされました。

  2. LanguageBind-H (Zhu et al, 北京大学, 2024.02):このオープンソースビデオ基盤モデルは、音声情報と視覚情報の両方を処理し、報道によると1,000万個のビデオとテキストのペア (VIDAL-10mデータセット) でトレーニングされました。

  3. VideoPrism-G (Zhao et al, Google, 2024.02):このビデオ基盤モデルは視覚情報を処理し、報道によると6億1,800万個のビデオとテキストのペアでトレーニングされました。

  4. (商業用) Google Gemini(GenAI) Multimodal Embedding API

ゼロショット動画検索 (ZS-T2V):

Marengo-2.6は、MSR-VTTおよびActivityNetデータセットで新たな最先端(SOTA)をマークし、従来の最良モデルと比較して、MSR-VTTで平均+4%、ActivityNetで+2.9%の想起率(Recall)向上を達成しました。(平均想起率は、Recall@1とRecall@5の平均として計算されます)

ゼロショット画像検索 (ZS-T2I):

また、MS-COCOおよびFlickr30kデータセットにおいて、新たな最先端のパフォーマンスを確立しました。注目すべきことに、大規模な画像データのコーパスのみでトレーニングされた従来の最先端画像基盤モデルをも凌駕しています。これは、Marengo-2.6が大規模なビデオコーパスを通じて空間的な視覚的手がかりを効果的に学習できることを示唆しています。(平均想起率は、Recall@1とRecall@5の平均として計算されます)

ゼロショット音声検索 (ZS-T2A):

最後に、ビデオから聴覚的手がかりを学習することにより、ClothoおよびAudioCapsデータセットにおいて、新たな最先端のパフォーマンスを発揮します。ただし、ビジュアル検索のベンチマークと比較すると、絶対的なパフォーマンスは低くなります。この差は、将来のモデル反復における潜在的な改善領域を浮き彫りにしています。(平均想起率は、Recall@1とRecall@10の平均として計算されます)

これらの結果は、当社のモデルのアーキテクチャとトレーニングの有効性を検証するだけでなく、マルチモーダルなデータ検索および理解の分野における進歩を加速させる可能性を強調しています。

4.2 - 定性的検索結果

テキストからビデオ (T2V)

クエリ: 背番号3のシアトル・シーホークスがサックを避け、エンドゾーンの背番号83デビッド・ムーアにパスを投げてタッチダウン。

上位3位の結果:



テキストから画像 (T2I)

クエリ: 花柄の傘を持ってヤクを撫でている子供。

上位3位の結果:

クエリ: 芝生の上で隣同士に立っている二頭のキリン。

上位3位の結果:



テキストからオーディオ (T2A)

クエリ: 激しく吹き荒れた後、風は最終的に収まる。

上位3位の結果:

James LeによるT2A1

James LeによるT2A2

James LeによるT2A3

クエリ: 子供たちのグループが一緒に遊んで歓声を上げている。

上位3位の結果:

James LeによるT2A4

James LeによるT2A5

James LeによるT2A6



オーディオからビデオ (A2V)

クエリ (地下鉄の音)

James LeによるA2V1

上位3位の結果 (音声は使用されません):

クエリ (羊の鳴き声)

James LeによるA2V5

上位3位の結果 (音声は使用されません):



画像からビデオ (I2V)

クエリ (画像):

上位3位の結果:

クエリ (画像):

上位3位の結果:

ビデオからビデオ (V2V)

クエリ:

上位3位の結果:

クエリ:

上位3位の結果:



おわりに

Twelve LabsはMarengo-2.6を発表できることを誇りに思います。当社のビデオ基盤モデルは、ビデオだけでなく画像やオーディオに対しても、マルチモーダル表現のタスクに向けた先駆的なアプローチを提供します。これは、ビデオをテキストと同じくらい扱いやすくするという当社のミッションを達成するための、有意義な第一歩です。

2024年3月の来週中には、当社の Playground および API 環境で Marengo-2.6 をお使いいただけるようになります。これにより、ユーザーはモデルを直接操作してその機能を体験し、その最先端のパフォーマンスを独自のアプリケーションやワークフローに統合する機会を得ることができます。

当社のチームは、モデルのパフォーマンスにおける継続的な改善と透明性の確保に取り組んでいます。そのために、Marengo-2.6を他の埋め込みタスクと比較する、より広範なベンチマークを間もなくリリースする予定です。これにより、モデルのパフォーマンスと同分野における位置付けのより包括的な視点を提供します。

私たちは、人類の向上のために技術的シンギュラリティを推進するというビジョンを持った、あらゆる分野から集まったフレンドリーで知的好奇心が旺盛、かつ情熱的なグループです。

詳細は近日中に公開予定です。

謝辞 - Twelve Labsチーム:

これは、モデルとデータ(「core」はコア貢献者を示します)、エンジニアリング、プロダクト、ビジネス開発など、複数の機能グループにわたる共同のチーム努力の成果です。(ファーストネームのアルファベット順表記)

モデル: Aiden Lee, Cooper Han, Flynn Jang, Jae Lee, Jay Yi, Jeff Kim (core), Jeremy Kim, Kyle Park, Lucas Lee, Mars Ha (core), Minjoon Seo, Ray Jung, William Go

データ: Daniel Kim (core), Jay Suh (core)

デプロイメント: Abraham Jo, Ed Park, Hassan Kianinejad, SJ Kim, Tony Moon, Wade Jeong

プロダクト: Andrei Popescu, Esther Kim, EK Yoon, Genie Heo, Henry Choi, Jenna Kang, Kevin Han, Noah Seo, Sunny Nguyen, Ryan Won, Yeonhoo Park

ビジネス&オペレーション: Anthony Giuliani, Dave Chung, Hans Yoon, James Le, Jenny Ahn, June Lee, Maninder Saini, Meredith Sanders, Soyoung Lee, Sue Kim, Travis Couture

参考資料:

  1. APIへのサインアップとプレイグランドのリンク(Marengo-2.6は3月の来週中にプレイグランドで利用可能になります)

  2. APIドキュメントへのリンク

  3. 仲間のユーザーや開発者とつながるための、Discordコミュニティへのリンク

このモデルを研究などで使用する場合は、以下のBibTeX引用を使用し、著者としてTwelve Labsを指定してください。