プラットフォーム

価格

ソリューション

構築

資料

会社情報

Select Language

Playgroundへ移動

営業担当に相談する

商品

Marengo 2.7: 高度なビデオ理解を実現するパイオニア的マルチベクトル埋め込み

ジェフ・キム、マーズ・ハ、ジェームズ・レ

Twelve Labsは、マルチベクトル埋め込みアーキテクチャを採用したマルチモーダルビデオ埋め込みモデル「Marengo 2.7」をリリースします。これにより、前モデルと比較して15%以上の向上が実現し、ビジュアル、音声、モーション、OCR、ロゴ検索をカバーする60のベンチマークデータセットにおいて業界最高水準（SOTA）の結果を達成しています。

この記事の内容

No headings found on page

ニュースレターに登録する

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

AIを活用してビデオを検索、分析、探索します。

プレイグラウンドを試す

2024/12/04

18分

記事へのリンクをコピー

1 - はじめに

Twelve Labsは、前身であるMarengo 2.6と比較して15%以上の向上を達成した、新しい最新のマルチモーダル埋め込みモデル「Marengo 2.7」を発表できることを嬉しく思います。

‍

単一の単語埋め込みで文脈的な意味を効果的に捉えることができるテキストとは異なり、ビデオコンテンツは本質的に、より複雑で多面的です。ビデオクリップには、ビジュアル要素（オブジェクト、シーン、アクション）、時間的ダイナミクス（動き、遷移）、オーディオコンポーネント（音声、環境音、音楽）、そして多くの場合テキスト情報（オーバーレイ、字幕）が同時に含まれています。従来のシングルベクトルアプローチでは、重要な情報を失うことなく、これらすべての多様な側面を1つの表現に効果的に圧縮することに苦労していました。この複雑さにより、ビデオ理解に対するより洗練されたアプローチが必要となります。

この複雑さに対処するため、Marengo 2.7は独自のマルチベクトルアプローチを採用しています。すべてを単一のベクトルに圧縮する代わりに、ビデオのさまざまな側面に対して個別のベクトルを作成します。あるベクトルは視覚的な外見（例：「黒いシャツを着た男性」）を捉え、別のベクトルは動き（例：「手を振っている」）を追跡し、さらに別のベクトルは話された内容（例：「ビデオ基盤モデルは楽しい」）を記憶します。このアプローチにより、モデルは多くの異なるタイプの情報を含むビデオをよりよく理解できるようになり、ビジュアル、モーション、オーディオのすべての側面にわたって、より正確なビデオ分析が可能になります。

‍

60以上のマルチモーダル検索データセットで評価

ビデオ理解モデルの既存のベンチマークは、ビデオ内の主要なイベントを捉えた詳細なナラティブ形式の説明に依存していることがよくあります。しかし、このアプローチは、ユーザーが通常「赤い車を見つけて」や「お祝いのシーンを見せて」といった、より短く曖昧なクエリを投げるような、現実世界の使用パターンを反映していません。また、ユーザーは周辺の詳細、背景要素、またはほんの一瞬しか表示されない特定のオブジェクトを検索することも頻繁にあります。さらに、クエリは複数のモダリティ（視覚要素と音声の手がかり、またはテキストオーバーレイと特定のアクションなど）を組み合わせることがよくあります。このようなベンチマーク評価と実際のユースケースの間の乖離があるため、Marengo 2.7には、より包括的な評価アプローチが必要でした。

現実世界のユースケースを捉える上での既存ベンチマークの限界を理解した上で、私たちは60以上の多様なデータセットを網羅する広範な評価フレームワークを開発しました。このフレームワークは、以下の領域においてモデルの能力を厳格にテストします：

一般的なビジュアル理解
複雑なクエリの理解
小さなオブジェクトの検出
OCR解釈
ロゴ認識
オーディオ処理（会話および非会話）

‍

比類のないイメージ・ツー・ビジュアル検索機能を備えた最先端のパフォーマンス

Marengo 2.7は、すべての主要なベンチマークにおいて最先端のパフォーマンスを示しており、特にイメージ・ツー・ビジュアル検索機能において極めて顕著な成果を上げています。すべての指標において強力なパフォーマンスを示している一方で、画像オブジェクト検索と画像ロゴ検索におけるパフォーマンスは、この分野における大きな飛躍を象徴しています。

一般的なテキスト・ツー・ビジュアル検索: MSRVTTおよびCOCOデータセット全体で平均74.9%のパフォーマンスを達成し、外部の最先端（SOTA）モデルを4.6%上回りました。
モーション（テキスト）・ツー・ビジュアル検索: Something Something v2において平均78.1%の再現率を達成し、外部のSOTAモデルを30.0%上回りました。
OCR（テキスト）検索: TextCapsおよびBLIP3-OCRデータセット全体で平均77.0%のパフォーマンスを達成し、外部のSOTAモデルを13.4%上回りました。
小さなオブジェクト（テキスト）・ツー・ビジュアル検索: obj365-medium、bdd-medium、mapillary-mediumデータセット全体で平均52.7%のパフォーマンスを達成し、外部のSOTAモデルを10.1%上回りました。
一般的なイメージ・ツー・ビジュアル検索: obj365-easy、obj365-medium、LaSOTデータセット全体で平均90.6%という極めて優れたパフォーマンスを達成し、外部のSOTAモデルに対して著しい35.0%の向上を示しました。これは、私たちのこれまでで最大のパフォーマンスの飛躍です。
ロゴ（画像）・ツー・ビジュアル検索: OpenLogo、ads-logo、basketball-logoデータセット全体で平均56.0%という素晴らしいパフォーマンスを達成し、外部のSOTAモデルに対して19.2%の向上を遂げ、大幅な進歩を示しました。
一般的なテキスト・ツー・オーディオ検索: AudioCaps、Clotho、GTZANデータセット全体で平均57.7%のパフォーマンスを達成し、Marengo-2.6を7.7%上回りました。

‍

2 - Marengo 2.7の概要

Marengo 2.6の成功をベースに構築された最新のMarengo 2.7ビデオ基盤モデルは、マルチモーダルなビデオ理解における重要な進歩を表しています。また、より精密かつ包括的なビデオコンテンツ分析を可能にする、革新的なマルチベクトルアプローチを導入しています。

‍

2.1 - マルチベクトルアーキテクチャによる統一されたフレームワーク

その中核として、Marengo-2.7は、以下を理解することができる、単一の統合されたフレームワークを通じてビデオコンテンツを処理するTransformerベースのアーキテクチャを採用しています：

ビジュアル要素：きめ細かなオブジェクト検出、モーションのダイナミクス、時間的関係、および外観の特徴
オーディオ要素：ネイティブの音声理解、非言語的な音の認識、および音楽の解釈

Marengo-2.7の最大の特徴は、そのユニークなマルチベクトル表現です。すべての情報を単一の埋め込みに圧縮するMarengo-2.6とは異なり、Marengo-2.7は生の入力を複数の特殊なベクトルに分解します。それぞれのベクトルは、視覚的な外見やモーションのダイナミクスから、OCRテキストや音声パターンに至るまで、ビデオコンテンツの異なる側面を独立して捉えます。このきめ細かな表現により、よりニュアンスに富んだ正確なマルチモーダル検索機能が可能になります。このアプローチは、一般的なテキストベースの検索タスクにおいて卓越したパフォーマンスを維持しながら、小さなオブジェクトの検出において特に強みを発揮します。

‍

2.2 - トレーニングとデータ

Marengo 2.7のトレーニングは、包括的なマルチモーダルデータセット上での対照学習（contrastive loss）を用いた自己教師あり学習に焦点を当てています。私たちのビジネスおよび顧客のニーズに基づき、モデルのトレーニングに有益な、膨大で多様なデータセットを注意深くキュレートし、拡張しました。

さらに、独自の大型ビデオ・言語モデルであるPegasusを用いて再キャプション化を行うことで、トレーニングデータを強化しました。このプロセスにより、世界の知識や、複雑な動き、時空間的関係を捉えた高品質な説明が生成されました。これは、非常に堅牢なモデルをトレーニングする上で、テキストによる説明が極めて重要であるという洞察に基づいています（Fan et.al., LaCLIP, 2023.10 および Gu et. al., RWKV-CLIP, 2024.06）。

この包括的なトレーニングデータにより、Marengo 2.7は領域やモダリティを超えた堅牢な理解を蓄積することができます。豊富なビデオコンテンツを通じて、モデルは高度な時間的関係やクロスモーダルな相互作用を学習します。

‍

3 - 定量的評価

Marengo 2.7のパフォーマンスは、60以上のベンチマークデータセットにおいて、主要なマルチモーダル検索モデルや複数のドメインにわたる専門的なソリューションに対して広範に評価されています。私たちの評価フレームワークは、テキスト・ツー・ビジュアル、イメージ・ツー・ビジュアル、およびテキスト・ツー・オーディオの検索機能を網羅しており、モデルのマルチモーダルな理解を包括的に評価します。

‍

3.1 - ベースラインモデル

比較のために、以下の強力なベースラインモデルを選択しました：

Data Filtering Network-H/14-378 (Fang et al, Apple & ワシントン大学, 2023.09): このオープンソースの画像基盤モデルは、CLIPのトレーニング目的に基づいています。378x378の画像解像度で、50億の画像とテキストのペアでトレーニングされました。
InternVideo2-1B (Wang et al, OpenGVLab, 2024.08)：このオープンソースのビデオ基盤モデルは、対照学習のトレーニング目的でトレーニングされたビデオViTアーキテクチャに基づいています。1億本のビデオと3億枚の画像からなるデータセットでトレーニングされました。
（商用）Google Vertex Multimodal Embedding API (multimodalembedding@001, 2024.10): Google Cloudが提供するこの商用APIは、画像、ビデオ、テキストのマルチモーダル埋め込みを提供します。Googleのマルチモーダル理解における研究を活用し、大規模な独自のデータセットでトレーニングされています。
Marengo 2.6 (Twelve Labs, 2024.03): Marengo 2.6は、6,000万本のビデオ、5億枚の画像、50万個のオーディオから構成される、キュレートされた包括的なマルチモーダルデータセット上で対照学習を用いてトレーニングされた、独自のビデオ基盤モデルです。

‍

3.2 - 評価データセット

評価フレームワークには、多様なデータセットが利用されています：

‍

テキスト・ツー・ビジュアルデータセット

MSRVTT: ウェブドメインのテキスト・ツー・ビデオ評価用の1,000本のビデオ
COCO: テキスト・ツー・イメージ検索用の5,000枚の画像
Something-Something v2: モーション理解用の1,989本のビデオ
TextCaps: OCRに焦点を当てたテキスト・ツー・イメージ検索用の5,000枚の画像
BLIP3-OCR: テキスト・ツー・OCR検索をテストするための、マルチレベルOCRアノテーション付きの9,687枚の画像
カスタムの小さなオブジェクトデータセット: これらは、実際のユーザー行動をよりよく反映するために、画像内の小さなオブジェクト（カバー率1〜10%）を対象とした検索クエリを評価するために私たちが作成したカスタムデータセットです。これらには、Object365-medium（10,000枚の画像）、Mapillary-medium（278枚の画像）、およびBDD-medium（636枚の画像）が含まれます。

‍

テキスト・ツー・オーディオデータセット

AudioCaps および Clotho: テキスト・ツー・一般的なオーディオの評価。AudioCapsは957個のオーディオと4,785個のテキストクエリで構成され、Clothoは1,045個のオーディオと5,225個のテキストクエリで構成されています。
GTZAN: 10個のテンプレートクエリを用いたジャンル分類。

‍

イメージ・ツー・ビジュアルデータセット

Object365: バウンディングボックスのアノテーションに基づいて、オブジェクトを「obj365-easy」（画像カバー率 >10%）と「obj365-medium」（カバー率 1–10%）のセットに分割した画像検出データセット。オブジェクトボックスを切り取って、ソース画像をターゲットとする画像クエリを作成しました。
LaSOT: イメージ・ツー・ビデオ検索用に変換されたビデオ追跡データセット
OpenLogo: ロゴドメインにおけるオブジェクト検出データセット。289枚のロゴ画像をクエリ、2,039枚の画像をターゲットとして選択することにより、このデータセットをイメージ・ツー・イメージタスクに変換しました。
カスタムロゴデータセット: さまざまなドメインのビデオコンテンツにおいて特定のロゴを見つけるモデルの能力を評価するために、カスタムアノテーション付きの ads-logo（287本のビデオ、233個のロゴ）および basketball-logo（300本のビデオ、154個のロゴ）データセットを作成しました。

透明性と再現性を確保するため、私たちはビデオ検索用の包括的な評価フレームワークをオープンソース化します。現在の評価データセットは主に機械生成されたものであり、パフォーマンスの傾向を効果的に示していますが、一般公開する前にさらなる洗練と人間による検証が必要です。私たちは、これらがパブリックな研究利用に期待される高い基準を満たすよう、データセットの磨き上げに積極的に取り組んでいます。

‍

3.3 - テキスト・ツー・ビジュアル検索のパフォーマンス

‍

一般的なビジュアル検索

一般的なビジュアル検索において、Marengo 2.7は2つのベンチマークデータセットで平均74.9%の再現率を達成しました。これらの結果は、Marengo 2.6と比較して4.7%の向上、外部のSOTAモデルに対して4.6%のアドバンテージを示しています。

‍

モーション検索

モーション検索において、Marengo 2.7はSomething Something v2で平均78.1%の再現率を達成しました。これらの結果は、Marengo 2.6と比較して22.5%の向上、外部のSOTAモデルに対して30.0%のアドバンテージを示しています。

‍

OCR検索

OCR検索において、Marengo 2.7は2つのベンチマークデータセットで平均精度（mAP）77.0%を達成しました。これは、Marengo 2.6と比較して10.1%の向上、外部のSOTAモデルに対して13.4%のアドバンテージを示しています。

‍

小さなオブジェクトの検索

小さなオブジェクトの検索において、Marengo 2.7は3つのカスタムベンチマークデータセットで平均72.7%の再現率を達成しました。これらの結果は、Marengo 2.6と比較して10.14%の向上、外部のSOTAモデルに対して10.08%のアドバンテージを示しています。

‍

3.4 - イメージ・ツー・ビジュアル検索のパフォーマンス

‍

一般（小さなオブジェクト）検索

オブジェクト検索において、Marengo 2.7は3つのベンチマークデータセットで平均90.6%の再現率を達成しました。この結果は、Marengo 2.6（32.6%向上）と外部のSOTAモデル（35.0%向上）の双方に対する向上を示しています。

‍

ロゴ検索

ロゴ検索において、Marengo 2.7は3つのベンチマークデータセットで平均平均精度（mAP）56.0%を達成しました。これは、前身モデルと比較して31.8%の向上、外部のSOTAモデルに対して19.2%のアドバンテージを示しています。なお、言及されている上記のロゴ専門モデル（Logo Expert Model）はGoogle Cloud Vision API - Detect Logosを指します。

‍

3.5 - テキスト・ツー・オーディオ検索のパフォーマンス

‍

一般的なオーディオ検索

一般的なオーディオ検索において、Marengo 2.7は3つのベンチマークデータセットで平均57.7%の再現率を達成しました。これは、Marengo 2.6と比較して7.7%の向上を示しています。

‍

4 - 質的評価結果

異なる検索モダリティにわたるMarengo 2.7の機能を説明するために、実際のパフォーマンスを示すいくつかの代表的な例を紹介します。

テキスト・ツー・ビジュアル (Marengo 2.7)

このモデルは、2つの例を通じて複雑なイベントやシーンに対する洗練された理解を示しています：

複数のアクションを伴う詳細なスポートのプレイ

‍クエリ: 複数のニューイングランド・ペイトリオッツの選手がパントをプレッシャーをかけてブロックし、ボールがアウトオブバウンズに転がり、ターンオーバーオンダウンズになる。

上位3件の結果:

都市環境における連続的な視覚的要素

クエリ: 車がBEST BUY、Jeepディーラー、そしてTHE HOME DEPOTの前を通り過ぎている。

上位3件の結果:

イメージ・ツー・ビデオ (Marengo 2.7)

Marengo 2.7は低解像度の画像（64x64）での検索に対応しながら、ビデオフレームの背景にある小さなロゴやオブジェクトを見つけるなど、驚異的な結果を達成します。そのビジュアル検索機能を見てみましょう：

ロゴ検出

クエリ（画像）: 複雑な視野角でチェース銀行（Chase bank）のロゴを特定する

上位3件の結果:

オブジェクト検索

クエリ（画像）: 棚の上のクロロックス（Clorox）除菌ワイプを特定する

上位3件の結果:

テキスト・ツー・オーディオ (Marengo 2.7)

このモデルの音声理解は、以下を通じて紹介されます：

音声理解: 会話コンテンツの処理とマッチング

クエリ 1: “何が起きているか教えて”

上位3件の結果:

クエリ 2: “ゴルフカートに立っている間、それぞれのゴルフバッグが与えられたフィールドでどのように機能するか、よりよく理解してもらうための方法をいくつか考案しました。”

上位3件の結果:

クエリ 3: “自宅や職場でタブレットを使用しており、物理キーボードを使うのが好きな母のために、キーボードの購入を計画していました。”

上位3件の結果:

楽器認識: 特定の音楽的要素の特定 (”バイオリンの音”)

上位3件の結果:

これらの例は、異なるモダリティにわたって高い精度を維持しながら、多様なクエリタイプを処理するMarengo 2.7の能力を示しています。

5 - 限界と今後の課題

Marengo 2.7は複数のモダリティにわたって大幅な向上を示しているものの、包括的なビデオ理解を達成するにはいくつかの課題が残されています。

‍

複雑なシーンの理解

主要なアクションやオブジェクトの特定には優れていますが、ビデオ内で同時に発生する背景の微妙な活動や並行するイベントを見落とす可能性があります。

‍

視覚的な完全一致の課題

このモデルは、特にわずかに異なる文脈で複数回出現する可能性のあるオブジェクトや人物の特定のインスタンスを検索する際に、視覚的な完全一致を見つけることに苦労することがあります。

‍

クエリの解釈

Marengo 2.7はほとんどのクエリを効果的に処理しますが、以下のような場合に課題に直面することがあります：

複数の時間的関係を伴う細かく構成されたクエリ
単純なケースを超えた複雑な否定パターン
抽象的な推論や世界の知識を必要とするクエリ

‍

ロゴ検索、会話検索、OCR検索におけるパフォーマンス

さらに、Marengo 2.7は、特にロゴがフレームの1%未満しか占めていない場合や、難しい視野角に表示されている場合のテキスト・ツー・ロゴ検索シナリオにおいて限界を示しています。

会話やOCRの検索においては、強いアクセントのある話し言葉、重複する会話、珍しいフォントや向きのテキストに苦労することがあります。これらの課題は、特にライティング条件が悪い、または複雑な背景を持つ現実世界のシナリオで顕著になります。

これらの制限は、マルチモーダルなビデオ理解の能力を向上させ続ける中での、今後の研究開発の当然の課題です。現在進行中の取り組みは、クロスモーダルな理解や時間的推論における現在の強みを維持しながら、これらの課題に対処することに焦点を当てています。

‍

6 - 結論

Marengo 2.7は、マルチモーダルビデオ理解における大きな飛躍を意味し、映像、音声、テキストモダリティ全体で大きな向上を示しています。革新的なマルチベクトルアプローチと包括的な評価フレームワークを通じて、さまざまなユースケースにおいて高精度を維持しながら、複雑なビデオ理解タスクにおいて最先端のパフォーマンスを達成できることを実証しました。

この分野における透明性と再現性をサポートするため、包括的な評価フレームワークとともに、詳細なテクニカルレポートを公開する予定です。60以上のデータセットにわたるテストを含むこのフレームワークは、オープンソース化され定期的にメンテナンスされるため、研究者や実践者の方が私たちの結果を検証し、マルチモーダルなビデオ理解の進歩に貢献できるようになります。

‍

謝辞

これは、サイエンス、エンジニアリング、プロダクト、ビジネス開発、オペレーションを含む複数の機能横断グループによる共同チームの成果です。Twelve Labs Research Science部門のMarengoチームの共同執筆によるものです。

‍