プラットフォーム

価格

ソリューション

構築

資料

会社情報

Select Language

Playgroundへ移動

営業担当に相談する

商品

Marengo 3.0: ビデオ、音声、テキスト、画像、およびそれらの組み合わせのリアルワールドにおける埋め込みAIの定義

ダン・K、ジェフ・K、クリス・J、ジェレミー・K、クーパー・H、ロイス・H

Marengo 3.0 は、ベンチマークの最適化から実用レベルのビデオ理解への抜本的な転換を示しています。多言語コンテンツ、複合クエリ、1時間に及ぶ長時間ビデオ、スポーツなどの専門領域をネイティブにサポートしながら、一般的なベンチマークにおいても業界最高の水準を維持することで、現実世界の複雑さに適応してスケールする基盤モデルを構築しました。

企業への影響についての分かりやすい概要は、弊社のビジネスブログをご覧ください。

At TwelveLabs, we’re developing video-native AI systems that can solve problems with human-level reasoning. Helping machines learn about the world — and enabling humans to retrieve, capture, and tell their visual stories better.

2025年11月30日

12分

記事へのリンクをコピー

TwelveLabs Marengoチームより。私たちは、その複雑さのすべてにおいて世界を理解する基盤モデルの新たな基準、Marengo 3.0をご紹介できることを嬉しく思います。

Marengo 3.0は、Twelve LabsのEmbed APIおよびSearch APIを支える基盤モデルです。この投稿では、セマンティックなビデオ理解を可能にする埋め込み（Embedding）自体、つまりMarengo 3.0モデル自体に焦点を当てています。（当社のSearch APIには、高度な文字起こしやハイブリッドな語彙検索などの本番用コンポーネントが追加されており、MSRVTTやVATEXなどのベンチマークでさらに高い精度を実現しています）

Marengo 3.0は、単なる英語のベンチマークを超えて、実世界の運用の課題を解決します。これには、ネイティブなクロス言語検索を必要とする多言語ビデオアーカイブ、視覚要素とテキスト要素を組み合わせた複雑なクエリ、他のモデルでは処理できない1時間に及ぶコンテンツ、そして一般的なモデルでは対応できないスポーツのような特殊なドメインなどが含まれます。

Marengo 3.0は、512次元の埋め込みでこれらの機能を実現します。これはAmazon Nova (3072d)と比べて6倍、Google Vertex (1408d)と比べて3倍ストレージ効率に優れています。次元数を抑えることで、検索精度を損なうことなく、データベースコストを直接削減し、検索クエリを高速化し、同じインフラ費用でより大規模なビデオライブラリの構築を可能にします。

この投稿では、Marengo 3.0が、複合検索、多言語理解、オーディオインテリジェンス、スポーツ分析、OCR、および一般的なベンチマークにわたって、どのように最先端（SOTA）のパフォーマンスを達成し、スケール可能で本番環境品質のビデオ理解を確立しているかを示します。

概要

すべてのモデルプロバイダーが、優位性を主張するためにデータを厳選（チェリーピック）しています。しかし、プロダクション環境で本当に重要なのは次の点です。 競合他社が失敗したり、動作が著しく遅くなったりするなか、Marengo 3.0は比類のない低遅延で優れたパフォーマンスを提供します。 これは、研究者が議論するための単なる優れたベンチマークの話ではありません。プロダクション環境で機能するモデルと、機能しないモデルの実質的な違いなのです。

レイテンシ：競合他社が挫折するポイント

Marengo 3.0は、企業規模での導入を実用的なものにする速度でビデオを処理します。以下のチャートは、ビデオの長さに対する遅延と統合パフォーマンスの関係を示しています。

MSRVTT、MSVD、Vatex、YooCook2、SomethingSomething-v2、Kinetics-700、DiDemo、Visual7W-Pointing、QVHighlight、PasskeyRetrieval、HagridRetrieval、WikipediaRetrieval、Urban1K、Dense-WebVid-CoVR、tl-abps-basketball、tl-sports-general、tl-american-football、tl-baseball、tl-basketball、tl-ice-hockey、tl-soccer、TextCaps、Object365-medium、Openlogo の平均値。

Marengo 3.0は、1秒あたりの正規化レイテンシが最も速い（動画1秒あたり0.05秒）状態を維持しながら、最高の総合パフォーマンス（73%）を達成しています。Google Vertexはレイテンシが高く（動画1秒あたり約0.5秒）、パフォーマンスも著しく低くなっています（52%）。Amazon Novaは動画1秒あたり1.5秒以上を要するため、Marengo 3.0よりも30倍遅く、かつ精度も劣ります。

短い動画（60秒以下）の場合、Marengo 3.0は約10秒でコンテンツを処理します。一方、Amazon Novaは約110秒を要し、これは11倍のレイテンシペナルティとなります。1時間の動画の場合、Marengo 3.0は約310秒（5分強）でコンテンツを処理します。Amazon Novaは590秒（10分近く）を要し、これは1.9倍の速度低下となり、数千本の動画全体でその影響が累積します。

これらのレイテンシの差が、実用可能かどうかを決定します。例えば、1,000時間の動画ライブラリをMarengo 3.0とNovaで処理する場合、計算時間はそれぞれ86時間と164時間になり、これは市場投入までの時間とインフラストラクチャコストの両方に影響を与えます。

すべてのモダリティにおけるパフォーマンス

Marengo 3.0は低遅延に優れているだけでなく、ビデオ、オーディオ、画像、テキストの理解において業界をリードしています。

ビデオ検索において、上記の統合パフォーマンスは、MSRVTT、MSVD、VATEX、YooCook2、DiDemo、QVHighlight、Dense-WebVid-CoVR、tl-abps-basketball、tl-sports-general、tl-american-football、tl-baseball、tl-basketball、tl-ice-hockey、tl-soccerの14種類のベンチマークの平均値です。

Marengo 3.0は、一般的なビデオ検索、スポーツの理解、複合クエリにおいて70.2%を達成しました。これはMarengo 2.7を5.8パーセンテージポイント、Vertexを25ポイント、Novaを18.2ポイント上回る結果です。

オーディオ検索については、上記の複合パフォーマンスは、GTZAN、Clotho、Librispeechの3つのベンチマークにおける平均値です。

Marengo 3.0は73.2%でMarengo 2.7のオーディオ能力を維持している一方、Novaは36.7%と苦戦しており、Vertexはオーディオをまったく処理できません。

画像検索については、上記の総合パフォーマンスは5つのベンチマーク（Visual7W-Pointing、Urban1K、TextCaps、Object365-medium、OpenLogo）の平均値です。

92.2%というパフォーマンスは、OCR、オブジェクト認識、および空間推論タスクにおけるMarengo 3.0の視覚的精度を実証しており、Vertex（62.4%）およびNova（70.1%）を完全に凌駕しています。

テキスト検索において、上記の総合性能は5つのベンチマーク（SomethingSomethingv2-MC、Kinetics-700、PasskeyRetrieval、HagridRetrieval、WikipediaRetrieval）の平均値です。

88.3%という数値は、Marengo 3.0のテキストエンコーダーがテキスト特化型モデルに匹敵することを証明しており、Marengo 2.7の58%から30パーセンテージポイントの向上を示しています。

複合および長尺の検索: クエリ内でのモダリティの組み合わせ、および長時間コンテンツの処理
音声およびスポーツインテリジェンス: 時間的な推論が重要となる動的コンテンツの理解
多言語およびテキストの極め: 専門モデルに匹敵するネイティブな言語横断検索およびテキストのみの検索
高度な視覚認識: 大規模なOCR、オブジェクト認識、およびロゴ検出
一般的なベンチマークにおけるリーダーシップ: トレードオフのない最先端の成果

各セクションには、ベンチマーク結果、競合他社との比較、および検索品質を示すサンプルクエリが含まれています。これらの結果を総合すると、Marengo 3.0 は企業規模でパフォーマンスと効率性の両方を提供する唯一のプロダクション向け基盤モデルであることが実証されます。

この投稿で使用されている指標:

R@1,5,10 Avg: ランク1、5、10における再現率（Recall）の平均。正しい結果が上位1、5、または10件の結果に表示される頻度を測定します。
mAP: 平均適合率（Mean Average Precision）。すべての関連結果におけるランキング品質を測定します。
NDCG@K: 位置Kにおける正規化割引累積ゲイン（Normalized Discounted Cumulative Gain）。位置の重み付けスコアリングを用いてランキング品質を測定します。

1. 核心的な能力：複雑な検索とロングフォーム検索

Marengo 3.0は、人間の思考と同じように複雑でニュアンスに富んだクエリを処理できるように構築されています。Marengo 3.0は、ビジュアル要素とテキスト要素を組み合わせて、どちらか一方のモダリティ単独よりも正確に意図を表現する検索である「構成されたクエリ（composed queries）」を処理します。

複合検索（画像＋テキスト埋め込み）

Marengo 3.0は、画像とテキストの入力を単一のクエリ埋め込みに結合することで、構成的な検索（composed retrieval）をサポートしています。例えば、ユーザーは特定の選手の画像と "scored a jump shot"（ジャンプシュートを決めた）というテキストを送信することで、数時間もの試合映像から正確なアクションの瞬間を検索できます。この機能は、視覚的クエリとテキストクエリを別々に処理する競合他社の基盤モデルでは利用できません。

パフォーマンスの飛躍は顕著です。自社開発のアクションバウンドパーソン検索ベンチマーク（tl-abps-basketball）において、テキストのみのクエリでは34.4 mAPを達成します。これに画像を1枚追加することで、Marengo 3.0の構成的検索はパフォーマンスを38.5 mAPに向上させます。この優位性は、ビデオとテキストからビデオを検索する評価を行う Dense-Webvid-CoVR ベンチマークでさらに際立っており、Marengo 3.0はRecall @1、Recall @5、Recall @10の各指標の平均で 97.0 というスコアを達成しています。これは競合他社が試みることもできない結果です。

これらのベンチマークでは、特定の視覚的属性（どの選手か、どのような行動かなど）を区別する必要があるため、テキストのみのクエリでは対応が困難です。構成型検索（Composed Retrieval）は、この曖昧さを解消します。

tl-abps-basketballにおいて、Marengo 3.0の合成検索（38.5 mAP）は、自身のテキストのみのモード（34.4 mAP）を上回り、競合他社のテキストのみの結果（Marengo 2.7：15.1%、Vertex：20.0%、Nova：12.8%）を大幅に超えています。

モダリティの組み合わせにとどまらず、Marengo 3.0は長尺コンテンツや複雑で説明的なクエリの処理に優れており、これはAIエージェントのアプリケーションや詳細な動画検索に不可欠です。

以下のDense-WebVid-CoVRにおける結果の例に見られるように、合成検索を備えたMarengo 3.0（M30 CR）は、正しい動画をランク1に配置します。テキストのみのクエリ（M30、M27、Vertex、Nova）では、ターゲット動画のランクが下がるか、完全にそれを見落とし、テキストの説明は類似しているものの視覚的属性が異なる動画を検索してしまいます。

Dense-WebVid-CoVR (動画+テキスト)

構成された検索（Composed retrieval）により、長いクエリのシグナルが倍増

Marengo 3.0は、テキストと視覚的な意図を単一の埋め込みに融合させることで、基準モデル（ベースライン）がブレてしまうような状況でも、コヒーレントな草原のシーンを上位に表示させます。

クエリ

地面を覆っている落ち葉を取り除き、軽やかな微風にそよそよと揺れる、手入れのされていない青々と茂った長い芝生のエリアに差し替えてください。

クエリクリップ (30秒)

Composed R@10

97.0%

テキストのみ R@10

90.9% 対 78.3% (Vertex)

埋め込みサイズ

512d 対 Nova 3072d

マレンゴ 3.0 (構成済)

画像 + テキスト

1位のGT

トップ1

トップ2

トップ3

トップ4

トップ5

Marengo 3.0 (テキストのみ)

テキストから動画

ランク3のGT

トップ1

トップ2

トップ3

トップ4

トップ5

Google Vertex

ベースライン

GTトップ5圏外

トップ1

トップ2

トップ3

トップ4

トップ5

Amazon Nova

ベースライン

GTトップ5圏外

トップ1

トップ2

トップ3

トップ4

トップ5

ロングクエリ検索

Marengo 3.0は、「長時間コンテンツ」やAIエージェントアプリケーションでよく見られる長文の説明的なクエリを処理できるように設計されています。Urban1Kでは、Marengo 3.0とNovaの両方が優れている一方で、他のモデルはコンテキストの長さに苦戦しています。

u30e6u30fcu30b6u30fcu304cu6700u9069u5316u3055u308cu305fu30adu30fcu30efu30fcu30c9u30afu30a8u30eau3067u306fu306au304fu3001u8a73u7d30u306au81eau7136u8a00u8a9eu306bu3088u308bu8aacu660euff08u300c"Find the segment where the person in the red jacket walks past the yellow taxi near the intersection"u300du306au3069uff09u3092u63d0u4f9bu3059u308bu30d7u30edu30c0u30afu30b7u30e7u30f3u30b7u30b9u30c6u30e0u306bu304au3044u3066u3001u9577u6587u306eu691cu7d22uff08Long-form retrievaluff09u306fu975eu5e38u306bu91cdu8981u3067u3059u3002u30a8u30fcu30b8u30a7u30f3u30c8u7cfbu30b7u30b9u30c6u30e0u3082u540cu69d8u306bu3001u8907u96d1u306au30e6u30fcu30b6u30fcu306eu610fu56f3u3092u5206u89e3u3059u308bu969bu3001u5197u9577u3067u8907u6570u306eu5236u7d04u3092u542bu3080u30afu30a8u30eau3092u751fu6210u3057u307eu3059u3002

u4ee5u4e0bu306eUrban1ku306eu7d50u679cu4f8bu306bu3042u308bu3088u3046u306bu3001u8907u6570u306eu8996u899au7684u30c7u30a3u30c6u30fcu30ebuff08u8272u3001u4f4du7f6eu3001u80ccu666fu8981u7d20uff09u3092u542bu308060u301c80u8a9eu306eu30afu30a8u30eau3067u3042u308bu306bu3082u304bu304bu308fu3089u305au3001Marengo 3.0u306fu6b63u3057u3044u753bu50cfu3092u9806u4f4d1u3067u691cu7d22u3057u307eu3059u3002Marengo 2.7u306fu30bfu30fcu30b2u30c3u30c8u30922u301c3u4f4du306bu30e9u30f3u30afu30a4u30f3u3055u305bu308bu306eu306bu5bbeu3057u3001Vertexu306fu6b63u3057u3044u30deu30c3u30c1u3092u8868u793au3059u308bu306eu306bu30b5u30fcu30c1u7d50u679cu30925u4ef6u5fc5u8981u3068u3057u307eu3059u3002

Urban1K (テキストから画像)

上位ランクで解像された、長大で具体的な都市の景観

Marengo 3.0はグラウンドトゥルース（正解）のショットを順位1位に維持していますが、ベース

クエリ

2台のオートバイが通りを走っており、手前のライダーがもう一方を先導しています。先頭のライダーは、ピンクがかったスカーフと黒いジャケットを着用し、バイザーを下ろした白と黒のヘルメットをかぶっています。このライダーの後ろには、真っ赤なコートを着た子供が後ろ向きに座っています。両方のライダーのバイクには、後ろの荷物など様々な物品が積まれています。道路は数車線あって広く、右側には数台の車が駐車されています。通りの両側には木々が並び、背景には様々な店の看板が見えることから、都市部であることが伺えます。空は曇っています。

マレンゴ 3.0

1位のGT

トップ1

トップ2

トップ3

トップ4

トップ5

マレンゴ 2.7

GT 2位

トップ1

トップ2

トップ3

トップ4

トップ5

Google Vertex

ランク5のGT

トップ1

トップ2

トップ3

トップ4

トップ5

Amazon Nova

ランク4のGT

トップ1

トップ2

トップ3

トップ4

トップ5

2. ビジュアルを超えて：比類なきオーディオとスポーツ理解

ビデオの理解には、視覚的な分析だけでは不十分です。音声（会話、音楽、効果音）や素早い動き（スポーツ、アクションシーン）は、静止画像の理解を優先するモデルにとって大きな課題となります。Marengo 3.0のアーキテクチャは、これらのモダリティを共同で処理するため、時間的なダイナミクスが支配的な場面でも正確な検索を可能にします。

オーディオ（音声および非音声）

ほとんどのマルチモーダルモデルはオーディオを後回しにしていますが、Marengo 3.0はそれを第一級市民として扱っています。

音声からテキストへの検索ベンチマークである Librispeech において、Marengo 3.0 は 99.7% の精度（R@1,5,10 平均）を達成し、Marengo 2.7 の 100% に匹敵するとともに、Amazon Nova（10% 未満）を大幅に上回っています。Google Vertex は音声検索をサポートしていません。10% 未満のパフォーマンスは、モデルが音声コンテンツを高い信頼性で識別できないことを示しており、機能的にその能力を欠いていることを意味します。

このオーディオ機能は、音声以外の音にも拡張されます。GTZAN（音楽ジャンル認識、mAP）および Clotho（オーディオキャプション、R@1,5,10 平均）において、Marengo 3.0はそれぞれ75.5%と44.2%を達成しました。これはMarengo 2.7（71.9%、41.4%）からの向上であり、Nova（64.9%、29.5%）を大幅にリードしています。Vertexは、音声以外のオーディオタスクをサポートしていません。

以下のLibrispeechの結果では、Marengo 3.0と2.7はどちらもランク1で正しい音声セグメントを検出しており、強力なテキスト音声アライメントを示しています。一方、Amazon Novaはトップ5内にターゲットを見つけることができず、そのオーディオエンコーダーが音声コンテンツをテキストクエリに正確にマッピングできていないことを示しています。

他方で、Clothoのクエリは複雑な音響風景を理解することを要求します。Marengo 3.0は正しいオーディオクリップを1位にランク付けしているのに対し、Marengo 2.7は3位、Novaは4位となっています。これは、マルチソース音声環境を解析するMarengo 3.0の向上した能力を示しています。

Librispeech (音声 → テキスト)

音声再生は、正確な発言に忠実であり続けます

Marengo 3.0と2.7はグラウンドトゥルースを最初に表示しますが、Novaは音声を確実に取得できません。

クエリ

いたるところで罰の感覚を覚えるように、それは作られている

マレンゴ 3.0

1位のGT

0:00/1:34

トップ1

0:00/1:34

トップ2

0:00/1:34

トップ3

0:00/1:34

トップ4

0:00/1:34

トップ5

マレンゴ 2.7

1位のGT

0:00/1:34

トップ1

0:00/1:34

トップ2

0:00/1:34

トップ3

0:00/1:34

トップ4

0:00/1:34

トップ5

Amazon Nova

GTトップ5圏外

0:00/1:34

トップ1

0:00/1:34

トップ2

0:00/1:34

トップ3

0:00/1:34

トップ4

0:00/1:34

トップ5

Clotho (音声キャプション検索)

きめ細かな非音声オーディオグラウンディング

Marengo 3.0は正しいコイン落下シーケンスを1位にランク付けしますが、ベースラインは無関係な音へと流れてしまいます。

クエリ

ガラスの瓶に、何枚かの硬貨が1枚ずつ落とされている様子。

マレンゴ 3.0

1位のGT

0:00/1:34

トップ1

0:00/1:34

トップ2

0:00/1:34

トップ3

0:00/1:34

トップ4

0:00/1:34

トップ5

マレンゴ 2.7

ランク3のGT

0:00/1:34

トップ1

0:00/1:34

トップ2

0:00/1:34

トップ3

0:00/1:34

トップ4

0:00/1:34

トップ5

Amazon Nova

ランク4のGT

0:00/1:34

トップ1

0:00/1:34

トップ2

0:00/1:34

トップ3

0:00/1:34

トップ4

0:00/1:34

トップ5

スポーツ

スポーツの映像は、急速なカメラワーク、遮蔽、類似したアクション（例：異なる種類のパス）、そして専門用語など、映像モデルにとって極めて高い障壁が存在します。Marengo 3.0の時間的モデリングとエンティティ認識は、一般的なモデルが抽象的なラベルに逃げてしまう場面でも、アクションレベルでの理解を可能にします。

Marengo 3.0のパフォーマンスは、すべての競合他社に対して20〜50%の大差をつけて圧倒的なリードを示しており、その優れたモーションおよびコンテキストの理解力を浮き彫りにしています。このリードは一般的なものにとどまらず、特定のスポーツにおいて支配的です。サッカーのアクション認識に関する公開ベンチマークであるSoccerNet-Actionにおいて、Marengo 3.0は79.4 mAPを達成しているのに対し、Novaは23.0、Vertexは21.5です。この3.5倍のパフォーマンス上の優位性は、社内のベンチマークにも及んでいます。微細なアクション（ジャンプシュートとレイアップ、スティールとブロックなど）の区別が求められるtl-basketballでは、Marengo 3.0が57.5%（R@1,5,10 平均）を記録したのに対し、Novaは12.0%でした。これらの結果は、一般的なモデルでは捉えきれない、複雑で具体的なアクションに対する深い理解を示しています。

スポーツインテリジェンスは、自動ハイライト生成、コーチング分析のためのプレイバイプレイ検索、リーグのコンプライアンスのためのコンテンツモデレーションなど、制作アプリケーションを可能にします。これらのユースケースには、汎用的なマルチモーダルモデルでは提供できないアクションレベルの粒度が必要です。

以下の tl-sports-general におけるサンプル結果では、時系列的な順序付け（「最初に～が表示され、次に～が表示され、最後に～」）とエンティティの追跡（プレイヤー11）を必要とする複数節のクエリが使用されています。Marengo 3.0 は正しい動画を1位にランク付けしていますが、競合モデルは説明文全体を通してエンティティの一貫性を維持することに苦戦しています。

tl-sports-general (テキストからビデオ)

スポーツの検索：選手とアクションの整合性を維持

Marengo 3.0は5つのクリップすべてをトピックに沿った内容に保ちますが、他のシステムでは無関係なプレーが混ざることがあります。

クエリ

この動画はサッカーの試合の2つのハイライトを示しています。最初は赤いユニフォームの選手がドリブルでゴールに近づく様子が映り、次に背番号11の青い選手が一瞬ボールをキープし、ゴールの近くでドリブルする様子が映ります。最後に、動画は背番号11の選手のシーンのスローモーションの始まりへと切り替わります。

マレンゴ 3.0

1位のGT

トップ1

トップ2

トップ3

トップ4

トップ5

マレンゴ 2.7

ランク4のGT

トップ1

トップ2

トップ3

トップ4

トップ5

Google Vertex

ランク3のGT

トップ1

トップ2

トップ3

トップ4

トップ5

Amazon Nova

GT 2位

トップ1

トップ2

トップ3

トップ4

トップ5

3. 真に統合された空間：多言語と言語間（Text-to-Text）の熟達

「統合された埋め込みモデル」は、テキストや多言語の理解を単なる機能の一つとして扱うのではなく、それらに優れていなければなりません。

ネイティブ多言語検索

Marengo 3.0は、ネイティブな多言語理解を可能にし、複数の言語にわたるあらゆるモダリティ（ビデオ、オーディオ、テキスト、画像）の組み合わせにおいて、セマンティックな検索を実現します。一方、Marengo 2.7およびVertexは、英語のみを完全にサポートしています。

多言語のテキストから画像への検索を評価するCrossmodal 3600ベンチマークにおいて、Marengo 3.0は韓国語で最先端の結果（87.2% R@5）を達成し、Amazon Nova（85.5%）やJina Embeddings v4（82.2%）を上回りました。日本語においてMarengo 3.0は91.1%に達し、同クラス最高性能であるJina（91.2%）に匹敵すると同時に、Amazon Nova（90.1%）をリードしています。韓国語と日本語は多言語モデルにとって特有の課題を提示することを考えると、これらの結果は特に注目に値します。両言語とも非ラテン系文字システム（ハングル、および漢字、ひらがな、カタカナの混在）を使用し、英語とは大幅に異なる文法構造を持ち、英語からの転移学習が比較的容易なロマンス諸語からは言語学的に遠く離れています。評価されたすべての言語にわたり、Marengo 3.0は最大6倍優れたストレージ効率を提供しながら、極めて高い競争力を維持しています。

Crossmodal 3600 (韓国語、テキストから画像)

非ラテン文字における現地語での検索

Marengo 3.0では韓国語のグラウンドトゥルースが1位に維持されていますが、Novaでは2位にシフトしています。

クエリ

土の畑で燃えている乾燥した雑草の束

マレンゴ 3.0

1位のGT

トップ1

トップ2

トップ3

トップ4

トップ5

Amazon Nova

GT 2位

トップ1

トップ2

トップ3

トップ4

トップ5

テキスト翻訳

マルチモーダル空間内で訓練されたMarengo 3.0のテキストエンコーダーは、固有名詞の処理において卓越した能力を発揮します。従来のテキスト専用モデルとは異なり、Marengo 3.0はエンティティに関連するトークンにより多くの注意を割り当てます。これは、これらの重要用語を視覚および音声の埋め込み（エンベディング）に正確にマッピングする必要があるためです。このエンティティに焦点を当てた設計により、Marengo 3.0は、堅牢なエンティティ認識や検索を必要とするアプリケーションに特に適しています。

たとえば、PasskeyRetrievalは長コンテキストにおける固有表現抽出をテストします。モデルは、同様のノイズ（distractors）で満たされた非常に長いドキュメントの中に埋もれている、特定の情報（例：「Marlon Roblesのパスキーは何ですか？」）を特定しなければなりません。これには、長いコンテキストウィンドウ全体で、固有表現と値を正確にバインド（結び付け）することが求められます。Marengo 3.0はPasskeyにおいて94.4%（NDCG@1）を達成しており、これはGoogleのGemini Embedding（テキストのみ）の38.5%やAmazon Nova（マルチモーダル）の82.5%と比較して非常に優れた数値です。これは、固有表現の言及を視覚的および聴覚的なコンテキストに根付かせるマルチモーダルトレーニングが、テキストのみのアプローチよりも堅牢な固有表現表現を生み出すことを証明しています。

以下に示すように、PasskeyRetrievalのサンプルドキュメントには、さまざまな位置に複数の名前とパスキーのペアが埋め込まれた、500〜1000語のフィラーテキストが含まれています。モデルは、クエリされた名前に対応する正しいペアを特定する必要があります。

この強みは固有表現だけに留まりません。Wikipedia Multilingualベンチマークにおいて、Marengo 3.0は85.6%（NDCG@10）を達成し、Marengo 2.7の29.0%から大幅な向上を記録しました。これは、Marengo 2.7のテキストエンコーダーが英語中心であったのに対し、Marengo 3.0ではネイティブな多言語トレーニングへとアーキテクチャを移行したことを反映しています。Hagrid（英語のみのドキュメント検索）では、Marengo 3.0は98.7%を記録し、Gemini（99.3%）やJina v4（98.8%）といったテキストのみの最先端（SOTA）モデルと同等の競争力を示しています。これは、軽量で統合されたマルチモーダルモデルにとって驚くべき成果です。

パスキーの取得 (テキストからテキスト)

マルチモーダル空間におけるエンティティ指向のテキスト検索

Marengo 3.0はランク1で正しいエンティティバインディングを維持していますが、他のモデルは失敗しています。

クエリ

Marlon Robles のパスキーは何ですか？

マレンゴ 3.0

1位のGT

トップ1

芝生は緑です。空は青いです。太陽は黄色です。さあ、行きます。行って戻って、また戻る。芝生は緑です。空は青いです。太陽は黄色です。さあ、行きます。行って戻って、また戻る。芝生は緑です。空は青いです。太陽は黄色です。さあ、行きます。行って戻って、また戻る。芝生は緑です。空は青いです。太陽は黄色です。さあ、行きます。行って戻って、また戻る。芝生は緑です。空は青いです。太陽は黄色です。マーロン・ロブレスのパスキーは23284です。覚えておいてください。23284はマーロン・ロブレスのパスキーです。さあ、行きます。行って戻って、また戻る。芝生は緑です。空は青いです。太陽は黄色です。さあ、行きます。行って戻って、また戻る。芝生は緑です。空は青いです。太陽は黄色です。さあ、行きます。行って戻って、また戻る。芝生は緑です。空は青いです。太陽は黄色です。さあ、行きます。行って戻って、また戻る。芝生は緑です。空は青いです。太陽は黄色です。

トップ2

芝生は緑。空は青。太陽は黄色。さあ行こう。行って、そして戻ってくる。芝生は緑。空は青。太陽は黄色。さあ行こう。行って、そして戻ってくる。芝生は緑。空は青。太陽は黄色。さあ行こう。行って、そして戻ってくる。芝生は緑。空は青。太陽は黄色。さあ行こう。行って、そして戻ってくる。芝生は緑。空は青。太陽は黄色。マーロン・パラのパスキーは8181です。覚えておいてください。8181はマーロン・パラのパスキーです。さあ行こう。行って、そして戻ってくる。芝生は緑。空は青。太陽は黄色。さあ行こう。行って、そして戻ってくる。芝生は緑。空は青。太陽は黄色。さあ行こう。行って、そして戻ってくる。芝生は緑。空は青。太陽は黄色。さあ行こう。行って、そして戻ってくる。芝生は緑。空は青。太陽は黄色。

トップ3

芝生は緑です。空は青いです。太陽は黄色です。さあ、行きましょう。行って戻って、また戻る。芝生は緑です。空は青いです。太陽は黄色です。さあ、行きましょう。行って戻って、また戻る。芝生は緑です。空は青いです。太陽は黄色です。さあ、行きましょう。行って戻って、また戻る。芝生は緑です。空は青いです。太陽は黄色です。さあ、行きましょう。行って戻って、また戻る。芝生は緑です。空は青いです。太陽は黄色です。ドミニク・チャンドラーのパスキーは13032です。覚えておいてください。13032はドミニク・チャンドラーのパスキーです。さあ、行きましょう。行って戻って、また戻る。芝生は緑です。空は青いです。太陽は黄色です。さあ、行きましょう。行って戻って、また戻る。芝生は緑です。空は青いです。太陽は黄色です。さあ、行きましょう。行って戻って、また戻る。芝生は緑です。空は青いです。太陽は黄色です。さあ、行きましょう。行って戻って、また戻る。芝生は緑です。空は青いです。太陽は黄色です。

トップ4

芝生は青く、空は青い。太陽は黄色い。さあ、行きましょう。行って戻って、また戻る。芝生は青く、空は青い。太陽は黄色い。さあ、行きましょう。行って戻って、また戻る。芝生は青く、空は青い。太陽は黄色い。さあ、行きましょう。行って戻って、また戻る。芝生は青く、空は青い。太陽は黄色い。さあ、行きましょう。行って戻って、また戻る。芝生は青く、空は青い。太陽は黄色い。ブランドン・レヴィのパスキーは10709です。覚えておいてください。10709はブランドン・レヴィのパスキーです。さあ、行きましょう。行って戻って、また戻る。芝生は青く、空は青い。太陽は黄色い。さあ、行きましょう。行って戻って、また戻る。芝生は青く、空は青い。太陽は黄色い。さあ、行きましょう。行って戻って、また戻る。芝生は青く、空は青い。太陽は黄色い。さあ、行きましょう。行って戻って、また戻る。芝生は青く、空は青い。太陽は黄色い。

トップ5

芝生は緑。空は青。太陽は黄色。さあ、行きましょう。行って戻ってまた戻る。芝生は緑。空は青。太陽は黄色。さあ、行きましょう。行って戻ってまた戻る。芝生は緑。空は青。太陽は黄色。さあ、行きましょう。行って戻ってまた戻る。芝生は緑。空は青。太陽は黄色。さあ、行きましょう。行って戻ってまた戻る。芝生は緑。空は青。太陽は黄色。カーター・アーチャーのパスキーは17336です。覚えておいてください。17336はカーター・アーチャーのパスキーです。さあ、行きましょう。行って戻ってまた戻る。芝生は緑。空は青。太陽は黄色。さあ、行きましょう。行って戻ってまた戻る。芝生は緑。空は青。太陽は黄色。さあ、行きましょう。行って戻ってまた戻る。芝生は緑。空は青。太陽は黄色。さあ、行きましょう。行って戻ってまた戻る。芝生は緑。空は青。太陽は黄色。

マレンゴ 2.7

GTトップ5圏外

トップ1

トップ2

トップ3

トップ4

トップ5

芝生は緑。空は青。太陽は黄色。さあ、行こう。行って、また戻る。芝生は緑。空は青。太陽は黄色。さあ、行こう。行って、また戻る。芝生は緑。空は青。太陽は黄色。さあ、行こう。行って、また戻る。芝生は緑。空は青。太陽は黄色。さあ、行こう。行って、また戻る。芝生は緑。空は青。太陽は黄色。クーパー・マキャンのパスキーは6718です。覚えておいてください。6718はクーパー・マキャンのパスキーです。さあ、行こう。行って、また戻る。芝生は緑。空は青。太陽は黄色。さあ、行こう。行って、また戻る。芝生は緑。空は青。太陽は黄色。さあ、行こう。行って、また戻る。芝生は緑。空は青。太陽は黄色。さあ、行こう。行って、また戻る。芝生は緑。空は青。太陽は黄色。

Google Vertex

GTトップ5圏外

トップ1

トップ2

トップ3

トップ4

トップ5

Amazon Nova

GT 2位

トップ1

トップ2

トップ3

トップ4

トップ5

4. 高度な視覚認識：OCRとオブジェクト認識

Marengo 3.0の統合されたアーキテクチャは、画像内のテキスト（OCR）から特定のオブジェクトやロゴに至るまで、優れたきめ細やかな視覚的理解も実現します。

自然な状況におけるテキストをモデルが読み取り理解するOCRベースの画像検索を評価するTextCapsにおいて、Marengo 3.0は89.2%（R@1,5,10 Avg）を達成し、Amazon Nova（88.9%）、Google Vertex（84.0%）、そしてMarengo 2.7（82.8%）を上回るパフォーマンスを示しました。

Object365-medium（一般的な物体認識、画像間の類似検索）において、Marengo 3.0は99.1%（R@1,5,10 平均）を達成しました。これはMarengo 2.7の95.8%から向上しており、ほぼ完璧な精度に近づいています。

ロゴ認識ではさらに大きな向上が見られます。OpenLogo（画像間mAP）において、Marengo 3.0はMarengo 2.7の70.9%に対して79.2%を記録し、相対的に12%向上しました。これらの向上は、きめ細かな視覚カテゴリにおけるトレーニングの多様性の向上を反映しています。

以下のOpenLogoの例では、さまざまなコンテキスト（異なるサイズ、角度、背景）におけるロゴ認識をテストしています。「heineken logo」というクエリは、多様な設定にあるハイネケンのブランディングを検索するはずです。Marengo 3.0は5/5の正しい結果を達成していますが、競合製品は一部のインスタンスを見落としており、ロゴに特化した視覚メモリがより弱いことを示しています。

OpenLogo (テキストから画像)

野生のロゴグラウンディング

Marengo 3.0は、ハイネケンのマークを5つ正しく検出しています（評価基準には、誤検知の原因となる妨害要素が含まれています）。

クエリ

ハイネケンロゴ

マレンゴ 3.0

5問中5問正解

トップ1

トップ2

トップ3

トップ4

トップ5

マレンゴ 2.7

5問中4問正解

トップ1

トップ2

トップ3

トップ4

トップ5

Google Vertex

5問中4問正解

トップ1

トップ2

トップ3

トップ4

トップ5

Amazon Nova

5問中3問正解

トップ1

トップ2

トップ3

トップ4

トップ5

5. 「妥協なし」の証明：一般ベンチマークにおけるSOTA

特化は通常、一般的なパフォーマンスを低下させます。スポーツ、多言語コンテンツ、または複合検索に最適化されたモデルは、MSRVTTのような標準的な英語のベンチマークにおいて精度を犠牲にすることがよくあります。Marengo 3.0はこのパターンを打ち破ります。特化した機能を追加しながらも、確立されたベンチマークにおいて最先端（SOTA）の結果を維持し、多くの場合、それを向上させています。

Marengo 3.0は、Marengo 2.7がクラシックな学術ベンチマークですでに保持していたSOTAステータスを維持、またはそれを上回っており、私たちの「トレードオフなし」の設計を証明しています。

一般的なテキストからビデオへの検索

「妥協なし（no trade-off）」という主張は、単にパフォーマンスを維持することだけを意味しているのではありません。Marengo 3.0は、多くの場合においてパフォーマンスを向上させます。ゴールドスタンダードである MSRVTT ベンチマークにおいて、Marengo 3.0（72.5）は、Marengo 2.7（71.7）、Vertex（59.5）、および Nova（69.6）を上回っています。また、MSVD（78.2）および VATEX（86.4）においても、同様の最先端（SOTA）のパフォーマンスを示しています。

以下の VATEX クエリは、オーディオとビジュアルのアライメント、具体的には発話内容の理解（「ハグを求めている（asks it for hugs）」）をテストします。Marengo 3.0 は正しい動画を1位にランク付けており、一般的なベンチマークの向上によってオーディオ機能が損なわれていないことを示しています。

VATEX (ビデオキャプション検索)

VATEX：多言語キャプションのグラウンディング

Marengo 3.0はグランドトゥルース（GT）クリップを1位に保持、M27も一致、NovaはGTを2位に検出、Vertexはトップ5圏外。

クエリ

座っている女性の膝の上に赤ちゃんが座っており、女性が赤ちゃんにハグを求めています。

マレンゴ 3.0

1位のGT

トップ1

トップ2

トップ3

トップ4

トップ5

マレンゴ 2.7

1位のGT

トップ1

トップ2

トップ3

トップ4

トップ5

Google Vertex

GTトップ5圏外

トップ1

トップ2

トップ3

トップ4

トップ5

Amazon Nova

GT 2位

トップ1

トップ2

トップ3

トップ4

トップ5

一般ビデオ分類

動画分類ベンチマーク（動画を「ランニング」や「水泳」などの定義済みのカテゴリに分類する評価）では、リトリーバル（自然言語による特定のコンテンツの検索）とは異なる能力がテストされます。Marengoファミリーは、この領域においても他を凌駕しています。

まず、Marengoファミリーは、すべての分類ベンチマークで競合他社を上回るパフォーマンスを示しており、多くの場合で大差をつけています。

第二に、以前のより大規模な Marengo 2.7 (1024d) モデルと比較して、Marengo 3.0 は SomethingSomethingv2-MC (88.2 対 86.1) や UCF101 (93.3 対 86.7) などのベンチマークで新たなSOTAスコアを確立しています。これは、モデルの強力なコア能力を維持しつつ、現実世界のタスクに焦点をシフトさせるという当社の取り組みが成功したことを示しています。

6. 今後の道筋

Marengo 3.0は、2つのデプロイオプションを通じてご利用いただけるようになりました。AWS Bedrockは、AWSインフラストラクチャとのエンタープライズレベルでの統合を提供し（詳細はこちら）、TwelveLabs SaaS（Search APIおよびEmbed API）は、PythonおよびNode.jsのSDKを備えた開発者向けのAPIを提供します（詳細はこちら）。どちらのオプションも、実環境で実証された信頼性と強力な機能を同様に提供します。技術ブログに記載された結果を再現したい場合は、当社のSaaS APIをご利用いただく必要があります。

Marengo 3.0は、次世代の検索システムの基盤を確立します。以下をはじめとする、機能を拡張するための取り組みがすでに始まっています。

ハイブリッドセマンティック・レキシカル検索：正確なフレーズの一致が必要なクエリに対して、埋め込みベースのセマンティック検索と従来のキーワードマッチングを組み合わせます
拡張された複合検索（Composed Retrieval）：さらに高度なマルチモーダル推論を実現します
ドメイン適応の向上：メディア、セキュリティ、エンタープライズビデオ向けに最適化します

Marengo 3.0は、ベンチマークの最適化から実稼働レベルのビデオ理解への根本的な転換を意味します。多言語コンテンツ、複合クエリ、1時間に及ぶビデオ、そしてスポーツのような専門分野をネイティブにサポートしながら、一般的なベンチマークにおける先進的な地位を維持することで、現実世界の複雑さに対応できる基礎モデルを構築しました。