商品
公共部門におけるビデオとテキストの比較:MarengoおよびPegasusを用いた時空間推理のビデオネイティブな事例

マイク・マスカリ
汎用LLMは、フレームサンプリングによって時間的コンテキストが破壊され、言語的バイアスが視覚的証拠より優先されてしまうため、作戦ミッションの動画分析において失敗します。一方、Twelve LabsのMarengoおよびPegasusは、動画検索と推論を分離することでこの課題に対処し、国防総省(DoD)やインテリジェンス・コミュニティの業務向けに、時間軸が特定され検証可能なインテリジェンス製品を生成します。
汎用LLMは、フレームサンプリングによって時間的コンテキストが破壊され、言語的バイアスが視覚的証拠より優先されてしまうため、作戦ミッションの動画分析において失敗します。一方、Twelve LabsのMarengoおよびPegasusは、動画検索と推論を分離することでこの課題に対処し、国防総省(DoD)やインテリジェンス・コミュニティの業務向けに、時間軸が特定され検証可能なインテリジェンス製品を生成します。

この記事の内容
ニュースレターに登録する
ニュースレターに登録する
ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします
ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします
AIを活用してビデオを検索、分析、探索します。
2026/03/24
12分
記事へのリンクをコピー
ビデオはテキストではありません。タイムラインです。
国防総省(DoD)やインテリジェンス・コミュニティでお仕事をされている方なら、すでに不都合な真実をご存じのはずです。私たちは、人間が視聴できる量を超えるビデオを収集し続けています。
ISR(情報収集・警戒監視・偵察)プラットフォーム、広域センサー、固定カメラ、装着型カメラ、ドローンなど、あらゆるものがビデオストリームになりつつあります。そして難しいのは、映像を収集することではなく、生の動画像をタイムリーで信頼できるインテリジェンス製品に変換することです。
公表されている報告書では、これを軍事インテリジェンスにおける「情報の洪水」と表現しており、アナリストは現代の収集量の多さに圧倒されるリスクにさらされています。
そのため、各チームが「このビデオをそのままLLMに入力できないだろうか?」と問いかけるのは極めて自然なことです。
短いクリップであれば、まあまあの回答を得られることもあります。しかし、数時間に及ぶ映像や複数のフィード、「何が(前に/後に)起きたか?」、「誰が誰とインタラクションしたか?」、「何が変わったか?」といった実際のタイムラインに関する質問を含むミッションのワークロードでは、汎用のLLMは予測可能なパターンで失敗します。
その理由はシンプルです。テキストはトークンの配列です。ビデオは時空間信号です。

図1:ビデオは連続的な時間であり、LLMは離散的なトークンで動作します。ビデオを無理にトークン化すると、情報の損失が発生します。
ミッションビデオにおける隠れた要件:時間的推理(テンポラル・リーズニング)
「ビデオ理解」と聞くと、多くの人は「オブジェクト認識」を思い浮かべます。ミッション用ビデオの分析が失敗するのは、人や車両を検出できなかったからではありません。以下のような「時間軸に沿った推論」ができなかったからです。
最初に何が起き、次に何が起きたか?
観測された行動はエスカレートしたか?
因果関係の連鎖は何か?
これは普段通りの生活パターン(Pattern of life)か、それとも異常(アノマリー)か?
これらはタイムラインに関する質問です。モデルの内部表現によってビデオが数枚の静止スナップショットや、根拠の曖昧なキャプションへと崩れてしまっては、信頼できる回答を得ることはできません。
汎用LLMがビデオ分析に通用しない理由
ここで正確に理解しておくべき重要な点があります。汎用LLMが「ビデオが苦手」なのは、モデルが不調だからではなく、一般的にビデオをLLMに供給する方法において、ミッションに必要なまさにその情報が失われてしまうからです。
主な失敗パターンには以下の3つがあります。

図2:「汎用LLM + サンプリングされたフレーム」の構成がビデオ分析ミッションで失敗する理由。
1 - フレームサンプリングがタイムラインを破壊する
ビデオは情報が密集しています。標準的なストリームは、1秒あたり約30フレームをキャプチャします。しかし、すべてのフレームを処理するとコストがかかるため、多くの「Video-to-LLM」システムは、それらのフレームのごく一部(時には1秒あたり約1フレームという低頻度)しか渡しません。
学術論文「SlowFocus」は、この点を明確に指摘しています。計算リソースの制約下では、ビデオLLMは通常、オリジナルのビデオを疎にサンプリングし(例:「1秒に1フレームだけ残す」)、アダプターを介してフレームごとのトークンを圧縮する必要があります。その結果、フレームレベルの詳細さと、ビデオレベルの時間的カバレッジの間にトレードオフを強いることになります。
このトレードオフは、決して無視できるものではありません。ほとんどのフレームを破棄するということは、以下を捨てることを意味します。
遷移(何が変化したか)
細粒度の行動(単にそこに何がいたかではなく、誰が何をしたか)
因果関係のシグナル(イベント間の「なぜなら」)
同期(行動と同時に発生した音声)
ミッションのワークロードにおいて、これらこそがまさに重視すべきシグナルです。
2 - 言語のバイアスが証拠を圧倒する
LLMは流暢に話すように訓練されています。これは強みですが、一歩間違えれば弱点(負債)になります。
ビデオLLMのベンチマークに関するAppleの2025年ワークショップ論文は、「強い言語バイアス」を指摘しています。モデルはビデオをまったく見ていなくても、質問に正しく回答できてしまうのです。
ミッションの現場において、「もっともらしい」だけの回答は通用しません。世間一般で通常起こることではなく、この映像の中で実際に起こったことをモデルに指摘させる必要があります。これが、公共セクターにおいてリスクプロファイルが異なって感じられる理由でもあります。確信ありげな推測は、意図しない誤検出、イベントの検出見落とし、あるいは意思決定に連鎖的な悪影響を及ぼすナラティブの誤りにつながる可能性があります。
3 - フレーム順序のランダム化に対して不変(不感)なのは、モデルが時間的推論をしていない証拠
ここに、世に溢れる多くのベンチマークよりも重要な、シンプルなテストがあります。「フレームの順序をバラバラにシャッフルしても、モデルは同じように回答するか?」
前述のAppleの論文でも「シャッフル不変性(shuffling invariance)」が取り上げられており、いくつかのビデオLLMは、フレームが時間的にシャッフルされていても同様のパフォーマンスを維持することが示されています。システムが「正しい順序」と「シャッフルされた順序」の違いを認識できないのであれば、イベントの順序、エスカレーション、または因果関係について信頼できる推論を行うことはできません。これらはすべて、FMV(フルモーションビデオ)の活用や生活パターン(Pattern-of-life)分析の核となる要素です。
プロダクションにおける不一致:間違うコンテキスト、間違うメモリ、間違う推論
デモが良く見えても、汎用的な構成の大部分は、長尺のミッション規模のビデオを扱う際に、実運用の壁(production gravity)にぶつかります。
間違うコンテキスト: ビデオを単なるトークンとして扱うと、時空間の連続性が失われがちになります。
間違うメモリ: 「ビデオメモリ」はテキストのRAGと同じではありません。ミッションでは、時間軸と整合(時間同期)した証拠を伴う、膨大なアーカイブに対する検索が必要です。
間違う推論: テキスト優先の推論は、スコープを絞り、時間同期された証拠を提供しない限り、動きや進行を捉えることが困難です。
だからこそ、ミッションビデオシステムは、単に「プロンプトを工夫する」だけでは解決しません。推論システムが信頼できるコンテキストを設計・構築することによって解決するのです。
専用のビデオモデルが異なっている点
ミッション級のビデオシステムは、すべてを1つの巨大なプロンプトに無理やり詰め込もうとはしません。問題を次の2つの役割に分割します。
生のビデオを検索可能な時空間表現に変換する認識レイヤー。
選択された証拠を確証的で構造化された出力に変換する推論/レポートレイヤー。
この明確な分割は、Twelve Labsのモデルによく表れています。
Marengo:ビデオ、画像、テキスト、音声を共通の表現に統合し、「any-to-any(双方向)」の検索を実現します。これが「認識エンジン」です。
Pegasus:それらの表現を活用して、ビデオを正確なテキスト(レポート、チャプター、要約)に変換します。これが「推論・レポートエンジン」です。

図3:Marengo = ビデオのインデックス化 + 検索、Pegasus = 推論 + 出力。
1 - Marengo:ビデオ全体にわたる長期的な時空間メモリの構築
ミッションにおける要件は「このクリップの中身を理解する」ことではありません。「ビデオのコーパス全体に対して、信頼性を持って機能すること」です。だからこそ検索が重要になります。「コンテキスト・エンジニアリング」の観点では、検索こそがハルシネーションを極小化するための核心的なレバーです。より優れた選択 ➔ 勘に頼る推測の減少。
Marengoは、その検索基盤となるように設計されています。
ビデオ、画像、テキスト、音声を統合された表現に変換するマルチモーダルエンコーダーであり、クロスモーダルな検索を可能にします。
エンティティ検索、マルチメディア複合検索(画像 + テキスト)、および長尺ビデオ処理要件など、ミッションに関連するクエリパターンをサポートします。
運用の観点から言えば、これが「長期メモリ」レイヤーとなります。一度インデックスを作成すれば、生のビデオを汎用LLMに繰り返し通すことなく、時間枠を絞った適切なセグメントを検索することで、多くのミッションの疑問に迅速に回答できます。
2 - Pegasus:収集された証拠を、裏付けのあるインテリジェンス製品へと変換する
証拠となるクリップが揃ったら、今度はミッションにおける次の問いが生まれます。「システムは、アナリストが信頼し、レビューし、統合できる出力を生成できるか?」
Pegasusは、時間に紐づいた構造化出力(チャプター、要約、レポート、メタデータ)を生成し、マルチモーダルな証拠に裏付けられた説明を返す、Video-to-Text(ビデオからテキストへの変換)コンポーネントです。これにより、証拠クリップから標準化されたフィールド(開始、終了、ラベル、証拠、信頼度)を取得し、下流のツールに適したエクスポートをサポートできます。
ミッションのワークロードにおいて、タイムコード(時間情報)のない回答は、回答とは呼べません。これが、単に「出力フォーマット」の議論が見た目のディテールに留まらない理由です。モデルが実際のPED(処理、活用、伝達)ワークフローに組み込めるか否かを決定づけます。
この要件は監査可能性(調査可能性)に直結します。公共セクターにおける多くの一般的なパターン(調査、事案の再構成、インテリジェンス報告、コンプライアンス)では、以下の要素が必要になります。
何が起きたか
映像のどこでそれが起きたか
なぜそれがフラグとして立てられた(検知された)のか
どのような証拠がそれを裏付けているか
これこそが、AIを中身の見えない不透明なナレーターではなく、アナリストの力を何倍にも高める「乗数(マルチプライヤー)」にする方法です。
評価(検証)において発注者が要求すべきこと
実用的な公共セクターの観点において、専用のビデオモデルは以下のようなワークロードをサポートします。
複数フィードにわたる永続的な監視:人間の継続的な監視を必要とせず、関心のあるアクティビティをシステムが検出して表面化させます。
生活パターン(Pattern-of-life)分析:時間経過に沿って対象物を追跡し、異常を検出し、タイムラインを構築します。
事後検証(フォレンジック):アーカイブされたビデオを検索し、イベントの発生順序を再構成してタイムラインを確立します。
国防総省(DoD)やインテリジェンス・コミュニティ(IC)のミッションに向けてビデオAIを選定する際は、単に「シーンを説明できるか」だけでなく、時間的推論(テンポラル・リーズニング)を明示的に検証する評価項目を要求してください。
全体のベンチマークスコアだけでなく、フレームをシャッフルした際の不変性や、長尺映像処理におけるパフォーマンスを検証してください。
代表的なコンテンツ(長時間のFMV、劣化した画質、マルチセンサーフィード)で検証し、タイムラインにアンカー(紐づけ)された出力要件を指定してください。
以下の「運用上の制約」リストを遵守してください:長尺処理、シーン遷移をまたぐオブジェクト追跡、時間的クエリ、リアルタイムに近い実行速度(低遅延要件)、エッジ環境へのデプロイにおける制約、および相互運用性の規格。
結論
汎用LLMは、私たちのテキストとの関わり方を大きく変えつつあります。しかし、ミッションビデオはテキストではありません。
ビデオはタイムラインであり、最も価値の高いミッションの問いは、時間的推論(イベントの順序、因果関係、進行、そして長期的な依存関係)に依存しています。
ミッションにおいて証拠、タイムコード、そして監査可能性が必要とされるとき、最初からビデオ専用に設計されたモデルとインフラストラクチャを導入する必要があります。時空間のコンテキストを維持する検索基盤と、そのタイムラインに沿った確証が出力を生成する推論レイヤーです。
だからこそ、選択すべきなのは「AIを導入するか、しないか」ではありません。「時間を本当に理解するビデオAI」を選ぶのか、それとも単にフレームを処理するだけのシステムを選ぶのか、ということです。
ビデオはテキストではありません。タイムラインです。
国防総省(DoD)やインテリジェンス・コミュニティでお仕事をされている方なら、すでに不都合な真実をご存じのはずです。私たちは、人間が視聴できる量を超えるビデオを収集し続けています。
ISR(情報収集・警戒監視・偵察)プラットフォーム、広域センサー、固定カメラ、装着型カメラ、ドローンなど、あらゆるものがビデオストリームになりつつあります。そして難しいのは、映像を収集することではなく、生の動画像をタイムリーで信頼できるインテリジェンス製品に変換することです。
公表されている報告書では、これを軍事インテリジェンスにおける「情報の洪水」と表現しており、アナリストは現代の収集量の多さに圧倒されるリスクにさらされています。
そのため、各チームが「このビデオをそのままLLMに入力できないだろうか?」と問いかけるのは極めて自然なことです。
短いクリップであれば、まあまあの回答を得られることもあります。しかし、数時間に及ぶ映像や複数のフィード、「何が(前に/後に)起きたか?」、「誰が誰とインタラクションしたか?」、「何が変わったか?」といった実際のタイムラインに関する質問を含むミッションのワークロードでは、汎用のLLMは予測可能なパターンで失敗します。
その理由はシンプルです。テキストはトークンの配列です。ビデオは時空間信号です。

図1:ビデオは連続的な時間であり、LLMは離散的なトークンで動作します。ビデオを無理にトークン化すると、情報の損失が発生します。
ミッションビデオにおける隠れた要件:時間的推理(テンポラル・リーズニング)
「ビデオ理解」と聞くと、多くの人は「オブジェクト認識」を思い浮かべます。ミッション用ビデオの分析が失敗するのは、人や車両を検出できなかったからではありません。以下のような「時間軸に沿った推論」ができなかったからです。
最初に何が起き、次に何が起きたか?
観測された行動はエスカレートしたか?
因果関係の連鎖は何か?
これは普段通りの生活パターン(Pattern of life)か、それとも異常(アノマリー)か?
これらはタイムラインに関する質問です。モデルの内部表現によってビデオが数枚の静止スナップショットや、根拠の曖昧なキャプションへと崩れてしまっては、信頼できる回答を得ることはできません。
汎用LLMがビデオ分析に通用しない理由
ここで正確に理解しておくべき重要な点があります。汎用LLMが「ビデオが苦手」なのは、モデルが不調だからではなく、一般的にビデオをLLMに供給する方法において、ミッションに必要なまさにその情報が失われてしまうからです。
主な失敗パターンには以下の3つがあります。

図2:「汎用LLM + サンプリングされたフレーム」の構成がビデオ分析ミッションで失敗する理由。
1 - フレームサンプリングがタイムラインを破壊する
ビデオは情報が密集しています。標準的なストリームは、1秒あたり約30フレームをキャプチャします。しかし、すべてのフレームを処理するとコストがかかるため、多くの「Video-to-LLM」システムは、それらのフレームのごく一部(時には1秒あたり約1フレームという低頻度)しか渡しません。
学術論文「SlowFocus」は、この点を明確に指摘しています。計算リソースの制約下では、ビデオLLMは通常、オリジナルのビデオを疎にサンプリングし(例:「1秒に1フレームだけ残す」)、アダプターを介してフレームごとのトークンを圧縮する必要があります。その結果、フレームレベルの詳細さと、ビデオレベルの時間的カバレッジの間にトレードオフを強いることになります。
このトレードオフは、決して無視できるものではありません。ほとんどのフレームを破棄するということは、以下を捨てることを意味します。
遷移(何が変化したか)
細粒度の行動(単にそこに何がいたかではなく、誰が何をしたか)
因果関係のシグナル(イベント間の「なぜなら」)
同期(行動と同時に発生した音声)
ミッションのワークロードにおいて、これらこそがまさに重視すべきシグナルです。
2 - 言語のバイアスが証拠を圧倒する
LLMは流暢に話すように訓練されています。これは強みですが、一歩間違えれば弱点(負債)になります。
ビデオLLMのベンチマークに関するAppleの2025年ワークショップ論文は、「強い言語バイアス」を指摘しています。モデルはビデオをまったく見ていなくても、質問に正しく回答できてしまうのです。
ミッションの現場において、「もっともらしい」だけの回答は通用しません。世間一般で通常起こることではなく、この映像の中で実際に起こったことをモデルに指摘させる必要があります。これが、公共セクターにおいてリスクプロファイルが異なって感じられる理由でもあります。確信ありげな推測は、意図しない誤検出、イベントの検出見落とし、あるいは意思決定に連鎖的な悪影響を及ぼすナラティブの誤りにつながる可能性があります。
3 - フレーム順序のランダム化に対して不変(不感)なのは、モデルが時間的推論をしていない証拠
ここに、世に溢れる多くのベンチマークよりも重要な、シンプルなテストがあります。「フレームの順序をバラバラにシャッフルしても、モデルは同じように回答するか?」
前述のAppleの論文でも「シャッフル不変性(shuffling invariance)」が取り上げられており、いくつかのビデオLLMは、フレームが時間的にシャッフルされていても同様のパフォーマンスを維持することが示されています。システムが「正しい順序」と「シャッフルされた順序」の違いを認識できないのであれば、イベントの順序、エスカレーション、または因果関係について信頼できる推論を行うことはできません。これらはすべて、FMV(フルモーションビデオ)の活用や生活パターン(Pattern-of-life)分析の核となる要素です。
プロダクションにおける不一致:間違うコンテキスト、間違うメモリ、間違う推論
デモが良く見えても、汎用的な構成の大部分は、長尺のミッション規模のビデオを扱う際に、実運用の壁(production gravity)にぶつかります。
間違うコンテキスト: ビデオを単なるトークンとして扱うと、時空間の連続性が失われがちになります。
間違うメモリ: 「ビデオメモリ」はテキストのRAGと同じではありません。ミッションでは、時間軸と整合(時間同期)した証拠を伴う、膨大なアーカイブに対する検索が必要です。
間違う推論: テキスト優先の推論は、スコープを絞り、時間同期された証拠を提供しない限り、動きや進行を捉えることが困難です。
だからこそ、ミッションビデオシステムは、単に「プロンプトを工夫する」だけでは解決しません。推論システムが信頼できるコンテキストを設計・構築することによって解決するのです。
専用のビデオモデルが異なっている点
ミッション級のビデオシステムは、すべてを1つの巨大なプロンプトに無理やり詰め込もうとはしません。問題を次の2つの役割に分割します。
生のビデオを検索可能な時空間表現に変換する認識レイヤー。
選択された証拠を確証的で構造化された出力に変換する推論/レポートレイヤー。
この明確な分割は、Twelve Labsのモデルによく表れています。
Marengo:ビデオ、画像、テキスト、音声を共通の表現に統合し、「any-to-any(双方向)」の検索を実現します。これが「認識エンジン」です。
Pegasus:それらの表現を活用して、ビデオを正確なテキスト(レポート、チャプター、要約)に変換します。これが「推論・レポートエンジン」です。

図3:Marengo = ビデオのインデックス化 + 検索、Pegasus = 推論 + 出力。
1 - Marengo:ビデオ全体にわたる長期的な時空間メモリの構築
ミッションにおける要件は「このクリップの中身を理解する」ことではありません。「ビデオのコーパス全体に対して、信頼性を持って機能すること」です。だからこそ検索が重要になります。「コンテキスト・エンジニアリング」の観点では、検索こそがハルシネーションを極小化するための核心的なレバーです。より優れた選択 ➔ 勘に頼る推測の減少。
Marengoは、その検索基盤となるように設計されています。
ビデオ、画像、テキスト、音声を統合された表現に変換するマルチモーダルエンコーダーであり、クロスモーダルな検索を可能にします。
エンティティ検索、マルチメディア複合検索(画像 + テキスト)、および長尺ビデオ処理要件など、ミッションに関連するクエリパターンをサポートします。
運用の観点から言えば、これが「長期メモリ」レイヤーとなります。一度インデックスを作成すれば、生のビデオを汎用LLMに繰り返し通すことなく、時間枠を絞った適切なセグメントを検索することで、多くのミッションの疑問に迅速に回答できます。
2 - Pegasus:収集された証拠を、裏付けのあるインテリジェンス製品へと変換する
証拠となるクリップが揃ったら、今度はミッションにおける次の問いが生まれます。「システムは、アナリストが信頼し、レビューし、統合できる出力を生成できるか?」
Pegasusは、時間に紐づいた構造化出力(チャプター、要約、レポート、メタデータ)を生成し、マルチモーダルな証拠に裏付けられた説明を返す、Video-to-Text(ビデオからテキストへの変換)コンポーネントです。これにより、証拠クリップから標準化されたフィールド(開始、終了、ラベル、証拠、信頼度)を取得し、下流のツールに適したエクスポートをサポートできます。
ミッションのワークロードにおいて、タイムコード(時間情報)のない回答は、回答とは呼べません。これが、単に「出力フォーマット」の議論が見た目のディテールに留まらない理由です。モデルが実際のPED(処理、活用、伝達)ワークフローに組み込めるか否かを決定づけます。
この要件は監査可能性(調査可能性)に直結します。公共セクターにおける多くの一般的なパターン(調査、事案の再構成、インテリジェンス報告、コンプライアンス)では、以下の要素が必要になります。
何が起きたか
映像のどこでそれが起きたか
なぜそれがフラグとして立てられた(検知された)のか
どのような証拠がそれを裏付けているか
これこそが、AIを中身の見えない不透明なナレーターではなく、アナリストの力を何倍にも高める「乗数(マルチプライヤー)」にする方法です。
評価(検証)において発注者が要求すべきこと
実用的な公共セクターの観点において、専用のビデオモデルは以下のようなワークロードをサポートします。
複数フィードにわたる永続的な監視:人間の継続的な監視を必要とせず、関心のあるアクティビティをシステムが検出して表面化させます。
生活パターン(Pattern-of-life)分析:時間経過に沿って対象物を追跡し、異常を検出し、タイムラインを構築します。
事後検証(フォレンジック):アーカイブされたビデオを検索し、イベントの発生順序を再構成してタイムラインを確立します。
国防総省(DoD)やインテリジェンス・コミュニティ(IC)のミッションに向けてビデオAIを選定する際は、単に「シーンを説明できるか」だけでなく、時間的推論(テンポラル・リーズニング)を明示的に検証する評価項目を要求してください。
全体のベンチマークスコアだけでなく、フレームをシャッフルした際の不変性や、長尺映像処理におけるパフォーマンスを検証してください。
代表的なコンテンツ(長時間のFMV、劣化した画質、マルチセンサーフィード)で検証し、タイムラインにアンカー(紐づけ)された出力要件を指定してください。
以下の「運用上の制約」リストを遵守してください:長尺処理、シーン遷移をまたぐオブジェクト追跡、時間的クエリ、リアルタイムに近い実行速度(低遅延要件)、エッジ環境へのデプロイにおける制約、および相互運用性の規格。
結論
汎用LLMは、私たちのテキストとの関わり方を大きく変えつつあります。しかし、ミッションビデオはテキストではありません。
ビデオはタイムラインであり、最も価値の高いミッションの問いは、時間的推論(イベントの順序、因果関係、進行、そして長期的な依存関係)に依存しています。
ミッションにおいて証拠、タイムコード、そして監査可能性が必要とされるとき、最初からビデオ専用に設計されたモデルとインフラストラクチャを導入する必要があります。時空間のコンテキストを維持する検索基盤と、そのタイムラインに沿った確証が出力を生成する推論レイヤーです。
だからこそ、選択すべきなのは「AIを導入するか、しないか」ではありません。「時間を本当に理解するビデオAI」を選ぶのか、それとも単にフレームを処理するだけのシステムを選ぶのか、ということです。




