リサーチ
ビデオ理解のためのコンテキストエンジニアリング

ジェームズ・リー
コンテキストエンジニアリング(AIモデルにどのような情報をどのように構造化して入力するかを体系的に設計すること)は、信頼性の高いビデオ理解の鍵であり、Twelve Labsは4つの主要な柱を適用しています。それらは、ビデオコンテンツを構造化テキストや埋め込みに書き出すこと、セマンティック検索を通じて関連するコンテキストのみを選択すること、要約によって圧縮すること、そしてモデルの混乱を防ぐためにそれを分離することです。
コンテキストエンジニアリング(AIモデルにどのような情報をどのように構造化して入力するかを体系的に設計すること)は、信頼性の高いビデオ理解の鍵であり、Twelve Labsは4つの主要な柱を適用しています。それらは、ビデオコンテンツを構造化テキストや埋め込みに書き出すこと、セマンティック検索を通じて関連するコンテキストのみを選択すること、要約によって圧縮すること、そしてモデルの混乱を防ぐためにそれを分離することです。

この記事の内容
ニュースレターに登録する
ニュースレターに登録する
ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします
ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします
AIを活用してビデオを検索、分析、探索します。
2025/09/24
25分
記事へのリンクをコピー
TLDR: ビデオ理解アプリケーションを確実に機能させるための鍵は、モデルの大規模化だけでなく、コンテキストエンジニアリングです。
コンテキストの問題: LLMの失敗のほとんどは、モデルの性能が低いからではなく、不十分、古い、または不適切にフォーマットされたコンテキストに起因しています。
ビデオコンテキストエンジニアリングの4つの柱:
Write Context(コンテキストを書き出す): ビデオを設定ベースの説明的な、マシンが処理可能なテキスト、構造化データ、またはベクトル埋め込みに変換します。
Select Context(コンテキストを選択する): セマンティック検索やフィルタリングを通じて、特定のタスクに最も関連性の高いコンテキスト情報のみを選択します。
Compress Context(コンテキストを圧縮する): 重要な意味を損なうことなく、要約や抽象化によって情報を凝縮します。
Isolate Context(コンテキストを分離する): 異なる情報源の間でモデルが混乱するのを防ぐために、コンテキストを構造化し隔離します。
高度な戦略:
短期的な「作業」メモリと長期的な知識ベースを組み合わせたメモリ構造
必要な時、動的に追加のコンテキストをアクティブに探し出すツールによる「動的検索」
明確で曖昧さのない形式(JSONなど)によるコンテキストの「構造化パッケージング」
実世界でのアプリケーション: これらの技術は、スポーツのハイライト自動作成、監視カメラビデオ解析、コンテンツ連動型広告を強力にサポートし、手作業を減らしながら精度を向上させます。
今後の方向性: モデルがコモディティ化するにつれて、競争力の源源は、単なるモデルの処理能力ではなく、コンテキストがいかに効果的に設計(エンジニアリング)されているかになります。
はじめに
例えば、LLMに自社の返品ポリシーについて質問すると、存在しないルールを自信満々にでっち上げることがあります。また、RAGシステムに前四半期の収益を尋ねると、2019年の予測に関する全く無関係な文書を提示してくることがあります。これらはモデルの論理的思考の失敗ではありません(多くのLLMは論理や数値を問題なく処理できます)。これはコンテキストの失敗なのです。
同じLLMでも、適切なコンテキストが与えられれば、でっち上げをやめて非の打ち所がないほど正確になります。実際の返品ポリシー、顧客の注文履歴、現在の在庫状況を提供してみると、突然正確でパーソナライズされたサポートを提供し始めます。これがコンテキストエンジニアリングです。不足しているデータや乱雑なデータを補うために巧妙なプロンプトに頼るのではなく、LLMにどのような情報を与え、それをどのように構造化するかを体系的に設計することです。
実稼働しているLLMの失敗のほとんどは、モデルの性能が低いからではなく、不十分、古い、あるいはフォーマットが不適切なコンテキストに起因しています。それにもかかわらず、開発チームはコンテキストパイプラインを後回しにしながら、プロンプトの微調整ばかりに夢中になりがちです。コンテキストを第一級のエンジニアリング課題として扱い、動的検索、構造化抽出、インテリジェントなフィルタリングのためのシステムを構築することで、信頼性の低いデモを、ユーザーが本当に信頼できる製品へと変えることができます。
Twelve Labsでは、この原則をビデオに適用し、独自の洞察を得ています。ビデオは単に物体や言葉が存在するだけでなく、シーケンス(順序)を通じた意味が重要です。映画製作者たちはこれをクレショフ効果と呼びます。視聴者は単一のカットからではなく、カットがどのように並べられているかによって感情的な解釈を引き出します。同じ無表情な顔の後に、異なる映像(スープのボウル、棺桶、女性)を配置すると、その顔から感じ取られる感情が全く変わってしまうのです。
私たちのプラットフォームは、単にモデルのサイズを拡張するだけでなく、時間的な順序を意味に含めることでビデオコンテキストをエンジニアリングします。モデルが「何を見るか」、そして「どのような順序で見るか」を厳選し構造化することで、ハルシネーション(もっともらしい嘘)や誤解を軽減します。その結果、より正確で根拠のある出力が得られ、ビデオ内の時間的な流れを考慮した本物のストーリーを反映した回答となるため、ユーザーが信頼できるシステムが実現します。

この投稿の残りでは、Twelve Labsがビデオコンテキストエンジニアリングをどのようにビデオに適用しているかを、「ビデオコンテキストエンジニアリングの4つの柱」、高度なメモリおよび検索戦略、そしてそれによって実現可能になるアプリケーションを通じて解説します。そのゴールは、より大きなモデルだけでなく、コンテキストこそが次世代のビデオインテリジェンスを定義する理由を解き明かすことです。
1 - ビデオコンテキストエンジニアリングの4つの柱
コンテキストとは、ビデオ内の生の情報を裏付け、有意義な解釈を可能にするものです。どんな理解も、空白の中(コンテキストなし)では生まれません。静的なフレームの連続や文字起こしだけでは、適切なフレーミングがなければ、ストーリー、意図、あるいは因果関係を伝えることはできません。
だからこそ、Twelve LabsのビデオAIは単にピクセルを処理するだけでなく、コンテキストをエンジニアリングします。私たちは、これを4つの基本的な柱(LangChainチームによって詳細に解説されているもの)を通じて行っています:Write Context(書き出す)、Select Context(選択する)、Compress Context(圧縮する)、そしてIsolate Context(分離する)です。これらの柱は、ビデオデータを体系的に構造化、フィルタリング、凝縮、コンパートメント化(区分け)し、モデルが効果的に推論できるようにするための手法を表しています。以下では、各柱がビデオパイプラインにおいてどのように実装されているか、具体的な例を挙げて説明します。

元図の改変:https://blog.langchain.com/context-engineering-for-agents/
1.1 - Write Context(コンテキストを書き出す)
第1の柱は、Write Context、すなわちビデオを設定記述的な、マシンが処理可能な情報へと変換することです。これは多くの場合、文字通りビデオの生のモダリティ(画像、音声)から、テキスト、構造化データ、またはベクトル埋め込みへとコンテキストを書き出すことを意味します。このテキストのコンテキストを生成することで、モデルにピクセル以外の処理可能な素材を提供します。
実際、ビデオの「コンテキストを書き出す」ことには、文字起こし、キャプション作成、要約などのタスクが含まれます。10分間の安全トレーニングビデオを例に考えてみましょう。コンテキストエンジニアリングされたパイプラインは、まず話された会話を文字起こしし、主要な視覚的イベントを説明します。Twelve LabsのモデルであるPegasus(ビデオネイティブな言語モデル)を使用して、各シーンの要約やコメンタリーを生成することができます。本質的に、Pegasusは「何が起きているか」を自然言語で書き出します(誰が、いつ、どこで、何をしているか)。これにより、ビデオのセマンティック(意味的)なナラティブが作成されます。この書き出されたコンテキストが、その後のQ&Aや検索タスクの基礎となります。これは単純なタグよりもはるかに豊かで、ビデオコンテンツそのものに細かく適合しています。
極めて重要なのは、コンテキストの書き出しがプレーンテキストに限定されないという点です。私たちはしばしば構造化出力を採用します。例えば、生の文字起こしの代わりに、システムは以下のようなフィールドを持つJSONドキュメントを生成する場合があります:{"scene": 5, "timestamp": "02:15", "description": "赤いジャケットを着た人が道路を走り、車が近づいてくる。"}。これはAIエージェントにとって遥かに有益です。このような構造化されたコンテキストのパッケージングは、余計なノイズを排除し、整理された知識をモデルに提供します。LlamaIndexチームが強調しているように、構造化データフォーマット(JSONやXMLなど)は、指示、ビデオ的事実、メタデータなどのコンテキスト要素を論理的に分離し、モデルが混乱することなくそれらを解析するのに役立ちます。この例では、ビデオのJSONベースのタイムラインがあれば、AIは「赤いジャケットを着た人が現れたとき、何が起きましたか?」と尋ねられた際、すぐにシーン5を特定することができます。
十分に整理されたテキストとしてコンテキストを書き出すことで、その後のすべてのアクションの舞台が整います。これはAIが推論を行うための「グラウンドトゥルース(正解データ)」を確立します。当社のモデルを利用しているクライアントは、この柱を大いに活用しています:
例えば、Marengo(当社のマルチモーダル埋め込みモデル)は、生のビデオクリップをマルチモーダル埋め込み(セマンティックな意味を捉える「書き出された」コンテキストの数値表現)に変換します。これらの埋め込みにより、後から強力な検索が可能になります。
一方、Pegasusはクリップのテキスト要約を即座に生成することができ、本質的にオンデマンドでコンテキストを書き出します。
これらを組み合わせることで、ビデオ内の重要な詳細が生の映像に埋もれたままになるのを防ぎ、すべてビデオAI製品が利用できる言葉やベクトルとして抽出されます。

1.2 - Select Context(コンテキストを選択する)
ビデオ情報を「書き出した」後でも、通常はモデルが一度に処理できる量をはるかに超えるコンテキストが手元に残ることになります。1時間のビデオを文字起こしすることを想定してください。その文字起こしは数万語に及ぶ可能性があります。そのすべてをLLMに入力することは非効率的(あるいは、コンテキストウィンドウの制限から不可能)です。ここで登場するのが、Select Contextです。手元のタスクに最も関連性の高いコンテキスト情報のみを選択する戦略です。
コンテキストの選択は、本質的にはインテリジェントなフィルタリングまたは検索ステップです。ユーザーのクエリや特定のAIのタスクが与えられると、システムは重要なビデオデータの一部分を抽出し、それ以外を無視する必要があります。例えば、アナリストが「容疑者が部屋に入ってきたのはいつで、何と言っていますか?」と尋ねた場合、システムはビデオ全体の文字起こしを丸ごと投入するのではなく、関連するシーン(容疑者が入ってくる場面)とそれに関連する文字起こしのセリフを抽出して選択する必要があります。言い換えれば、書き出されたコンテキスト(第1の柱から得られたもの)を知識ベースとして扱い、意味論的(セマンティック)に問い合わせるのです。
Twelve LabsのモデルであるMarengoは、この柱のために特化して構築されています。Marengoはビデオ、オーディオ、テキストの埋め込みを作成し、それらを共通のベクトル空間に配置します。これにより、ビデオコンテンツに対するセマンティック検索が可能になります。Marengoを使用することで、当社のシステムは自然言語のクエリを受け取り、最もよく類似するビデオセグメントや説明文を検索できます。あなたが「選手がバク宙をして喜んでいるゴールシーン」と尋ねると、たとえ明示的なタグが存在しなくても、当社の検索APIはサッカー選手がそのバク宙パフォーマンスを行っているクリップを表面化させることができます。私たちは本質的に、AIに干し草の山から針を見つけ出すための目を与えたのです。
コンテキストの選択は、基本的な検索にとどまらず、エージェント型ワークフローにおける動的なフィルタリングも含みます。当社の開発中のエージェントであるJockeyは、API呼び出しを通じて自律的にコンテキストを収集できます。例えば、スポーツのハイライトを作成する際、興奮度スコアや注目選手に基づいてゲームのイベントをフィルタリングします。このアプローチはモデルに対するノイズを大幅に削減し、LangChainチームが指摘している点である「LLMは提供された情報のみを元に推論できる」という課題に対処します。最も関連性の高いビデオセグメントのみを選択することで、ハルシネーションを防ぎ、精度を高めることができます。これはRAGの核心的な原則に従っています:より良い選択が、より良い結果をもたらす。具体的な実装については、ビデオRAGに関するWeaviateのチュートリアルを参照してください。

1.3 - Compress Context(コンテキストを圧縮する)
ビデオの最も関連性の高い部分を選択した後でも、依然としてデータが多すぎる、あるいは冗長すぎる場合があります。Compress Contextは、情報の重要な意味を損なうことなく、モデルの入力限界に収まり、処理しやすくなるよう情報を凝縮する戦略です。圧縮は、要約、抽象化、またはエンコーディングによって行われます。
警察のボディカメラ映像を例に考えてみましょう:ある事件の前後5分間の映像があるとします。重要な事実を強調することで、このコンテキストを圧縮できます。Twelve LabsのPegasusモデルは、この役割を頻繁に担います。長いビデオセグメントを入力として受け取り、主要なポイントを押さえた短いあらすじを生成できます。例えば、その5分間の映像に対する3文の要約は次のようになります:「警察官が夜間に停車中の車に接近。赤いジャケットを着た容疑者は緊張している様子でシートの下に手を伸ばす。警察官は後退し、応援を無線で要請。」この要約は、長さこそ元の映像のほんの一部ですが、推論に必要な極めて重要な詳細を維持しています。
ビデオシステムでコンテキストを圧縮する方法はいくつかあります:
Summarization(要約): 前述のように、ビデオ言語モデルを使用してビデオ入力を要約または説明します。
Temporal compression(時間的圧縮): 重複するフレームをドロップするか、連続する瞬間をより高レベルのイベントにマージします。(例:連続したアクションの10フレームを、1つの「アクションが継続している」という説明に圧縮する。)
Modality filtering(モダリティフィルタリング): 他のモダリティがほとんど情報を付加しない場合、特定のモダリティに集中します。(例:講義ビデオにおいてほとんどの情報が音声によって伝達される場合、すべての視覚的詳細を説明するのをやめ、実質的にあまり役に立たないモダリティを無視することでコンテキストを圧縮する。)
コンテキストの圧縮は、人間の映像編集者がハイライト動画を作る際に行う「本質的な瞬間を凝縮し、それ以外を破棄する」行為とよく似ています。MLSEとの当社の取り組みでは、試合映像を自動的に主要なイベントへと抽出することでこの原則を示し、ハイライト作成において98%の効率化を達成し、編集時間を16時間からわずか9分に短縮しました。技術的な観点から見ると、反復的な要約(各チャプターを要約し、さらにそれらの要約をもう一度要約する)などの圧縮技術は、モデルのトークン制限を克服するのに役立ちます。LlamaIndexが指摘しているように、検索結果をプロンプトに追加する前に要約することは、コンテキスト制限内に収めるのに有効です。クライアントのパイプラインにおいて、Pegasusは中間的な発見事項を要約して「情報を伝えるシグナル対トークン」の比率を最大化し、モデルが最も関連性の高い情報だけを受け取るようにします。
1.4 - Isolate Context(コンテキストを分離する)
第4の柱である Isolate Context は、コンテキストを構造化し隔離することで、モデルが混乱しないようにすることです。複雑なビデオタスクには、往々にして複数の情報源や複数の推論ステップが含まれます。すべてを1つの巨大な塊としてまとめて流し込むと、モデルが圧倒されたり、無関係な情報を混ぜ合わせてしまったりすることがあります。コンテキストの隔離とは、異なる種類のコンテキストやプロセスの異なる段階をコンパートメント化(区分け)することを意味します。
コンテキストを分離するには、いくつかの側面があります:
情報源またはタイプによる分離: さまざまなコンテキストタイプを個別に維持します。例えば、システムプロンプト(AI向けの「ルール」)はビデオコンテンツデータから分離されます。同様に、視覚的な説明は会話の文字起こしデータと分けて保持される場合があります。これは構造化プロンプト(JSONセクションや特殊なトークンなど)を使用して、例えば
"scene_description": ...と"speech_transcript": ...を明確に区切ることで実現できます。このような分離により、モデルが例えば動画の視覚的説明をユーザーが実際に発言した内容だと解釈してしまうような事態を防ぐことができます。これにより明確さが向上します。時間的な分離: ビデオの前のセグメントのコンテキストが、次のセグメントに混入して混乱を引き起こさないようにします。以前のシーンのすべての詳細を引き継ぐ代わりに、新しいシーンに移行する際にコンテキストを要約またはリセット(「エピソード記憶」)することがあります。本質的に、各シーンやチャプターは、それらを繋ぐ凝縮された要約を除いて、単独で隔離して処理します。このアプローチにより、処理中のコンテキストをビデオの現在の瞬間に関連するものだけに絞り込みます。
エージェント内でのステップ分離: 複数ステップにわたるツールの呼び出しや推論を行う、Jockeyのようなエージェントにおいて、私たちは各ステップのコンテキストを分離します。例えば、Jockeyは「Planner-Worker-Reflector(計画担当-作業担当-評価担当)」アーキテクチャを使用しています。Plannerは、全体の高いレベルの目標と進捗の概要のみを確認し(生のビデオの詳細からは隔離されます)、一方でWorkerは分析する必要がある特定のビデオセグメントを確認します(ほかのセグメントからは隔離されます)。各ステップの後、Reflectorが全体の状態を更新する場合があります。各コンポーネントが見るものを隔離することで、たとえば、プランニング(企画)のロジックが低レベルのフレームデータに気を取られたり、分析ステップが全体計画に混乱されたりするシナリオを回避します。各パーツは必要なコンテキストのみを受け取ります。

元図の改変:https://manus.im/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus
分離は、明確さとパフォーマンス最適化の双方を強化します。静的なコンテキスト(指示、ツールの定義など)と動的なコンテキスト(観察結果、クエリなど)を分離することで、キャッシュ効率を維持し、コストを削減します。キャッシュされたトークンは、キャッシュされていないトークンの約10倍安くなる場合があります(Manusが明らかにした知見)。このアプローチにより、無関係な情報間の混信を防ぎ、より確実でデバッグしやすい動作を生み出します。エラーが発生した際、それぞれのコンポーネントが隔離されているため、問題が指示、ビデオデータ、あるいはツールの結果のどれに起因したものかを素早く特定できます。本質的に、コンテキストの隔離は「各個撃破(分割統治)」の哲学に従っています。問題の各側面に、それぞれクリーンで焦点を絞った独自のコンテキストを割り当て対抗するのです。
2 - ビデオコンテキストエンジニアリングの高度な戦略
上記の4つの柱は基礎を提供しますが、本当に堅牢なビデオAIシステムを構築するには、その上に高度な技術を重ねる必要があります。このセクションでは、Twelve Labsがビデオ理解を次のレベルへと押し上げるために採用している最先端の戦略を探ります:短期メモリと長期メモリのアーキテクチャ、ツールの編成を伴う動的検索、そして構造化されたコンテキストパッケージングです。これらのアプローチにより、当社の基盤モデルは単発のクエリを処理するだけでなく、時間の経過とともに理解を維持し、その場で適応し、外部システムとシームレスに連携できるようになります。
2.1 - メモリ構造:短期メモリと長期メモリ

図の引用元:https://langchain-ai.github.io/langgraph/concepts/memory/
人間と同じように、AIシステムも短期の「作業」メモリと長期の知識ベースの両方を持つことで恩恵を受けます。これはビデオエージェントにとって特に重要です。ビデオは数時間の長さになることがあり(以前のシーンの記憶が必要)、またAIは複数のビデオやセッションにわたって知識を蓄積する必要がある場合もあります。私たちはメモリを次の2つのタイプに分類しています:
短期メモリ: これは、現在のセッションまたは現在のビデオに関する一時的なメモリです。チャットボットの文脈では、短期メモリは最近の会話履歴となりますが、ビデオの場合は、現在のシーンで何が起きていたか、またはそれまでのビデオの実行中の要約などがこれに該当します。短期メモリは頻繁に更新され、通常はモデルのコンテキストウィンドウに直接収まります。よく使われる技術の1つに、スライディングウィンドウ要約があります。これは、モデルがクリップごと、あるいはシーンごとにビデオを処理する際、直前の数分間の継続的な要約を保持し、直前に何が起きたかという文脈を見失わないようにするものです。他の例としては、ユーザーが同じビデオについて追加の質問をした際に、ユーザーの直前の質問とAIの直前の回答を覚えていることが挙げられます。
長期メモリ: これは即時のコンテキストウィンドウの外側に保存され、必要に応じて呼び出し可能な、永続的な知識を指します。ビデオ理解において、長期メモリには、例えば映画の前半に出てきたキャラクターや場所に関する事実のインデックス(ベクトルデータベースに保存される)、あるいはエージェントが過去に処理したビデオからのメタデータなどが含まれます。また、累積的な学習を意味することもあります。例えば、監視カメラを監視するエージェントが、数週間にわたって特定の場所の典型的な活動プロファイルを構築するような場合です。長期メモリはデータベースや埋め込みを介して実装されることが多く、例えば Twelve Labs は、テレビシリーズの全シーンを埋め込んでそのベクトル表現を保存することができます。新しいエピソードを分析する際、以前登場したキャラクターの背景情報が必要になったら、エージェントはそのベクトルストアに問い合わせて、過去のエピソードから関連するコンテキストを検索できます。
実際、Marengo + Pegasus は当社のビデオエージェントにメモリ階層を提供します。Marengoのベクトル埋め込みは長期メモリとして機能し、過去のすべてのビデオデータを埋め込んで後から検索できるようにします。ビデオに関する要約や対話を行う能力を備えた Pegasus は、短期メモリを処理します。例えば、増分要約やメモを通じて、ビデオで現在何が起きているかを追跡します。当社のエージェント Jockey は、これら両方を使いこなすように設計されています。Jockey は長期のベクトルメモリから検索(リトリーブ)することができ(例:「過去にこの人物が映ったすべての監視映像クリップを見つける」)、同時に目の前のタスクのローカルな状態を維持することもできます(「このクリップでこれまでに何が見つかったか」)。

私たちが検討している新しいアイデアに、複数のコンテキストレイヤーを維持するためのメモリスタックを構築することがあります(FactoryのContext Stackから着想を得ています)。直前のレイヤーには現在のシーンの詳細や最近のやり取りが含まれ、中間および深いレイヤーには、シーンの要約から過去のビデオの検索可能なデータベースまで、段階的に歴史的な情報が格納されます。すべてのメモリを一度にモデルに詰め込んで圧倒するのではなく、戦略的な検索ルールを適用したいと考えています:直前のコンテキストは常に含め、要約は選択的に含め、長期メモリからのターゲットを絞った検索は必要な場合にのみ行います。このアプローチは動的な要約によってトークンの使用を最適化し、本質的な意味を保持しながら古い情報を圧縮します。これは人間のメモリの自然な「固定化」プロセスに似ています。
本質的に、短期メモリは単一のビデオや会話を理解する上での一貫性(コヒーレンス)をモデルに与え、長期メモリは時間とデータを越えた連続性を提供します。両者のバランスを取ることが極めて重要です。新たなベストプラクティス(LlamaIndexのメモリモジュールのようなフレームワークに反映されています)では、長期的な情報にはベクトルストアを使い、短期的な履歴にはその場での要約を使用することが推奨されています。Twelve Labs の製品はこれらの考えを取り入れているため、ビデオAIがビデオシーンに関する質問に答えたり、複数のビデオからストーリーボードを生成したりする際にも、時間が経過してもコンテキストを見失うことはありません。
2.2 - Dynamic Retrieval(動的検索)と Tool Orchestration(ツール統制)
高度なビデオエージェントは、目の前にあるものをただ受動的に分析するだけでなく、必要に応じて積極的にさらに多くのコンテキストを探し出すことができます。これが動的検索(Dynamic Retrieval)の考え方です。エージェントは実行中に、追加情報が必要であると判断し、ツールやAPIを介してそれを取得します。これと調和して、エージェントは複雑なタスクを達成するために、複数のツールやAI呼び出しを調整するツールオーケストレーション(Tool Orchestration)を行います。どちらも、ビデオ理解の制約のない性質に対処するために極めて重要です。
例えば、ビデオエージェントが監視カメラの映像を監視していて、見慣れない顔を見つけたというシナリオを想定してみましょう。静的なシステムであれば、単に「不審な人物を検出しました」と言うだけかもしれません。しかし、動的検索を備えたエージェントであれば、エンティティ検索サービスを呼び出すか、監視リストのデータベースを検索することを決定できます。それは本質的に追加の不随質問を投げかけます:「この人は誰ですか? 彼女/彼に関するコンテキストを取得させてください」。適切なツールに接続されていれば、以下のような結果を返すことができます。「この人物は従業員のジョン・ドウであると思われ、最後にカメラで確認されたのは3日前です。」 これにより、エージェントは外部の知識でコンテキストを豊かにすることができました。ある意味で、ビデオ内で当初利用可能だった範囲を越えて、コンテキストを拡張したのです。

図の引用元:https://www.twelvelabs.io/blog/video-intelligence-is-going-agentic
当社の現在のビデオエージェントフレームワークである Jockey は、この能動的なツールの使用という原則に基づいて構築されています。Jockey は Planner-Worker-Reflector アーキテクチャを使用しており、Planner は各ステップで呼び出すべきツールを決定できます。ビデオパイプラインにおいて、ツールには Marengo を使用したセマンティックビデオ検索、Pegasus を使用したビデオ要約、そして ffmpeg を使用したクリップのトリミングと結合などが含まれます。オーケストレーター(Planner)は、本質的に「ユーザーの目標や現在のサブタスクを考慮した時、私に不足しているコンテキストは何か、そしてそれを取得できるツールはどれか?」と判断します。これは、Letta や LangGraph などの最新のLLMエージェントフレームワークがツールを処理する方法と似ています。つまり、ツールを動的に引き込める便利なコンテキストの拡張機能として扱うのです。
このすべての動的検索とツール実行は、エージェントのコンテキストウィンドウに統合し戻される必要があります。ツールからの情報は(通常は構造化された方法で)プロンプトの一部になります。LLMエージェントの分野における重要な設計パターンの1つが、メモリによるツール拡張です。ツールが何か結果を返すたびに、その結果はモデルが今後考慮できるように会話コンテキストに追加されます。これにより、エージェントの知識がステップバイステップで増強されるループが形成されます。

元図の改変:https://lilianweng.github.io/posts/2023-06-23-agent/
要約すると、動的検索とツール使用は、ビデオAIシステムを受動的な回答者から能動的な問題解決者に変えます。これは、何かが当面のコンテキストに存在しない場合、システムが自主的にそれを取得しに行けることを保証します。その結果、精度と多用途性が向上し、エージェントが自分の出力をセルフチェックできるため、未回答(「わかりません」という返答)やハルシネーションを減らすことができます。このアプローチは、ビデオエージェント研究の最新成果と密接に一致しています(例えば、ビデオ分析の中に検索を統合したスタンフォード大学の「VideoAgent」や、OmAgentのマルチモーダルRAG+推論技術など)。Twelve Labsは、ビデオエージェントをコンテキストを意識し、ツールを装備し、状況に適応できるようにすることで、このフロンティアを切り拓いています。
2.3 - 構造化されたコンテキストパッケージング
コンテキストエンジニアリングにおける最も強力でありながら時には見落とされがちな戦略の1つは、コンテキストをどのようにフォーマット(記述化)するかです。これについては先ほどの「コンテキストを書き出す」でも触れましたが、さらに深く掘り下げる価値があります。構造化され、スキーマに従った記述フォーマットでコンテキストを提供することは、特に複雑なビデオデータにおいて、エージェントの処理パフォーマンスを大幅に向上させることができます。型のない自由形式のメモ情報をプロンプトに大量流し込む代わりに、私たちは簡潔かつ曖昧さのない方法でコンテキストをパッケージ化します。
Pegasusに対する次の2つのプロンプトの違いを考えてみてください:
非構造化(自由書式): 「質問: 2:15に何が起きましたか? 答え:」
構造化(JSON):
{"scene": "02:15-02:45", "characters": ["Alice", "Bob"], "actions": ["アリスが部屋に入ってくる", "ボブが驚いた顔をする"], "question": "2:15に何が起きましたか?"}
構造化バージョンでは、Pegasusは入力のどの部分がコンテキストで、どの部分が実際の質問なのかを推測する必要がありません。これらが明確にラベル付けされているからです。また、重要な情報(登場人物や行動)を圧縮された形式で事前に入手できます。これによりモデルにかかる認知的な負荷が軽減され、答えへと正しく誘導されます。業界のベストプラクティスが示すように、構造化されたフォーマット(明確なフィールドを持つJSONなど)を使用し、メタデータ(タイムスタンプや話者ラベルなど)を含めることは非常に効果的です。これはモデルに論理的推論のためのシグナルを与え、回答の根拠をグラウンディングさせるのに役立ちます。

Twelve Labsにとって、構造化パッケージングは非常に自然にフィットします。なぜなら、ビデオデータは本来、時間やモダリティによって構造化されているものだからです。私たちはしばしば、コンテキストをタイムライン、リスト、またはマップとして表現します:
ビデオにおけるイベントのタイムライン(タイムコードと説明を含む)。
シーン内で検出されたオブジェクトや人物のリスト。
会話の方向性のマップ(誰がいつ話したか)。
検索されたクリップのタグやベクトルIDのセット。
この種のデータ構造を提供することで、私たちは生のテキストの塊ではなく、アウトラインやナレッジグラフをモデルに提供していることになります。これにより、精度が劇的に向上することがあります。例えば、Pegasusにビデオの要約を生成するように依頼する際、まずビデオの各シーンの構造化された内訳を提供することがあります。これにより、Pegasusはビデオをセグメント化されたコンテキストとして「知る」ことができ、最終的な要約の中でそれぞれの重要な部分を確実にカバーできるようになります。これは、執筆者にエッセイのアウトラインを渡すようなものです。
もう1つの利点は、構造化された入力によって出力を制御できることです。もしモデルが特定のフォーマット(イベントの構造化JSONなど)で出力する必要がある場合、同様の構造化された方式で入力コンテキストを提供することで、期待される形式を意識させることができます。当社のエージェント Jockey のインターフェースでは、タイムスタンプやサムネイルを用いて結果を表示することがよくありますが、舞台裏では、Jockey の推論に構造化コンテキストが含まれているため、「timestamp」: 値のペアを簡単に参照できます。

要約すると、構造化コンテキストパッケージングとは、情報を明示的かつ効率的に扱うことです。明示的であるとは、情報の各ピースが持つ役割を明確に示すこと(モデルに推測させないこと)を意味します。効率的であるとは、コンテキストをデータ構造に変換して冗長性を排除し、重要キーフィールドに焦点を当てることで圧縮することを意味します。これはプロダクションレベルの技術です。経験豊富なAIエンジニアは、コンテキストの組み立てを、まるでモデルに対するAPIコントラクト(入出力仕様)を設計するように扱います。モデルの理解度を最大化するために、どのフィールドを含めるか、それらをどう命名するか、どのような順序で配置するかを綿密に実設計します。Twelve Labsはこのフィロソフィーを製品に直接組み込んでいるため、開発者はビデオコンテキストを乱雑なテキストの絡まりのまま放置せず、構造化された方法で整形することができます。
3 - アプリケーションと将来の展望
3.1 - コンテキスト中心のビデオAIのアプリケーション
これまで議論してきた技術は、単なる机上の空論ではありません。これらはさまざまな業界で、ビデオAIの実世界のブレークスルーを可能にしています。しかし、コンテキストは万能の解決策ではありません。それはあなたがシステムにどのように認識させ、行動させたいかに形作られる、ユースケース固有のものです。「完璧な」コンテキストというものは存在せず、自社のタスクにとって理にかなうコンテキストが存在するだけです。Twelve Labsではこの点を理解しています。メディア制作であれ、公共安全であれ、広告であれ、私たちは一般的な完全性ではなく、ユースケースの目標に沿ってコンテキストをエンジニアリングします。以下の事例を見ると、実用的な目的に合わせてコンテキストエンジニアリングが調整されていること、そして、そうしたテーラリング(個別最適化)こそが、単なるモデル規模やプロンプト細工ではなく、戦略的でタスクに適合したコンテキスト設計を持つ次世代のビデオAIプラットフォームを実定義していることがお分かりいただけるでしょう。
メディアおよびエンターテインメント
スポーツのハイライト作成をもう一度振り返ってみましょう。これは、コンテキストが領域(ドメイン)の技術的な理解と、ユーザーが意図しているストーリー(ナラティブ)の認識の双方をどのように融合させるべきかを示す好例です。大手スポーツフランチャイズ(MLSE)の事例では、当社のエージェントベースのビデオシステムが、技術的なコンテキスト(ゲームの構成、選手のメタデータ、タイムスタンプ)と、ユーザーから提供されたナラティブ(ストーリーテリング)のコンテキスト(希望するストーリーや編集ディレクション)を組み合わせることで、16時間の手作業による編集ワークフローを、9分間の自動化プロセスへと一変させました。このシステムは単に瞬間を検出したのではなく、ユーザーの創造的な入力とゲーム自体のダイナミクスに基づいて、ハイライト動画に何を含めるべきか、それをどういう順序で並べるべきかを真に「理解」して構築しました。
これはスポーツだけに留まりません。映画の予告編、ニュース映像のモンタージュ、TikTokスタイルの長尺ビデオ要約でも同じアプローチが考えられます。鍵となるのは、映像の中の「何が重要か」をただ知ることではなく、作成中のアウトプットにおいてなぜ重要なのかを理解することです。すなわち、コンテキストエンジニアリングは以下の問いへの答えでなければなりません:「このコンテンツを通じて、私たちは何を達成しようとしているのか?」 これが明確になって初めて、AIは適切な順序でのストーリー進行、タイムスタンプや引用を明確にした事実精度、制作企画書で要求されたトーンやテンポの調和など、物語としての一貫性を保つ(あるいは強制する)能力を発揮できます。
また、メディア企業はマルチモーダル構築の検索についても模索しています。これは膨大なアーカイブの中から、例えば「特定のセリフを言いながら、特定の行動が行われているシーン」をピンポイントで見つけ出す技術です。ビデオネイティブなコンテキスト検索を用いることで、クリップを骨の折れる手作業で永遠にタグ付けし続けることなく、これを実現できるようになります。
公共安全とセキュリティ
事件や事故を検知するために、街中の数多くのCCTV(防犯カメラ)を監視する課題を考えてください。コンテキストエンジニアリングを施されたビデオAIは、完璧な記憶を持つ、決して眠らない観察者として機能します。長期的なコンテキストを維持できるため、システムは同じ人物が数日間にわたって異なる場所に現れたことを検知できます(ストーカー行為の兆候や、行方不明者の目撃を速やかに警告フラグします)。ツールと検索機能のオーケストレーションにより、顔画像と要注意人物リストの照合、車両のナンバープレートとデータベースとの照合を、リアルタイムで行うことができます。例えば、「午後3時に赤いジャケットを着た人物が不審な荷物を放置した。この人物は2時間前にも駅のカメラの近くで確認されている」といったアラートを出すことができます。

ビデオAIは、複数の防犯カメラ映像や外部のデータ(既知の容疑者リストなど)から動的にそのコンテキストを組み立てました。公共安全の専門機関は、AIアシスタントがライブ映像から刻一刻と変化する状況を要約し(例:「カメラ5:群衆が集まり、抗議活動のようなデモの動きを形成している」)、緊急指令員の業務を支援するシステムの試験運用を進めています。この信頼性はプロセスの透明性によって担保されています。AIは要約の根拠となったクリップを正確に示すことができるため、人間がそれを確認して即時に行動に移すことができます。コンテキストエンジニアリングに支えられたこのレベルの状況認識は、救急対応や対処の迅速化を促し、結果として多くの人命を救うことに直接繋がります。
広告とマーケティング
広告の世界では、配置環境(コンテキスト)こそが命です。適切なコンテキストに適切な広告を配置することで、エンゲージメントは倍増します。ビデオAIはコンテンツを非常に深く分析できます。単に「これは料理ビデオです」というレベルだけでなく、「このビデオのトーンはノスタルジックで、アウトドアでの家族の風景を特徴としています」といった細部まで理解します。このような深い解釈により、感情的またはテーマ的に共鳴する広告(例えば、家族向けミニバンの広告など)を絶妙にマッチングさせることができます。

さらに、ブランド各社はビデオAIをコンテンツ作成に利用することができます。例えば、長尺の商業撮影映像から、それぞれ異なる製品機能に焦点を合わせて編集した複数の短いソーシャルメディア向けクリップを自動生成することができます。Jockeyのようなエージェントは、30分の製品デモ用ビデオを受け取り、コンテキスト情報を手がかりに各テーマが現れる箇所を特定して、30秒のテーマ別クリップシリーズ(デザインに焦点を当てたもの、性能に焦点を当てたものなど)に素早く分割編集できます。
マーケティング分析の分野では、競合他社のすべてのYouTube広告をAIに視聴させ、主要なメッセージやビジュアル要素を要約したレポートを作成させることができます。これは、これまではインターンが膨大な時間をかけて骨を折って行っていた作業です。コンテキストエンジニアリングによるビデオ理解により、AIは次のような構造化データを出力できます。例えば、すべての分析対象動画について「ブランドロゴが表示されたタイムスタンプ、スローガンが発言された箇所、製品が提示された場所」のJSONファイルなどを生成し、より高次の戦略的意思決定に直接役立てることができます。
要するに、今後の広告プラットフォームの主流となるのは、コンテンツを真に視聴して理解するAIであり、これにより大幅な広告配置のスマート化と、自動化されたスケールメリット型コンテンツ生成が実現します。
これらの事例はまだまだ序の口にすぎません。その他の分野として、教育(例:生徒の過去の学習履歴というコンテキストを理解したAIチューターが組み立てるパーソナライズされたビデオ授業)、医療(患者データのコンテキストを意識した上で、執刀医にガイダンスを提供するための手術・手技ビデオ分析)、および法務(事件に関わる証拠動画全体のコンテキストを保ちながら、数時間におよぶ証言録取動画から矛盾点や決定的瞬間を迅速に抽出するシステム)など、適用できる領域は無数に存在します。
3.2 - マルチモーダル・インテリジェンスの未来

今後のマルチモーダル・ビデオインテリジェンスの未来は、非常にスリリングな展開を予感させます。私たちは以下のような変化を予測しています:
先読みしてニーズを予測するエージェント(Flow-aware agents): 優秀な人間のアシスタントと同じように、ビデオエージェントはフローティング意識的(Flow-aware)な計画プロセスを使用して、あなたが次に尋ねるであろうことや必要とすることを予測します。例えば、ハイライトを編集中に、エージェントはあなたが現在のクリップを確認している間に、先回りして次に重要になりそうなクリップのコンテキスト収集を開始します。これには、長期メモリの延長線上にある、ユーザー個人の好みや傾向を学習する「コンテキスト対応のメタ学習」が必要です。時間の経過とともにエージェントは最適化され、あなたが何をもって「見どころ(ハイライト)」と判断するかを実体験を通じて学習し、それに合わせてコンテキスト検索を微調整します。
モダリティのさらに深い統合(マルチモーダル・オーケストレーション): 未来のビデオAIは、テキスト、音声、映像、そして生成されたメディアさえもシームレスに調和させます。エージェントはビデオ内の重要なイベントを検出し、テキストの文脈を使ってそれを推論し、そして音声による解説を付けた数秒のビデオ要約を瞬時に生成します。これは、コンテキストに既存のデータだけでなく、生成されたコンテキスト(音のないCCTVクリップに対して合成されたナレーション音声など)も含むことを意味します。オーケストレーションにおいて、コンテキストから新たにビジュアルを作り出すこともあります(「この細部にズームして鮮明化せよ」といった指示に対し、超解像モデルを使って低解像度のフレームから高解像度の画像を生成するなど)。エージェントは本質的に映画監督となり、複数のAIという「役者」たちを編成します。そして、コンテキストエンジニアリングが、すべてを調和させるための「脚本」として機能するのです。
高次元の推論とセルフリフレクション(自己分析): コンテキストシステムが成熟するにつれて、エージェントは自分自身のコンテキスト構築プロセスを自己評価することに長けていきます。彼らは自問するようになります:「私は十分な情報を持っているだろうか? 私が持つコンテキストに誤解を招く記述や欠落がある可能性はないだろうか?」 例えば、エージェントは次のようにフラグを立てることができます。「この動画を要約しましたが、該当のシーンが非常に乱雑だったため正確性に確信が持てません。その部分を人が再確認しますか?」 このようなエージェント自身のメタ認知(自己への認識)は、自分のコンテキストの限界を分きまえていることで、さらなる信頼獲得へと繋がります。技術的には、エージェントがコンテキストに照らして自身の出力を評価(検証)するためにLLMを使用したり、不確実な場合に追加のコンテキストを自律的に要求したりすることが含まれます。私たちは、こうした兆候を研究(テキストにおけるSelfCheckGPTなど)の初期調査から見て取ることができ、やがてビデオエージェントにも同様に適用されると考えています。
最後に、なぜ私たちがコンテキストエンジニアリングを、次世代ビデオAIの決定的な能力になると提言するのでしょうか。それは、オープンソースモデルの性能向上やクローズドAPIの使用コスト低下によって、モデル自体がまもなくコモディティ化しつつあるからです。本当の差は、それらのモデルをどれほど効果的に統合・運用できるかという実力に移ります。これは他社が容易に真似できない持続的なアドバンテージです。競合が新しい最新モデルを構築するより、独自に磨き上げられたコンテキストパイプライン(自社データ、ビジネスに沿ったワークフロー、長年の実地最適化)を真似して再現することの方が遥かに困難です。Twelve Labsはこの点を確信しています。だからこそ、ビデオ理解アプリケーションを迅速に構築するための、他とは画一する独自のツール群を提供しています。これらのツールを導入すれば、当社の定義する4つの柱や高度な戦略をすぐに活用できます。私たちは、開発者がコンテキスト管理を一から再発明することに時間を費やすのではなく、本来のアプリケーション機能のイノベーション追求に集中してほしいと考えています。まず始めに、当社のMCPサーバーを参照してください。
結論
ビデオ理解は、未加工の数百万ピクセルに巨大なAIモデルをただ力まかせに投げ込むだけで解決するものではありません。そのピクセルの周辺に横たわるコンテキストを精密にエンジニアリングすることによってこそ解決します。何が重要かを書き出し、適切なタイミングで適切なピースを選択し、賢明に圧縮し、明確にするために情報をきれいに分離することです。メモリを搭載し、ツールを能動的に検索して利用し、最高の明確さを出すためにデータを構造化することによってこそ実現します。そして、すべてを継続して検証・評価することで、システムをさらに信頼し継続的に改善できます。これこそが、洪水のように押し寄せるビデオデータを、頭痛の種から絶好の価値創出のチャンスへと変化させる手法です。
Twelve Labsでは、コンテキストに技術投資の焦点を集中させることで、基礎研究を行っている研究者から、実際のプロダクション(商用運用)でこれらをスケールさせているMLエンジニアまで、未来を築くすべてのデベロッパーのために、ビデオAIが真に稼働する仕組み作りに邁進します。ビデオにおけるコンテキストエンジニアリングこそ、私たちの進むべき進路を示す北極星であり、それこそが次のビデオインテリジェンスの時代の灯河になると確信しています。
本投稿の作成を支援し、コメント、フィードバック、および有益な提言を寄せてくれた Twelve Labs の同僚(Ryan Khurana、Jin-Tan Ruan、および Yoon Kim)に深く感謝します。また、この記事に彩りを添える素晴らしいグラフィックを制作してくれた Sean Barclay と Jieyi Lee にも最大級の謝意を表します。
TLDR: ビデオ理解アプリケーションを確実に機能させるための鍵は、モデルの大規模化だけでなく、コンテキストエンジニアリングです。
コンテキストの問題: LLMの失敗のほとんどは、モデルの性能が低いからではなく、不十分、古い、または不適切にフォーマットされたコンテキストに起因しています。
ビデオコンテキストエンジニアリングの4つの柱:
Write Context(コンテキストを書き出す): ビデオを設定ベースの説明的な、マシンが処理可能なテキスト、構造化データ、またはベクトル埋め込みに変換します。
Select Context(コンテキストを選択する): セマンティック検索やフィルタリングを通じて、特定のタスクに最も関連性の高いコンテキスト情報のみを選択します。
Compress Context(コンテキストを圧縮する): 重要な意味を損なうことなく、要約や抽象化によって情報を凝縮します。
Isolate Context(コンテキストを分離する): 異なる情報源の間でモデルが混乱するのを防ぐために、コンテキストを構造化し隔離します。
高度な戦略:
短期的な「作業」メモリと長期的な知識ベースを組み合わせたメモリ構造
必要な時、動的に追加のコンテキストをアクティブに探し出すツールによる「動的検索」
明確で曖昧さのない形式(JSONなど)によるコンテキストの「構造化パッケージング」
実世界でのアプリケーション: これらの技術は、スポーツのハイライト自動作成、監視カメラビデオ解析、コンテンツ連動型広告を強力にサポートし、手作業を減らしながら精度を向上させます。
今後の方向性: モデルがコモディティ化するにつれて、競争力の源源は、単なるモデルの処理能力ではなく、コンテキストがいかに効果的に設計(エンジニアリング)されているかになります。
はじめに
例えば、LLMに自社の返品ポリシーについて質問すると、存在しないルールを自信満々にでっち上げることがあります。また、RAGシステムに前四半期の収益を尋ねると、2019年の予測に関する全く無関係な文書を提示してくることがあります。これらはモデルの論理的思考の失敗ではありません(多くのLLMは論理や数値を問題なく処理できます)。これはコンテキストの失敗なのです。
同じLLMでも、適切なコンテキストが与えられれば、でっち上げをやめて非の打ち所がないほど正確になります。実際の返品ポリシー、顧客の注文履歴、現在の在庫状況を提供してみると、突然正確でパーソナライズされたサポートを提供し始めます。これがコンテキストエンジニアリングです。不足しているデータや乱雑なデータを補うために巧妙なプロンプトに頼るのではなく、LLMにどのような情報を与え、それをどのように構造化するかを体系的に設計することです。
実稼働しているLLMの失敗のほとんどは、モデルの性能が低いからではなく、不十分、古い、あるいはフォーマットが不適切なコンテキストに起因しています。それにもかかわらず、開発チームはコンテキストパイプラインを後回しにしながら、プロンプトの微調整ばかりに夢中になりがちです。コンテキストを第一級のエンジニアリング課題として扱い、動的検索、構造化抽出、インテリジェントなフィルタリングのためのシステムを構築することで、信頼性の低いデモを、ユーザーが本当に信頼できる製品へと変えることができます。
Twelve Labsでは、この原則をビデオに適用し、独自の洞察を得ています。ビデオは単に物体や言葉が存在するだけでなく、シーケンス(順序)を通じた意味が重要です。映画製作者たちはこれをクレショフ効果と呼びます。視聴者は単一のカットからではなく、カットがどのように並べられているかによって感情的な解釈を引き出します。同じ無表情な顔の後に、異なる映像(スープのボウル、棺桶、女性)を配置すると、その顔から感じ取られる感情が全く変わってしまうのです。
私たちのプラットフォームは、単にモデルのサイズを拡張するだけでなく、時間的な順序を意味に含めることでビデオコンテキストをエンジニアリングします。モデルが「何を見るか」、そして「どのような順序で見るか」を厳選し構造化することで、ハルシネーション(もっともらしい嘘)や誤解を軽減します。その結果、より正確で根拠のある出力が得られ、ビデオ内の時間的な流れを考慮した本物のストーリーを反映した回答となるため、ユーザーが信頼できるシステムが実現します。

この投稿の残りでは、Twelve Labsがビデオコンテキストエンジニアリングをどのようにビデオに適用しているかを、「ビデオコンテキストエンジニアリングの4つの柱」、高度なメモリおよび検索戦略、そしてそれによって実現可能になるアプリケーションを通じて解説します。そのゴールは、より大きなモデルだけでなく、コンテキストこそが次世代のビデオインテリジェンスを定義する理由を解き明かすことです。
1 - ビデオコンテキストエンジニアリングの4つの柱
コンテキストとは、ビデオ内の生の情報を裏付け、有意義な解釈を可能にするものです。どんな理解も、空白の中(コンテキストなし)では生まれません。静的なフレームの連続や文字起こしだけでは、適切なフレーミングがなければ、ストーリー、意図、あるいは因果関係を伝えることはできません。
だからこそ、Twelve LabsのビデオAIは単にピクセルを処理するだけでなく、コンテキストをエンジニアリングします。私たちは、これを4つの基本的な柱(LangChainチームによって詳細に解説されているもの)を通じて行っています:Write Context(書き出す)、Select Context(選択する)、Compress Context(圧縮する)、そしてIsolate Context(分離する)です。これらの柱は、ビデオデータを体系的に構造化、フィルタリング、凝縮、コンパートメント化(区分け)し、モデルが効果的に推論できるようにするための手法を表しています。以下では、各柱がビデオパイプラインにおいてどのように実装されているか、具体的な例を挙げて説明します。

元図の改変:https://blog.langchain.com/context-engineering-for-agents/
1.1 - Write Context(コンテキストを書き出す)
第1の柱は、Write Context、すなわちビデオを設定記述的な、マシンが処理可能な情報へと変換することです。これは多くの場合、文字通りビデオの生のモダリティ(画像、音声)から、テキスト、構造化データ、またはベクトル埋め込みへとコンテキストを書き出すことを意味します。このテキストのコンテキストを生成することで、モデルにピクセル以外の処理可能な素材を提供します。
実際、ビデオの「コンテキストを書き出す」ことには、文字起こし、キャプション作成、要約などのタスクが含まれます。10分間の安全トレーニングビデオを例に考えてみましょう。コンテキストエンジニアリングされたパイプラインは、まず話された会話を文字起こしし、主要な視覚的イベントを説明します。Twelve LabsのモデルであるPegasus(ビデオネイティブな言語モデル)を使用して、各シーンの要約やコメンタリーを生成することができます。本質的に、Pegasusは「何が起きているか」を自然言語で書き出します(誰が、いつ、どこで、何をしているか)。これにより、ビデオのセマンティック(意味的)なナラティブが作成されます。この書き出されたコンテキストが、その後のQ&Aや検索タスクの基礎となります。これは単純なタグよりもはるかに豊かで、ビデオコンテンツそのものに細かく適合しています。
極めて重要なのは、コンテキストの書き出しがプレーンテキストに限定されないという点です。私たちはしばしば構造化出力を採用します。例えば、生の文字起こしの代わりに、システムは以下のようなフィールドを持つJSONドキュメントを生成する場合があります:{"scene": 5, "timestamp": "02:15", "description": "赤いジャケットを着た人が道路を走り、車が近づいてくる。"}。これはAIエージェントにとって遥かに有益です。このような構造化されたコンテキストのパッケージングは、余計なノイズを排除し、整理された知識をモデルに提供します。LlamaIndexチームが強調しているように、構造化データフォーマット(JSONやXMLなど)は、指示、ビデオ的事実、メタデータなどのコンテキスト要素を論理的に分離し、モデルが混乱することなくそれらを解析するのに役立ちます。この例では、ビデオのJSONベースのタイムラインがあれば、AIは「赤いジャケットを着た人が現れたとき、何が起きましたか?」と尋ねられた際、すぐにシーン5を特定することができます。
十分に整理されたテキストとしてコンテキストを書き出すことで、その後のすべてのアクションの舞台が整います。これはAIが推論を行うための「グラウンドトゥルース(正解データ)」を確立します。当社のモデルを利用しているクライアントは、この柱を大いに活用しています:
例えば、Marengo(当社のマルチモーダル埋め込みモデル)は、生のビデオクリップをマルチモーダル埋め込み(セマンティックな意味を捉える「書き出された」コンテキストの数値表現)に変換します。これらの埋め込みにより、後から強力な検索が可能になります。
一方、Pegasusはクリップのテキスト要約を即座に生成することができ、本質的にオンデマンドでコンテキストを書き出します。
これらを組み合わせることで、ビデオ内の重要な詳細が生の映像に埋もれたままになるのを防ぎ、すべてビデオAI製品が利用できる言葉やベクトルとして抽出されます。

1.2 - Select Context(コンテキストを選択する)
ビデオ情報を「書き出した」後でも、通常はモデルが一度に処理できる量をはるかに超えるコンテキストが手元に残ることになります。1時間のビデオを文字起こしすることを想定してください。その文字起こしは数万語に及ぶ可能性があります。そのすべてをLLMに入力することは非効率的(あるいは、コンテキストウィンドウの制限から不可能)です。ここで登場するのが、Select Contextです。手元のタスクに最も関連性の高いコンテキスト情報のみを選択する戦略です。
コンテキストの選択は、本質的にはインテリジェントなフィルタリングまたは検索ステップです。ユーザーのクエリや特定のAIのタスクが与えられると、システムは重要なビデオデータの一部分を抽出し、それ以外を無視する必要があります。例えば、アナリストが「容疑者が部屋に入ってきたのはいつで、何と言っていますか?」と尋ねた場合、システムはビデオ全体の文字起こしを丸ごと投入するのではなく、関連するシーン(容疑者が入ってくる場面)とそれに関連する文字起こしのセリフを抽出して選択する必要があります。言い換えれば、書き出されたコンテキスト(第1の柱から得られたもの)を知識ベースとして扱い、意味論的(セマンティック)に問い合わせるのです。
Twelve LabsのモデルであるMarengoは、この柱のために特化して構築されています。Marengoはビデオ、オーディオ、テキストの埋め込みを作成し、それらを共通のベクトル空間に配置します。これにより、ビデオコンテンツに対するセマンティック検索が可能になります。Marengoを使用することで、当社のシステムは自然言語のクエリを受け取り、最もよく類似するビデオセグメントや説明文を検索できます。あなたが「選手がバク宙をして喜んでいるゴールシーン」と尋ねると、たとえ明示的なタグが存在しなくても、当社の検索APIはサッカー選手がそのバク宙パフォーマンスを行っているクリップを表面化させることができます。私たちは本質的に、AIに干し草の山から針を見つけ出すための目を与えたのです。
コンテキストの選択は、基本的な検索にとどまらず、エージェント型ワークフローにおける動的なフィルタリングも含みます。当社の開発中のエージェントであるJockeyは、API呼び出しを通じて自律的にコンテキストを収集できます。例えば、スポーツのハイライトを作成する際、興奮度スコアや注目選手に基づいてゲームのイベントをフィルタリングします。このアプローチはモデルに対するノイズを大幅に削減し、LangChainチームが指摘している点である「LLMは提供された情報のみを元に推論できる」という課題に対処します。最も関連性の高いビデオセグメントのみを選択することで、ハルシネーションを防ぎ、精度を高めることができます。これはRAGの核心的な原則に従っています:より良い選択が、より良い結果をもたらす。具体的な実装については、ビデオRAGに関するWeaviateのチュートリアルを参照してください。

1.3 - Compress Context(コンテキストを圧縮する)
ビデオの最も関連性の高い部分を選択した後でも、依然としてデータが多すぎる、あるいは冗長すぎる場合があります。Compress Contextは、情報の重要な意味を損なうことなく、モデルの入力限界に収まり、処理しやすくなるよう情報を凝縮する戦略です。圧縮は、要約、抽象化、またはエンコーディングによって行われます。
警察のボディカメラ映像を例に考えてみましょう:ある事件の前後5分間の映像があるとします。重要な事実を強調することで、このコンテキストを圧縮できます。Twelve LabsのPegasusモデルは、この役割を頻繁に担います。長いビデオセグメントを入力として受け取り、主要なポイントを押さえた短いあらすじを生成できます。例えば、その5分間の映像に対する3文の要約は次のようになります:「警察官が夜間に停車中の車に接近。赤いジャケットを着た容疑者は緊張している様子でシートの下に手を伸ばす。警察官は後退し、応援を無線で要請。」この要約は、長さこそ元の映像のほんの一部ですが、推論に必要な極めて重要な詳細を維持しています。
ビデオシステムでコンテキストを圧縮する方法はいくつかあります:
Summarization(要約): 前述のように、ビデオ言語モデルを使用してビデオ入力を要約または説明します。
Temporal compression(時間的圧縮): 重複するフレームをドロップするか、連続する瞬間をより高レベルのイベントにマージします。(例:連続したアクションの10フレームを、1つの「アクションが継続している」という説明に圧縮する。)
Modality filtering(モダリティフィルタリング): 他のモダリティがほとんど情報を付加しない場合、特定のモダリティに集中します。(例:講義ビデオにおいてほとんどの情報が音声によって伝達される場合、すべての視覚的詳細を説明するのをやめ、実質的にあまり役に立たないモダリティを無視することでコンテキストを圧縮する。)
コンテキストの圧縮は、人間の映像編集者がハイライト動画を作る際に行う「本質的な瞬間を凝縮し、それ以外を破棄する」行為とよく似ています。MLSEとの当社の取り組みでは、試合映像を自動的に主要なイベントへと抽出することでこの原則を示し、ハイライト作成において98%の効率化を達成し、編集時間を16時間からわずか9分に短縮しました。技術的な観点から見ると、反復的な要約(各チャプターを要約し、さらにそれらの要約をもう一度要約する)などの圧縮技術は、モデルのトークン制限を克服するのに役立ちます。LlamaIndexが指摘しているように、検索結果をプロンプトに追加する前に要約することは、コンテキスト制限内に収めるのに有効です。クライアントのパイプラインにおいて、Pegasusは中間的な発見事項を要約して「情報を伝えるシグナル対トークン」の比率を最大化し、モデルが最も関連性の高い情報だけを受け取るようにします。
1.4 - Isolate Context(コンテキストを分離する)
第4の柱である Isolate Context は、コンテキストを構造化し隔離することで、モデルが混乱しないようにすることです。複雑なビデオタスクには、往々にして複数の情報源や複数の推論ステップが含まれます。すべてを1つの巨大な塊としてまとめて流し込むと、モデルが圧倒されたり、無関係な情報を混ぜ合わせてしまったりすることがあります。コンテキストの隔離とは、異なる種類のコンテキストやプロセスの異なる段階をコンパートメント化(区分け)することを意味します。
コンテキストを分離するには、いくつかの側面があります:
情報源またはタイプによる分離: さまざまなコンテキストタイプを個別に維持します。例えば、システムプロンプト(AI向けの「ルール」)はビデオコンテンツデータから分離されます。同様に、視覚的な説明は会話の文字起こしデータと分けて保持される場合があります。これは構造化プロンプト(JSONセクションや特殊なトークンなど)を使用して、例えば
"scene_description": ...と"speech_transcript": ...を明確に区切ることで実現できます。このような分離により、モデルが例えば動画の視覚的説明をユーザーが実際に発言した内容だと解釈してしまうような事態を防ぐことができます。これにより明確さが向上します。時間的な分離: ビデオの前のセグメントのコンテキストが、次のセグメントに混入して混乱を引き起こさないようにします。以前のシーンのすべての詳細を引き継ぐ代わりに、新しいシーンに移行する際にコンテキストを要約またはリセット(「エピソード記憶」)することがあります。本質的に、各シーンやチャプターは、それらを繋ぐ凝縮された要約を除いて、単独で隔離して処理します。このアプローチにより、処理中のコンテキストをビデオの現在の瞬間に関連するものだけに絞り込みます。
エージェント内でのステップ分離: 複数ステップにわたるツールの呼び出しや推論を行う、Jockeyのようなエージェントにおいて、私たちは各ステップのコンテキストを分離します。例えば、Jockeyは「Planner-Worker-Reflector(計画担当-作業担当-評価担当)」アーキテクチャを使用しています。Plannerは、全体の高いレベルの目標と進捗の概要のみを確認し(生のビデオの詳細からは隔離されます)、一方でWorkerは分析する必要がある特定のビデオセグメントを確認します(ほかのセグメントからは隔離されます)。各ステップの後、Reflectorが全体の状態を更新する場合があります。各コンポーネントが見るものを隔離することで、たとえば、プランニング(企画)のロジックが低レベルのフレームデータに気を取られたり、分析ステップが全体計画に混乱されたりするシナリオを回避します。各パーツは必要なコンテキストのみを受け取ります。

元図の改変:https://manus.im/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus
分離は、明確さとパフォーマンス最適化の双方を強化します。静的なコンテキスト(指示、ツールの定義など)と動的なコンテキスト(観察結果、クエリなど)を分離することで、キャッシュ効率を維持し、コストを削減します。キャッシュされたトークンは、キャッシュされていないトークンの約10倍安くなる場合があります(Manusが明らかにした知見)。このアプローチにより、無関係な情報間の混信を防ぎ、より確実でデバッグしやすい動作を生み出します。エラーが発生した際、それぞれのコンポーネントが隔離されているため、問題が指示、ビデオデータ、あるいはツールの結果のどれに起因したものかを素早く特定できます。本質的に、コンテキストの隔離は「各個撃破(分割統治)」の哲学に従っています。問題の各側面に、それぞれクリーンで焦点を絞った独自のコンテキストを割り当て対抗するのです。
2 - ビデオコンテキストエンジニアリングの高度な戦略
上記の4つの柱は基礎を提供しますが、本当に堅牢なビデオAIシステムを構築するには、その上に高度な技術を重ねる必要があります。このセクションでは、Twelve Labsがビデオ理解を次のレベルへと押し上げるために採用している最先端の戦略を探ります:短期メモリと長期メモリのアーキテクチャ、ツールの編成を伴う動的検索、そして構造化されたコンテキストパッケージングです。これらのアプローチにより、当社の基盤モデルは単発のクエリを処理するだけでなく、時間の経過とともに理解を維持し、その場で適応し、外部システムとシームレスに連携できるようになります。
2.1 - メモリ構造:短期メモリと長期メモリ

図の引用元:https://langchain-ai.github.io/langgraph/concepts/memory/
人間と同じように、AIシステムも短期の「作業」メモリと長期の知識ベースの両方を持つことで恩恵を受けます。これはビデオエージェントにとって特に重要です。ビデオは数時間の長さになることがあり(以前のシーンの記憶が必要)、またAIは複数のビデオやセッションにわたって知識を蓄積する必要がある場合もあります。私たちはメモリを次の2つのタイプに分類しています:
短期メモリ: これは、現在のセッションまたは現在のビデオに関する一時的なメモリです。チャットボットの文脈では、短期メモリは最近の会話履歴となりますが、ビデオの場合は、現在のシーンで何が起きていたか、またはそれまでのビデオの実行中の要約などがこれに該当します。短期メモリは頻繁に更新され、通常はモデルのコンテキストウィンドウに直接収まります。よく使われる技術の1つに、スライディングウィンドウ要約があります。これは、モデルがクリップごと、あるいはシーンごとにビデオを処理する際、直前の数分間の継続的な要約を保持し、直前に何が起きたかという文脈を見失わないようにするものです。他の例としては、ユーザーが同じビデオについて追加の質問をした際に、ユーザーの直前の質問とAIの直前の回答を覚えていることが挙げられます。
長期メモリ: これは即時のコンテキストウィンドウの外側に保存され、必要に応じて呼び出し可能な、永続的な知識を指します。ビデオ理解において、長期メモリには、例えば映画の前半に出てきたキャラクターや場所に関する事実のインデックス(ベクトルデータベースに保存される)、あるいはエージェントが過去に処理したビデオからのメタデータなどが含まれます。また、累積的な学習を意味することもあります。例えば、監視カメラを監視するエージェントが、数週間にわたって特定の場所の典型的な活動プロファイルを構築するような場合です。長期メモリはデータベースや埋め込みを介して実装されることが多く、例えば Twelve Labs は、テレビシリーズの全シーンを埋め込んでそのベクトル表現を保存することができます。新しいエピソードを分析する際、以前登場したキャラクターの背景情報が必要になったら、エージェントはそのベクトルストアに問い合わせて、過去のエピソードから関連するコンテキストを検索できます。
実際、Marengo + Pegasus は当社のビデオエージェントにメモリ階層を提供します。Marengoのベクトル埋め込みは長期メモリとして機能し、過去のすべてのビデオデータを埋め込んで後から検索できるようにします。ビデオに関する要約や対話を行う能力を備えた Pegasus は、短期メモリを処理します。例えば、増分要約やメモを通じて、ビデオで現在何が起きているかを追跡します。当社のエージェント Jockey は、これら両方を使いこなすように設計されています。Jockey は長期のベクトルメモリから検索(リトリーブ)することができ(例:「過去にこの人物が映ったすべての監視映像クリップを見つける」)、同時に目の前のタスクのローカルな状態を維持することもできます(「このクリップでこれまでに何が見つかったか」)。

私たちが検討している新しいアイデアに、複数のコンテキストレイヤーを維持するためのメモリスタックを構築することがあります(FactoryのContext Stackから着想を得ています)。直前のレイヤーには現在のシーンの詳細や最近のやり取りが含まれ、中間および深いレイヤーには、シーンの要約から過去のビデオの検索可能なデータベースまで、段階的に歴史的な情報が格納されます。すべてのメモリを一度にモデルに詰め込んで圧倒するのではなく、戦略的な検索ルールを適用したいと考えています:直前のコンテキストは常に含め、要約は選択的に含め、長期メモリからのターゲットを絞った検索は必要な場合にのみ行います。このアプローチは動的な要約によってトークンの使用を最適化し、本質的な意味を保持しながら古い情報を圧縮します。これは人間のメモリの自然な「固定化」プロセスに似ています。
本質的に、短期メモリは単一のビデオや会話を理解する上での一貫性(コヒーレンス)をモデルに与え、長期メモリは時間とデータを越えた連続性を提供します。両者のバランスを取ることが極めて重要です。新たなベストプラクティス(LlamaIndexのメモリモジュールのようなフレームワークに反映されています)では、長期的な情報にはベクトルストアを使い、短期的な履歴にはその場での要約を使用することが推奨されています。Twelve Labs の製品はこれらの考えを取り入れているため、ビデオAIがビデオシーンに関する質問に答えたり、複数のビデオからストーリーボードを生成したりする際にも、時間が経過してもコンテキストを見失うことはありません。
2.2 - Dynamic Retrieval(動的検索)と Tool Orchestration(ツール統制)
高度なビデオエージェントは、目の前にあるものをただ受動的に分析するだけでなく、必要に応じて積極的にさらに多くのコンテキストを探し出すことができます。これが動的検索(Dynamic Retrieval)の考え方です。エージェントは実行中に、追加情報が必要であると判断し、ツールやAPIを介してそれを取得します。これと調和して、エージェントは複雑なタスクを達成するために、複数のツールやAI呼び出しを調整するツールオーケストレーション(Tool Orchestration)を行います。どちらも、ビデオ理解の制約のない性質に対処するために極めて重要です。
例えば、ビデオエージェントが監視カメラの映像を監視していて、見慣れない顔を見つけたというシナリオを想定してみましょう。静的なシステムであれば、単に「不審な人物を検出しました」と言うだけかもしれません。しかし、動的検索を備えたエージェントであれば、エンティティ検索サービスを呼び出すか、監視リストのデータベースを検索することを決定できます。それは本質的に追加の不随質問を投げかけます:「この人は誰ですか? 彼女/彼に関するコンテキストを取得させてください」。適切なツールに接続されていれば、以下のような結果を返すことができます。「この人物は従業員のジョン・ドウであると思われ、最後にカメラで確認されたのは3日前です。」 これにより、エージェントは外部の知識でコンテキストを豊かにすることができました。ある意味で、ビデオ内で当初利用可能だった範囲を越えて、コンテキストを拡張したのです。

図の引用元:https://www.twelvelabs.io/blog/video-intelligence-is-going-agentic
当社の現在のビデオエージェントフレームワークである Jockey は、この能動的なツールの使用という原則に基づいて構築されています。Jockey は Planner-Worker-Reflector アーキテクチャを使用しており、Planner は各ステップで呼び出すべきツールを決定できます。ビデオパイプラインにおいて、ツールには Marengo を使用したセマンティックビデオ検索、Pegasus を使用したビデオ要約、そして ffmpeg を使用したクリップのトリミングと結合などが含まれます。オーケストレーター(Planner)は、本質的に「ユーザーの目標や現在のサブタスクを考慮した時、私に不足しているコンテキストは何か、そしてそれを取得できるツールはどれか?」と判断します。これは、Letta や LangGraph などの最新のLLMエージェントフレームワークがツールを処理する方法と似ています。つまり、ツールを動的に引き込める便利なコンテキストの拡張機能として扱うのです。
このすべての動的検索とツール実行は、エージェントのコンテキストウィンドウに統合し戻される必要があります。ツールからの情報は(通常は構造化された方法で)プロンプトの一部になります。LLMエージェントの分野における重要な設計パターンの1つが、メモリによるツール拡張です。ツールが何か結果を返すたびに、その結果はモデルが今後考慮できるように会話コンテキストに追加されます。これにより、エージェントの知識がステップバイステップで増強されるループが形成されます。

元図の改変:https://lilianweng.github.io/posts/2023-06-23-agent/
要約すると、動的検索とツール使用は、ビデオAIシステムを受動的な回答者から能動的な問題解決者に変えます。これは、何かが当面のコンテキストに存在しない場合、システムが自主的にそれを取得しに行けることを保証します。その結果、精度と多用途性が向上し、エージェントが自分の出力をセルフチェックできるため、未回答(「わかりません」という返答)やハルシネーションを減らすことができます。このアプローチは、ビデオエージェント研究の最新成果と密接に一致しています(例えば、ビデオ分析の中に検索を統合したスタンフォード大学の「VideoAgent」や、OmAgentのマルチモーダルRAG+推論技術など)。Twelve Labsは、ビデオエージェントをコンテキストを意識し、ツールを装備し、状況に適応できるようにすることで、このフロンティアを切り拓いています。
2.3 - 構造化されたコンテキストパッケージング
コンテキストエンジニアリングにおける最も強力でありながら時には見落とされがちな戦略の1つは、コンテキストをどのようにフォーマット(記述化)するかです。これについては先ほどの「コンテキストを書き出す」でも触れましたが、さらに深く掘り下げる価値があります。構造化され、スキーマに従った記述フォーマットでコンテキストを提供することは、特に複雑なビデオデータにおいて、エージェントの処理パフォーマンスを大幅に向上させることができます。型のない自由形式のメモ情報をプロンプトに大量流し込む代わりに、私たちは簡潔かつ曖昧さのない方法でコンテキストをパッケージ化します。
Pegasusに対する次の2つのプロンプトの違いを考えてみてください:
非構造化(自由書式): 「質問: 2:15に何が起きましたか? 答え:」
構造化(JSON):
{"scene": "02:15-02:45", "characters": ["Alice", "Bob"], "actions": ["アリスが部屋に入ってくる", "ボブが驚いた顔をする"], "question": "2:15に何が起きましたか?"}
構造化バージョンでは、Pegasusは入力のどの部分がコンテキストで、どの部分が実際の質問なのかを推測する必要がありません。これらが明確にラベル付けされているからです。また、重要な情報(登場人物や行動)を圧縮された形式で事前に入手できます。これによりモデルにかかる認知的な負荷が軽減され、答えへと正しく誘導されます。業界のベストプラクティスが示すように、構造化されたフォーマット(明確なフィールドを持つJSONなど)を使用し、メタデータ(タイムスタンプや話者ラベルなど)を含めることは非常に効果的です。これはモデルに論理的推論のためのシグナルを与え、回答の根拠をグラウンディングさせるのに役立ちます。

Twelve Labsにとって、構造化パッケージングは非常に自然にフィットします。なぜなら、ビデオデータは本来、時間やモダリティによって構造化されているものだからです。私たちはしばしば、コンテキストをタイムライン、リスト、またはマップとして表現します:
ビデオにおけるイベントのタイムライン(タイムコードと説明を含む)。
シーン内で検出されたオブジェクトや人物のリスト。
会話の方向性のマップ(誰がいつ話したか)。
検索されたクリップのタグやベクトルIDのセット。
この種のデータ構造を提供することで、私たちは生のテキストの塊ではなく、アウトラインやナレッジグラフをモデルに提供していることになります。これにより、精度が劇的に向上することがあります。例えば、Pegasusにビデオの要約を生成するように依頼する際、まずビデオの各シーンの構造化された内訳を提供することがあります。これにより、Pegasusはビデオをセグメント化されたコンテキストとして「知る」ことができ、最終的な要約の中でそれぞれの重要な部分を確実にカバーできるようになります。これは、執筆者にエッセイのアウトラインを渡すようなものです。
もう1つの利点は、構造化された入力によって出力を制御できることです。もしモデルが特定のフォーマット(イベントの構造化JSONなど)で出力する必要がある場合、同様の構造化された方式で入力コンテキストを提供することで、期待される形式を意識させることができます。当社のエージェント Jockey のインターフェースでは、タイムスタンプやサムネイルを用いて結果を表示することがよくありますが、舞台裏では、Jockey の推論に構造化コンテキストが含まれているため、「timestamp」: 値のペアを簡単に参照できます。

要約すると、構造化コンテキストパッケージングとは、情報を明示的かつ効率的に扱うことです。明示的であるとは、情報の各ピースが持つ役割を明確に示すこと(モデルに推測させないこと)を意味します。効率的であるとは、コンテキストをデータ構造に変換して冗長性を排除し、重要キーフィールドに焦点を当てることで圧縮することを意味します。これはプロダクションレベルの技術です。経験豊富なAIエンジニアは、コンテキストの組み立てを、まるでモデルに対するAPIコントラクト(入出力仕様)を設計するように扱います。モデルの理解度を最大化するために、どのフィールドを含めるか、それらをどう命名するか、どのような順序で配置するかを綿密に実設計します。Twelve Labsはこのフィロソフィーを製品に直接組み込んでいるため、開発者はビデオコンテキストを乱雑なテキストの絡まりのまま放置せず、構造化された方法で整形することができます。
3 - アプリケーションと将来の展望
3.1 - コンテキスト中心のビデオAIのアプリケーション
これまで議論してきた技術は、単なる机上の空論ではありません。これらはさまざまな業界で、ビデオAIの実世界のブレークスルーを可能にしています。しかし、コンテキストは万能の解決策ではありません。それはあなたがシステムにどのように認識させ、行動させたいかに形作られる、ユースケース固有のものです。「完璧な」コンテキストというものは存在せず、自社のタスクにとって理にかなうコンテキストが存在するだけです。Twelve Labsではこの点を理解しています。メディア制作であれ、公共安全であれ、広告であれ、私たちは一般的な完全性ではなく、ユースケースの目標に沿ってコンテキストをエンジニアリングします。以下の事例を見ると、実用的な目的に合わせてコンテキストエンジニアリングが調整されていること、そして、そうしたテーラリング(個別最適化)こそが、単なるモデル規模やプロンプト細工ではなく、戦略的でタスクに適合したコンテキスト設計を持つ次世代のビデオAIプラットフォームを実定義していることがお分かりいただけるでしょう。
メディアおよびエンターテインメント
スポーツのハイライト作成をもう一度振り返ってみましょう。これは、コンテキストが領域(ドメイン)の技術的な理解と、ユーザーが意図しているストーリー(ナラティブ)の認識の双方をどのように融合させるべきかを示す好例です。大手スポーツフランチャイズ(MLSE)の事例では、当社のエージェントベースのビデオシステムが、技術的なコンテキスト(ゲームの構成、選手のメタデータ、タイムスタンプ)と、ユーザーから提供されたナラティブ(ストーリーテリング)のコンテキスト(希望するストーリーや編集ディレクション)を組み合わせることで、16時間の手作業による編集ワークフローを、9分間の自動化プロセスへと一変させました。このシステムは単に瞬間を検出したのではなく、ユーザーの創造的な入力とゲーム自体のダイナミクスに基づいて、ハイライト動画に何を含めるべきか、それをどういう順序で並べるべきかを真に「理解」して構築しました。
これはスポーツだけに留まりません。映画の予告編、ニュース映像のモンタージュ、TikTokスタイルの長尺ビデオ要約でも同じアプローチが考えられます。鍵となるのは、映像の中の「何が重要か」をただ知ることではなく、作成中のアウトプットにおいてなぜ重要なのかを理解することです。すなわち、コンテキストエンジニアリングは以下の問いへの答えでなければなりません:「このコンテンツを通じて、私たちは何を達成しようとしているのか?」 これが明確になって初めて、AIは適切な順序でのストーリー進行、タイムスタンプや引用を明確にした事実精度、制作企画書で要求されたトーンやテンポの調和など、物語としての一貫性を保つ(あるいは強制する)能力を発揮できます。
また、メディア企業はマルチモーダル構築の検索についても模索しています。これは膨大なアーカイブの中から、例えば「特定のセリフを言いながら、特定の行動が行われているシーン」をピンポイントで見つけ出す技術です。ビデオネイティブなコンテキスト検索を用いることで、クリップを骨の折れる手作業で永遠にタグ付けし続けることなく、これを実現できるようになります。
公共安全とセキュリティ
事件や事故を検知するために、街中の数多くのCCTV(防犯カメラ)を監視する課題を考えてください。コンテキストエンジニアリングを施されたビデオAIは、完璧な記憶を持つ、決して眠らない観察者として機能します。長期的なコンテキストを維持できるため、システムは同じ人物が数日間にわたって異なる場所に現れたことを検知できます(ストーカー行為の兆候や、行方不明者の目撃を速やかに警告フラグします)。ツールと検索機能のオーケストレーションにより、顔画像と要注意人物リストの照合、車両のナンバープレートとデータベースとの照合を、リアルタイムで行うことができます。例えば、「午後3時に赤いジャケットを着た人物が不審な荷物を放置した。この人物は2時間前にも駅のカメラの近くで確認されている」といったアラートを出すことができます。

ビデオAIは、複数の防犯カメラ映像や外部のデータ(既知の容疑者リストなど)から動的にそのコンテキストを組み立てました。公共安全の専門機関は、AIアシスタントがライブ映像から刻一刻と変化する状況を要約し(例:「カメラ5:群衆が集まり、抗議活動のようなデモの動きを形成している」)、緊急指令員の業務を支援するシステムの試験運用を進めています。この信頼性はプロセスの透明性によって担保されています。AIは要約の根拠となったクリップを正確に示すことができるため、人間がそれを確認して即時に行動に移すことができます。コンテキストエンジニアリングに支えられたこのレベルの状況認識は、救急対応や対処の迅速化を促し、結果として多くの人命を救うことに直接繋がります。
広告とマーケティング
広告の世界では、配置環境(コンテキスト)こそが命です。適切なコンテキストに適切な広告を配置することで、エンゲージメントは倍増します。ビデオAIはコンテンツを非常に深く分析できます。単に「これは料理ビデオです」というレベルだけでなく、「このビデオのトーンはノスタルジックで、アウトドアでの家族の風景を特徴としています」といった細部まで理解します。このような深い解釈により、感情的またはテーマ的に共鳴する広告(例えば、家族向けミニバンの広告など)を絶妙にマッチングさせることができます。

さらに、ブランド各社はビデオAIをコンテンツ作成に利用することができます。例えば、長尺の商業撮影映像から、それぞれ異なる製品機能に焦点を合わせて編集した複数の短いソーシャルメディア向けクリップを自動生成することができます。Jockeyのようなエージェントは、30分の製品デモ用ビデオを受け取り、コンテキスト情報を手がかりに各テーマが現れる箇所を特定して、30秒のテーマ別クリップシリーズ(デザインに焦点を当てたもの、性能に焦点を当てたものなど)に素早く分割編集できます。
マーケティング分析の分野では、競合他社のすべてのYouTube広告をAIに視聴させ、主要なメッセージやビジュアル要素を要約したレポートを作成させることができます。これは、これまではインターンが膨大な時間をかけて骨を折って行っていた作業です。コンテキストエンジニアリングによるビデオ理解により、AIは次のような構造化データを出力できます。例えば、すべての分析対象動画について「ブランドロゴが表示されたタイムスタンプ、スローガンが発言された箇所、製品が提示された場所」のJSONファイルなどを生成し、より高次の戦略的意思決定に直接役立てることができます。
要するに、今後の広告プラットフォームの主流となるのは、コンテンツを真に視聴して理解するAIであり、これにより大幅な広告配置のスマート化と、自動化されたスケールメリット型コンテンツ生成が実現します。
これらの事例はまだまだ序の口にすぎません。その他の分野として、教育(例:生徒の過去の学習履歴というコンテキストを理解したAIチューターが組み立てるパーソナライズされたビデオ授業)、医療(患者データのコンテキストを意識した上で、執刀医にガイダンスを提供するための手術・手技ビデオ分析)、および法務(事件に関わる証拠動画全体のコンテキストを保ちながら、数時間におよぶ証言録取動画から矛盾点や決定的瞬間を迅速に抽出するシステム)など、適用できる領域は無数に存在します。
3.2 - マルチモーダル・インテリジェンスの未来

今後のマルチモーダル・ビデオインテリジェンスの未来は、非常にスリリングな展開を予感させます。私たちは以下のような変化を予測しています:
先読みしてニーズを予測するエージェント(Flow-aware agents): 優秀な人間のアシスタントと同じように、ビデオエージェントはフローティング意識的(Flow-aware)な計画プロセスを使用して、あなたが次に尋ねるであろうことや必要とすることを予測します。例えば、ハイライトを編集中に、エージェントはあなたが現在のクリップを確認している間に、先回りして次に重要になりそうなクリップのコンテキスト収集を開始します。これには、長期メモリの延長線上にある、ユーザー個人の好みや傾向を学習する「コンテキスト対応のメタ学習」が必要です。時間の経過とともにエージェントは最適化され、あなたが何をもって「見どころ(ハイライト)」と判断するかを実体験を通じて学習し、それに合わせてコンテキスト検索を微調整します。
モダリティのさらに深い統合(マルチモーダル・オーケストレーション): 未来のビデオAIは、テキスト、音声、映像、そして生成されたメディアさえもシームレスに調和させます。エージェントはビデオ内の重要なイベントを検出し、テキストの文脈を使ってそれを推論し、そして音声による解説を付けた数秒のビデオ要約を瞬時に生成します。これは、コンテキストに既存のデータだけでなく、生成されたコンテキスト(音のないCCTVクリップに対して合成されたナレーション音声など)も含むことを意味します。オーケストレーションにおいて、コンテキストから新たにビジュアルを作り出すこともあります(「この細部にズームして鮮明化せよ」といった指示に対し、超解像モデルを使って低解像度のフレームから高解像度の画像を生成するなど)。エージェントは本質的に映画監督となり、複数のAIという「役者」たちを編成します。そして、コンテキストエンジニアリングが、すべてを調和させるための「脚本」として機能するのです。
高次元の推論とセルフリフレクション(自己分析): コンテキストシステムが成熟するにつれて、エージェントは自分自身のコンテキスト構築プロセスを自己評価することに長けていきます。彼らは自問するようになります:「私は十分な情報を持っているだろうか? 私が持つコンテキストに誤解を招く記述や欠落がある可能性はないだろうか?」 例えば、エージェントは次のようにフラグを立てることができます。「この動画を要約しましたが、該当のシーンが非常に乱雑だったため正確性に確信が持てません。その部分を人が再確認しますか?」 このようなエージェント自身のメタ認知(自己への認識)は、自分のコンテキストの限界を分きまえていることで、さらなる信頼獲得へと繋がります。技術的には、エージェントがコンテキストに照らして自身の出力を評価(検証)するためにLLMを使用したり、不確実な場合に追加のコンテキストを自律的に要求したりすることが含まれます。私たちは、こうした兆候を研究(テキストにおけるSelfCheckGPTなど)の初期調査から見て取ることができ、やがてビデオエージェントにも同様に適用されると考えています。
最後に、なぜ私たちがコンテキストエンジニアリングを、次世代ビデオAIの決定的な能力になると提言するのでしょうか。それは、オープンソースモデルの性能向上やクローズドAPIの使用コスト低下によって、モデル自体がまもなくコモディティ化しつつあるからです。本当の差は、それらのモデルをどれほど効果的に統合・運用できるかという実力に移ります。これは他社が容易に真似できない持続的なアドバンテージです。競合が新しい最新モデルを構築するより、独自に磨き上げられたコンテキストパイプライン(自社データ、ビジネスに沿ったワークフロー、長年の実地最適化)を真似して再現することの方が遥かに困難です。Twelve Labsはこの点を確信しています。だからこそ、ビデオ理解アプリケーションを迅速に構築するための、他とは画一する独自のツール群を提供しています。これらのツールを導入すれば、当社の定義する4つの柱や高度な戦略をすぐに活用できます。私たちは、開発者がコンテキスト管理を一から再発明することに時間を費やすのではなく、本来のアプリケーション機能のイノベーション追求に集中してほしいと考えています。まず始めに、当社のMCPサーバーを参照してください。
結論
ビデオ理解は、未加工の数百万ピクセルに巨大なAIモデルをただ力まかせに投げ込むだけで解決するものではありません。そのピクセルの周辺に横たわるコンテキストを精密にエンジニアリングすることによってこそ解決します。何が重要かを書き出し、適切なタイミングで適切なピースを選択し、賢明に圧縮し、明確にするために情報をきれいに分離することです。メモリを搭載し、ツールを能動的に検索して利用し、最高の明確さを出すためにデータを構造化することによってこそ実現します。そして、すべてを継続して検証・評価することで、システムをさらに信頼し継続的に改善できます。これこそが、洪水のように押し寄せるビデオデータを、頭痛の種から絶好の価値創出のチャンスへと変化させる手法です。
Twelve Labsでは、コンテキストに技術投資の焦点を集中させることで、基礎研究を行っている研究者から、実際のプロダクション(商用運用)でこれらをスケールさせているMLエンジニアまで、未来を築くすべてのデベロッパーのために、ビデオAIが真に稼働する仕組み作りに邁進します。ビデオにおけるコンテキストエンジニアリングこそ、私たちの進むべき進路を示す北極星であり、それこそが次のビデオインテリジェンスの時代の灯河になると確信しています。
本投稿の作成を支援し、コメント、フィードバック、および有益な提言を寄せてくれた Twelve Labs の同僚(Ryan Khurana、Jin-Tan Ruan、および Yoon Kim)に深く感謝します。また、この記事に彩りを添える素晴らしいグラフィックを制作してくれた Sean Barclay と Jieyi Lee にも最大級の謝意を表します。
TLDR: ビデオ理解アプリケーションを確実に機能させるための鍵は、モデルの大規模化だけでなく、コンテキストエンジニアリングです。
コンテキストの問題: LLMの失敗のほとんどは、モデルの性能が低いからではなく、不十分、古い、または不適切にフォーマットされたコンテキストに起因しています。
ビデオコンテキストエンジニアリングの4つの柱:
Write Context(コンテキストを書き出す): ビデオを設定ベースの説明的な、マシンが処理可能なテキスト、構造化データ、またはベクトル埋め込みに変換します。
Select Context(コンテキストを選択する): セマンティック検索やフィルタリングを通じて、特定のタスクに最も関連性の高いコンテキスト情報のみを選択します。
Compress Context(コンテキストを圧縮する): 重要な意味を損なうことなく、要約や抽象化によって情報を凝縮します。
Isolate Context(コンテキストを分離する): 異なる情報源の間でモデルが混乱するのを防ぐために、コンテキストを構造化し隔離します。
高度な戦略:
短期的な「作業」メモリと長期的な知識ベースを組み合わせたメモリ構造
必要な時、動的に追加のコンテキストをアクティブに探し出すツールによる「動的検索」
明確で曖昧さのない形式(JSONなど)によるコンテキストの「構造化パッケージング」
実世界でのアプリケーション: これらの技術は、スポーツのハイライト自動作成、監視カメラビデオ解析、コンテンツ連動型広告を強力にサポートし、手作業を減らしながら精度を向上させます。
今後の方向性: モデルがコモディティ化するにつれて、競争力の源源は、単なるモデルの処理能力ではなく、コンテキストがいかに効果的に設計(エンジニアリング)されているかになります。
はじめに
例えば、LLMに自社の返品ポリシーについて質問すると、存在しないルールを自信満々にでっち上げることがあります。また、RAGシステムに前四半期の収益を尋ねると、2019年の予測に関する全く無関係な文書を提示してくることがあります。これらはモデルの論理的思考の失敗ではありません(多くのLLMは論理や数値を問題なく処理できます)。これはコンテキストの失敗なのです。
同じLLMでも、適切なコンテキストが与えられれば、でっち上げをやめて非の打ち所がないほど正確になります。実際の返品ポリシー、顧客の注文履歴、現在の在庫状況を提供してみると、突然正確でパーソナライズされたサポートを提供し始めます。これがコンテキストエンジニアリングです。不足しているデータや乱雑なデータを補うために巧妙なプロンプトに頼るのではなく、LLMにどのような情報を与え、それをどのように構造化するかを体系的に設計することです。
実稼働しているLLMの失敗のほとんどは、モデルの性能が低いからではなく、不十分、古い、あるいはフォーマットが不適切なコンテキストに起因しています。それにもかかわらず、開発チームはコンテキストパイプラインを後回しにしながら、プロンプトの微調整ばかりに夢中になりがちです。コンテキストを第一級のエンジニアリング課題として扱い、動的検索、構造化抽出、インテリジェントなフィルタリングのためのシステムを構築することで、信頼性の低いデモを、ユーザーが本当に信頼できる製品へと変えることができます。
Twelve Labsでは、この原則をビデオに適用し、独自の洞察を得ています。ビデオは単に物体や言葉が存在するだけでなく、シーケンス(順序)を通じた意味が重要です。映画製作者たちはこれをクレショフ効果と呼びます。視聴者は単一のカットからではなく、カットがどのように並べられているかによって感情的な解釈を引き出します。同じ無表情な顔の後に、異なる映像(スープのボウル、棺桶、女性)を配置すると、その顔から感じ取られる感情が全く変わってしまうのです。
私たちのプラットフォームは、単にモデルのサイズを拡張するだけでなく、時間的な順序を意味に含めることでビデオコンテキストをエンジニアリングします。モデルが「何を見るか」、そして「どのような順序で見るか」を厳選し構造化することで、ハルシネーション(もっともらしい嘘)や誤解を軽減します。その結果、より正確で根拠のある出力が得られ、ビデオ内の時間的な流れを考慮した本物のストーリーを反映した回答となるため、ユーザーが信頼できるシステムが実現します。

この投稿の残りでは、Twelve Labsがビデオコンテキストエンジニアリングをどのようにビデオに適用しているかを、「ビデオコンテキストエンジニアリングの4つの柱」、高度なメモリおよび検索戦略、そしてそれによって実現可能になるアプリケーションを通じて解説します。そのゴールは、より大きなモデルだけでなく、コンテキストこそが次世代のビデオインテリジェンスを定義する理由を解き明かすことです。
1 - ビデオコンテキストエンジニアリングの4つの柱
コンテキストとは、ビデオ内の生の情報を裏付け、有意義な解釈を可能にするものです。どんな理解も、空白の中(コンテキストなし)では生まれません。静的なフレームの連続や文字起こしだけでは、適切なフレーミングがなければ、ストーリー、意図、あるいは因果関係を伝えることはできません。
だからこそ、Twelve LabsのビデオAIは単にピクセルを処理するだけでなく、コンテキストをエンジニアリングします。私たちは、これを4つの基本的な柱(LangChainチームによって詳細に解説されているもの)を通じて行っています:Write Context(書き出す)、Select Context(選択する)、Compress Context(圧縮する)、そしてIsolate Context(分離する)です。これらの柱は、ビデオデータを体系的に構造化、フィルタリング、凝縮、コンパートメント化(区分け)し、モデルが効果的に推論できるようにするための手法を表しています。以下では、各柱がビデオパイプラインにおいてどのように実装されているか、具体的な例を挙げて説明します。

元図の改変:https://blog.langchain.com/context-engineering-for-agents/
1.1 - Write Context(コンテキストを書き出す)
第1の柱は、Write Context、すなわちビデオを設定記述的な、マシンが処理可能な情報へと変換することです。これは多くの場合、文字通りビデオの生のモダリティ(画像、音声)から、テキスト、構造化データ、またはベクトル埋め込みへとコンテキストを書き出すことを意味します。このテキストのコンテキストを生成することで、モデルにピクセル以外の処理可能な素材を提供します。
実際、ビデオの「コンテキストを書き出す」ことには、文字起こし、キャプション作成、要約などのタスクが含まれます。10分間の安全トレーニングビデオを例に考えてみましょう。コンテキストエンジニアリングされたパイプラインは、まず話された会話を文字起こしし、主要な視覚的イベントを説明します。Twelve LabsのモデルであるPegasus(ビデオネイティブな言語モデル)を使用して、各シーンの要約やコメンタリーを生成することができます。本質的に、Pegasusは「何が起きているか」を自然言語で書き出します(誰が、いつ、どこで、何をしているか)。これにより、ビデオのセマンティック(意味的)なナラティブが作成されます。この書き出されたコンテキストが、その後のQ&Aや検索タスクの基礎となります。これは単純なタグよりもはるかに豊かで、ビデオコンテンツそのものに細かく適合しています。
極めて重要なのは、コンテキストの書き出しがプレーンテキストに限定されないという点です。私たちはしばしば構造化出力を採用します。例えば、生の文字起こしの代わりに、システムは以下のようなフィールドを持つJSONドキュメントを生成する場合があります:{"scene": 5, "timestamp": "02:15", "description": "赤いジャケットを着た人が道路を走り、車が近づいてくる。"}。これはAIエージェントにとって遥かに有益です。このような構造化されたコンテキストのパッケージングは、余計なノイズを排除し、整理された知識をモデルに提供します。LlamaIndexチームが強調しているように、構造化データフォーマット(JSONやXMLなど)は、指示、ビデオ的事実、メタデータなどのコンテキスト要素を論理的に分離し、モデルが混乱することなくそれらを解析するのに役立ちます。この例では、ビデオのJSONベースのタイムラインがあれば、AIは「赤いジャケットを着た人が現れたとき、何が起きましたか?」と尋ねられた際、すぐにシーン5を特定することができます。
十分に整理されたテキストとしてコンテキストを書き出すことで、その後のすべてのアクションの舞台が整います。これはAIが推論を行うための「グラウンドトゥルース(正解データ)」を確立します。当社のモデルを利用しているクライアントは、この柱を大いに活用しています:
例えば、Marengo(当社のマルチモーダル埋め込みモデル)は、生のビデオクリップをマルチモーダル埋め込み(セマンティックな意味を捉える「書き出された」コンテキストの数値表現)に変換します。これらの埋め込みにより、後から強力な検索が可能になります。
一方、Pegasusはクリップのテキスト要約を即座に生成することができ、本質的にオンデマンドでコンテキストを書き出します。
これらを組み合わせることで、ビデオ内の重要な詳細が生の映像に埋もれたままになるのを防ぎ、すべてビデオAI製品が利用できる言葉やベクトルとして抽出されます。

1.2 - Select Context(コンテキストを選択する)
ビデオ情報を「書き出した」後でも、通常はモデルが一度に処理できる量をはるかに超えるコンテキストが手元に残ることになります。1時間のビデオを文字起こしすることを想定してください。その文字起こしは数万語に及ぶ可能性があります。そのすべてをLLMに入力することは非効率的(あるいは、コンテキストウィンドウの制限から不可能)です。ここで登場するのが、Select Contextです。手元のタスクに最も関連性の高いコンテキスト情報のみを選択する戦略です。
コンテキストの選択は、本質的にはインテリジェントなフィルタリングまたは検索ステップです。ユーザーのクエリや特定のAIのタスクが与えられると、システムは重要なビデオデータの一部分を抽出し、それ以外を無視する必要があります。例えば、アナリストが「容疑者が部屋に入ってきたのはいつで、何と言っていますか?」と尋ねた場合、システムはビデオ全体の文字起こしを丸ごと投入するのではなく、関連するシーン(容疑者が入ってくる場面)とそれに関連する文字起こしのセリフを抽出して選択する必要があります。言い換えれば、書き出されたコンテキスト(第1の柱から得られたもの)を知識ベースとして扱い、意味論的(セマンティック)に問い合わせるのです。
Twelve LabsのモデルであるMarengoは、この柱のために特化して構築されています。Marengoはビデオ、オーディオ、テキストの埋め込みを作成し、それらを共通のベクトル空間に配置します。これにより、ビデオコンテンツに対するセマンティック検索が可能になります。Marengoを使用することで、当社のシステムは自然言語のクエリを受け取り、最もよく類似するビデオセグメントや説明文を検索できます。あなたが「選手がバク宙をして喜んでいるゴールシーン」と尋ねると、たとえ明示的なタグが存在しなくても、当社の検索APIはサッカー選手がそのバク宙パフォーマンスを行っているクリップを表面化させることができます。私たちは本質的に、AIに干し草の山から針を見つけ出すための目を与えたのです。
コンテキストの選択は、基本的な検索にとどまらず、エージェント型ワークフローにおける動的なフィルタリングも含みます。当社の開発中のエージェントであるJockeyは、API呼び出しを通じて自律的にコンテキストを収集できます。例えば、スポーツのハイライトを作成する際、興奮度スコアや注目選手に基づいてゲームのイベントをフィルタリングします。このアプローチはモデルに対するノイズを大幅に削減し、LangChainチームが指摘している点である「LLMは提供された情報のみを元に推論できる」という課題に対処します。最も関連性の高いビデオセグメントのみを選択することで、ハルシネーションを防ぎ、精度を高めることができます。これはRAGの核心的な原則に従っています:より良い選択が、より良い結果をもたらす。具体的な実装については、ビデオRAGに関するWeaviateのチュートリアルを参照してください。

1.3 - Compress Context(コンテキストを圧縮する)
ビデオの最も関連性の高い部分を選択した後でも、依然としてデータが多すぎる、あるいは冗長すぎる場合があります。Compress Contextは、情報の重要な意味を損なうことなく、モデルの入力限界に収まり、処理しやすくなるよう情報を凝縮する戦略です。圧縮は、要約、抽象化、またはエンコーディングによって行われます。
警察のボディカメラ映像を例に考えてみましょう:ある事件の前後5分間の映像があるとします。重要な事実を強調することで、このコンテキストを圧縮できます。Twelve LabsのPegasusモデルは、この役割を頻繁に担います。長いビデオセグメントを入力として受け取り、主要なポイントを押さえた短いあらすじを生成できます。例えば、その5分間の映像に対する3文の要約は次のようになります:「警察官が夜間に停車中の車に接近。赤いジャケットを着た容疑者は緊張している様子でシートの下に手を伸ばす。警察官は後退し、応援を無線で要請。」この要約は、長さこそ元の映像のほんの一部ですが、推論に必要な極めて重要な詳細を維持しています。
ビデオシステムでコンテキストを圧縮する方法はいくつかあります:
Summarization(要約): 前述のように、ビデオ言語モデルを使用してビデオ入力を要約または説明します。
Temporal compression(時間的圧縮): 重複するフレームをドロップするか、連続する瞬間をより高レベルのイベントにマージします。(例:連続したアクションの10フレームを、1つの「アクションが継続している」という説明に圧縮する。)
Modality filtering(モダリティフィルタリング): 他のモダリティがほとんど情報を付加しない場合、特定のモダリティに集中します。(例:講義ビデオにおいてほとんどの情報が音声によって伝達される場合、すべての視覚的詳細を説明するのをやめ、実質的にあまり役に立たないモダリティを無視することでコンテキストを圧縮する。)
コンテキストの圧縮は、人間の映像編集者がハイライト動画を作る際に行う「本質的な瞬間を凝縮し、それ以外を破棄する」行為とよく似ています。MLSEとの当社の取り組みでは、試合映像を自動的に主要なイベントへと抽出することでこの原則を示し、ハイライト作成において98%の効率化を達成し、編集時間を16時間からわずか9分に短縮しました。技術的な観点から見ると、反復的な要約(各チャプターを要約し、さらにそれらの要約をもう一度要約する)などの圧縮技術は、モデルのトークン制限を克服するのに役立ちます。LlamaIndexが指摘しているように、検索結果をプロンプトに追加する前に要約することは、コンテキスト制限内に収めるのに有効です。クライアントのパイプラインにおいて、Pegasusは中間的な発見事項を要約して「情報を伝えるシグナル対トークン」の比率を最大化し、モデルが最も関連性の高い情報だけを受け取るようにします。
1.4 - Isolate Context(コンテキストを分離する)
第4の柱である Isolate Context は、コンテキストを構造化し隔離することで、モデルが混乱しないようにすることです。複雑なビデオタスクには、往々にして複数の情報源や複数の推論ステップが含まれます。すべてを1つの巨大な塊としてまとめて流し込むと、モデルが圧倒されたり、無関係な情報を混ぜ合わせてしまったりすることがあります。コンテキストの隔離とは、異なる種類のコンテキストやプロセスの異なる段階をコンパートメント化(区分け)することを意味します。
コンテキストを分離するには、いくつかの側面があります:
情報源またはタイプによる分離: さまざまなコンテキストタイプを個別に維持します。例えば、システムプロンプト(AI向けの「ルール」)はビデオコンテンツデータから分離されます。同様に、視覚的な説明は会話の文字起こしデータと分けて保持される場合があります。これは構造化プロンプト(JSONセクションや特殊なトークンなど)を使用して、例えば
"scene_description": ...と"speech_transcript": ...を明確に区切ることで実現できます。このような分離により、モデルが例えば動画の視覚的説明をユーザーが実際に発言した内容だと解釈してしまうような事態を防ぐことができます。これにより明確さが向上します。時間的な分離: ビデオの前のセグメントのコンテキストが、次のセグメントに混入して混乱を引き起こさないようにします。以前のシーンのすべての詳細を引き継ぐ代わりに、新しいシーンに移行する際にコンテキストを要約またはリセット(「エピソード記憶」)することがあります。本質的に、各シーンやチャプターは、それらを繋ぐ凝縮された要約を除いて、単独で隔離して処理します。このアプローチにより、処理中のコンテキストをビデオの現在の瞬間に関連するものだけに絞り込みます。
エージェント内でのステップ分離: 複数ステップにわたるツールの呼び出しや推論を行う、Jockeyのようなエージェントにおいて、私たちは各ステップのコンテキストを分離します。例えば、Jockeyは「Planner-Worker-Reflector(計画担当-作業担当-評価担当)」アーキテクチャを使用しています。Plannerは、全体の高いレベルの目標と進捗の概要のみを確認し(生のビデオの詳細からは隔離されます)、一方でWorkerは分析する必要がある特定のビデオセグメントを確認します(ほかのセグメントからは隔離されます)。各ステップの後、Reflectorが全体の状態を更新する場合があります。各コンポーネントが見るものを隔離することで、たとえば、プランニング(企画)のロジックが低レベルのフレームデータに気を取られたり、分析ステップが全体計画に混乱されたりするシナリオを回避します。各パーツは必要なコンテキストのみを受け取ります。

元図の改変:https://manus.im/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus
分離は、明確さとパフォーマンス最適化の双方を強化します。静的なコンテキスト(指示、ツールの定義など)と動的なコンテキスト(観察結果、クエリなど)を分離することで、キャッシュ効率を維持し、コストを削減します。キャッシュされたトークンは、キャッシュされていないトークンの約10倍安くなる場合があります(Manusが明らかにした知見)。このアプローチにより、無関係な情報間の混信を防ぎ、より確実でデバッグしやすい動作を生み出します。エラーが発生した際、それぞれのコンポーネントが隔離されているため、問題が指示、ビデオデータ、あるいはツールの結果のどれに起因したものかを素早く特定できます。本質的に、コンテキストの隔離は「各個撃破(分割統治)」の哲学に従っています。問題の各側面に、それぞれクリーンで焦点を絞った独自のコンテキストを割り当て対抗するのです。
2 - ビデオコンテキストエンジニアリングの高度な戦略
上記の4つの柱は基礎を提供しますが、本当に堅牢なビデオAIシステムを構築するには、その上に高度な技術を重ねる必要があります。このセクションでは、Twelve Labsがビデオ理解を次のレベルへと押し上げるために採用している最先端の戦略を探ります:短期メモリと長期メモリのアーキテクチャ、ツールの編成を伴う動的検索、そして構造化されたコンテキストパッケージングです。これらのアプローチにより、当社の基盤モデルは単発のクエリを処理するだけでなく、時間の経過とともに理解を維持し、その場で適応し、外部システムとシームレスに連携できるようになります。
2.1 - メモリ構造:短期メモリと長期メモリ

図の引用元:https://langchain-ai.github.io/langgraph/concepts/memory/
人間と同じように、AIシステムも短期の「作業」メモリと長期の知識ベースの両方を持つことで恩恵を受けます。これはビデオエージェントにとって特に重要です。ビデオは数時間の長さになることがあり(以前のシーンの記憶が必要)、またAIは複数のビデオやセッションにわたって知識を蓄積する必要がある場合もあります。私たちはメモリを次の2つのタイプに分類しています:
短期メモリ: これは、現在のセッションまたは現在のビデオに関する一時的なメモリです。チャットボットの文脈では、短期メモリは最近の会話履歴となりますが、ビデオの場合は、現在のシーンで何が起きていたか、またはそれまでのビデオの実行中の要約などがこれに該当します。短期メモリは頻繁に更新され、通常はモデルのコンテキストウィンドウに直接収まります。よく使われる技術の1つに、スライディングウィンドウ要約があります。これは、モデルがクリップごと、あるいはシーンごとにビデオを処理する際、直前の数分間の継続的な要約を保持し、直前に何が起きたかという文脈を見失わないようにするものです。他の例としては、ユーザーが同じビデオについて追加の質問をした際に、ユーザーの直前の質問とAIの直前の回答を覚えていることが挙げられます。
長期メモリ: これは即時のコンテキストウィンドウの外側に保存され、必要に応じて呼び出し可能な、永続的な知識を指します。ビデオ理解において、長期メモリには、例えば映画の前半に出てきたキャラクターや場所に関する事実のインデックス(ベクトルデータベースに保存される)、あるいはエージェントが過去に処理したビデオからのメタデータなどが含まれます。また、累積的な学習を意味することもあります。例えば、監視カメラを監視するエージェントが、数週間にわたって特定の場所の典型的な活動プロファイルを構築するような場合です。長期メモリはデータベースや埋め込みを介して実装されることが多く、例えば Twelve Labs は、テレビシリーズの全シーンを埋め込んでそのベクトル表現を保存することができます。新しいエピソードを分析する際、以前登場したキャラクターの背景情報が必要になったら、エージェントはそのベクトルストアに問い合わせて、過去のエピソードから関連するコンテキストを検索できます。
実際、Marengo + Pegasus は当社のビデオエージェントにメモリ階層を提供します。Marengoのベクトル埋め込みは長期メモリとして機能し、過去のすべてのビデオデータを埋め込んで後から検索できるようにします。ビデオに関する要約や対話を行う能力を備えた Pegasus は、短期メモリを処理します。例えば、増分要約やメモを通じて、ビデオで現在何が起きているかを追跡します。当社のエージェント Jockey は、これら両方を使いこなすように設計されています。Jockey は長期のベクトルメモリから検索(リトリーブ)することができ(例:「過去にこの人物が映ったすべての監視映像クリップを見つける」)、同時に目の前のタスクのローカルな状態を維持することもできます(「このクリップでこれまでに何が見つかったか」)。

私たちが検討している新しいアイデアに、複数のコンテキストレイヤーを維持するためのメモリスタックを構築することがあります(FactoryのContext Stackから着想を得ています)。直前のレイヤーには現在のシーンの詳細や最近のやり取りが含まれ、中間および深いレイヤーには、シーンの要約から過去のビデオの検索可能なデータベースまで、段階的に歴史的な情報が格納されます。すべてのメモリを一度にモデルに詰め込んで圧倒するのではなく、戦略的な検索ルールを適用したいと考えています:直前のコンテキストは常に含め、要約は選択的に含め、長期メモリからのターゲットを絞った検索は必要な場合にのみ行います。このアプローチは動的な要約によってトークンの使用を最適化し、本質的な意味を保持しながら古い情報を圧縮します。これは人間のメモリの自然な「固定化」プロセスに似ています。
本質的に、短期メモリは単一のビデオや会話を理解する上での一貫性(コヒーレンス)をモデルに与え、長期メモリは時間とデータを越えた連続性を提供します。両者のバランスを取ることが極めて重要です。新たなベストプラクティス(LlamaIndexのメモリモジュールのようなフレームワークに反映されています)では、長期的な情報にはベクトルストアを使い、短期的な履歴にはその場での要約を使用することが推奨されています。Twelve Labs の製品はこれらの考えを取り入れているため、ビデオAIがビデオシーンに関する質問に答えたり、複数のビデオからストーリーボードを生成したりする際にも、時間が経過してもコンテキストを見失うことはありません。
2.2 - Dynamic Retrieval(動的検索)と Tool Orchestration(ツール統制)
高度なビデオエージェントは、目の前にあるものをただ受動的に分析するだけでなく、必要に応じて積極的にさらに多くのコンテキストを探し出すことができます。これが動的検索(Dynamic Retrieval)の考え方です。エージェントは実行中に、追加情報が必要であると判断し、ツールやAPIを介してそれを取得します。これと調和して、エージェントは複雑なタスクを達成するために、複数のツールやAI呼び出しを調整するツールオーケストレーション(Tool Orchestration)を行います。どちらも、ビデオ理解の制約のない性質に対処するために極めて重要です。
例えば、ビデオエージェントが監視カメラの映像を監視していて、見慣れない顔を見つけたというシナリオを想定してみましょう。静的なシステムであれば、単に「不審な人物を検出しました」と言うだけかもしれません。しかし、動的検索を備えたエージェントであれば、エンティティ検索サービスを呼び出すか、監視リストのデータベースを検索することを決定できます。それは本質的に追加の不随質問を投げかけます:「この人は誰ですか? 彼女/彼に関するコンテキストを取得させてください」。適切なツールに接続されていれば、以下のような結果を返すことができます。「この人物は従業員のジョン・ドウであると思われ、最後にカメラで確認されたのは3日前です。」 これにより、エージェントは外部の知識でコンテキストを豊かにすることができました。ある意味で、ビデオ内で当初利用可能だった範囲を越えて、コンテキストを拡張したのです。

図の引用元:https://www.twelvelabs.io/blog/video-intelligence-is-going-agentic
当社の現在のビデオエージェントフレームワークである Jockey は、この能動的なツールの使用という原則に基づいて構築されています。Jockey は Planner-Worker-Reflector アーキテクチャを使用しており、Planner は各ステップで呼び出すべきツールを決定できます。ビデオパイプラインにおいて、ツールには Marengo を使用したセマンティックビデオ検索、Pegasus を使用したビデオ要約、そして ffmpeg を使用したクリップのトリミングと結合などが含まれます。オーケストレーター(Planner)は、本質的に「ユーザーの目標や現在のサブタスクを考慮した時、私に不足しているコンテキストは何か、そしてそれを取得できるツールはどれか?」と判断します。これは、Letta や LangGraph などの最新のLLMエージェントフレームワークがツールを処理する方法と似ています。つまり、ツールを動的に引き込める便利なコンテキストの拡張機能として扱うのです。
このすべての動的検索とツール実行は、エージェントのコンテキストウィンドウに統合し戻される必要があります。ツールからの情報は(通常は構造化された方法で)プロンプトの一部になります。LLMエージェントの分野における重要な設計パターンの1つが、メモリによるツール拡張です。ツールが何か結果を返すたびに、その結果はモデルが今後考慮できるように会話コンテキストに追加されます。これにより、エージェントの知識がステップバイステップで増強されるループが形成されます。

元図の改変:https://lilianweng.github.io/posts/2023-06-23-agent/
要約すると、動的検索とツール使用は、ビデオAIシステムを受動的な回答者から能動的な問題解決者に変えます。これは、何かが当面のコンテキストに存在しない場合、システムが自主的にそれを取得しに行けることを保証します。その結果、精度と多用途性が向上し、エージェントが自分の出力をセルフチェックできるため、未回答(「わかりません」という返答)やハルシネーションを減らすことができます。このアプローチは、ビデオエージェント研究の最新成果と密接に一致しています(例えば、ビデオ分析の中に検索を統合したスタンフォード大学の「VideoAgent」や、OmAgentのマルチモーダルRAG+推論技術など)。Twelve Labsは、ビデオエージェントをコンテキストを意識し、ツールを装備し、状況に適応できるようにすることで、このフロンティアを切り拓いています。
2.3 - 構造化されたコンテキストパッケージング
コンテキストエンジニアリングにおける最も強力でありながら時には見落とされがちな戦略の1つは、コンテキストをどのようにフォーマット(記述化)するかです。これについては先ほどの「コンテキストを書き出す」でも触れましたが、さらに深く掘り下げる価値があります。構造化され、スキーマに従った記述フォーマットでコンテキストを提供することは、特に複雑なビデオデータにおいて、エージェントの処理パフォーマンスを大幅に向上させることができます。型のない自由形式のメモ情報をプロンプトに大量流し込む代わりに、私たちは簡潔かつ曖昧さのない方法でコンテキストをパッケージ化します。
Pegasusに対する次の2つのプロンプトの違いを考えてみてください:
非構造化(自由書式): 「質問: 2:15に何が起きましたか? 答え:」
構造化(JSON):
{"scene": "02:15-02:45", "characters": ["Alice", "Bob"], "actions": ["アリスが部屋に入ってくる", "ボブが驚いた顔をする"], "question": "2:15に何が起きましたか?"}
構造化バージョンでは、Pegasusは入力のどの部分がコンテキストで、どの部分が実際の質問なのかを推測する必要がありません。これらが明確にラベル付けされているからです。また、重要な情報(登場人物や行動)を圧縮された形式で事前に入手できます。これによりモデルにかかる認知的な負荷が軽減され、答えへと正しく誘導されます。業界のベストプラクティスが示すように、構造化されたフォーマット(明確なフィールドを持つJSONなど)を使用し、メタデータ(タイムスタンプや話者ラベルなど)を含めることは非常に効果的です。これはモデルに論理的推論のためのシグナルを与え、回答の根拠をグラウンディングさせるのに役立ちます。

Twelve Labsにとって、構造化パッケージングは非常に自然にフィットします。なぜなら、ビデオデータは本来、時間やモダリティによって構造化されているものだからです。私たちはしばしば、コンテキストをタイムライン、リスト、またはマップとして表現します:
ビデオにおけるイベントのタイムライン(タイムコードと説明を含む)。
シーン内で検出されたオブジェクトや人物のリスト。
会話の方向性のマップ(誰がいつ話したか)。
検索されたクリップのタグやベクトルIDのセット。
この種のデータ構造を提供することで、私たちは生のテキストの塊ではなく、アウトラインやナレッジグラフをモデルに提供していることになります。これにより、精度が劇的に向上することがあります。例えば、Pegasusにビデオの要約を生成するように依頼する際、まずビデオの各シーンの構造化された内訳を提供することがあります。これにより、Pegasusはビデオをセグメント化されたコンテキストとして「知る」ことができ、最終的な要約の中でそれぞれの重要な部分を確実にカバーできるようになります。これは、執筆者にエッセイのアウトラインを渡すようなものです。
もう1つの利点は、構造化された入力によって出力を制御できることです。もしモデルが特定のフォーマット(イベントの構造化JSONなど)で出力する必要がある場合、同様の構造化された方式で入力コンテキストを提供することで、期待される形式を意識させることができます。当社のエージェント Jockey のインターフェースでは、タイムスタンプやサムネイルを用いて結果を表示することがよくありますが、舞台裏では、Jockey の推論に構造化コンテキストが含まれているため、「timestamp」: 値のペアを簡単に参照できます。

要約すると、構造化コンテキストパッケージングとは、情報を明示的かつ効率的に扱うことです。明示的であるとは、情報の各ピースが持つ役割を明確に示すこと(モデルに推測させないこと)を意味します。効率的であるとは、コンテキストをデータ構造に変換して冗長性を排除し、重要キーフィールドに焦点を当てることで圧縮することを意味します。これはプロダクションレベルの技術です。経験豊富なAIエンジニアは、コンテキストの組み立てを、まるでモデルに対するAPIコントラクト(入出力仕様)を設計するように扱います。モデルの理解度を最大化するために、どのフィールドを含めるか、それらをどう命名するか、どのような順序で配置するかを綿密に実設計します。Twelve Labsはこのフィロソフィーを製品に直接組み込んでいるため、開発者はビデオコンテキストを乱雑なテキストの絡まりのまま放置せず、構造化された方法で整形することができます。
3 - アプリケーションと将来の展望
3.1 - コンテキスト中心のビデオAIのアプリケーション
これまで議論してきた技術は、単なる机上の空論ではありません。これらはさまざまな業界で、ビデオAIの実世界のブレークスルーを可能にしています。しかし、コンテキストは万能の解決策ではありません。それはあなたがシステムにどのように認識させ、行動させたいかに形作られる、ユースケース固有のものです。「完璧な」コンテキストというものは存在せず、自社のタスクにとって理にかなうコンテキストが存在するだけです。Twelve Labsではこの点を理解しています。メディア制作であれ、公共安全であれ、広告であれ、私たちは一般的な完全性ではなく、ユースケースの目標に沿ってコンテキストをエンジニアリングします。以下の事例を見ると、実用的な目的に合わせてコンテキストエンジニアリングが調整されていること、そして、そうしたテーラリング(個別最適化)こそが、単なるモデル規模やプロンプト細工ではなく、戦略的でタスクに適合したコンテキスト設計を持つ次世代のビデオAIプラットフォームを実定義していることがお分かりいただけるでしょう。
メディアおよびエンターテインメント
スポーツのハイライト作成をもう一度振り返ってみましょう。これは、コンテキストが領域(ドメイン)の技術的な理解と、ユーザーが意図しているストーリー(ナラティブ)の認識の双方をどのように融合させるべきかを示す好例です。大手スポーツフランチャイズ(MLSE)の事例では、当社のエージェントベースのビデオシステムが、技術的なコンテキスト(ゲームの構成、選手のメタデータ、タイムスタンプ)と、ユーザーから提供されたナラティブ(ストーリーテリング)のコンテキスト(希望するストーリーや編集ディレクション)を組み合わせることで、16時間の手作業による編集ワークフローを、9分間の自動化プロセスへと一変させました。このシステムは単に瞬間を検出したのではなく、ユーザーの創造的な入力とゲーム自体のダイナミクスに基づいて、ハイライト動画に何を含めるべきか、それをどういう順序で並べるべきかを真に「理解」して構築しました。
これはスポーツだけに留まりません。映画の予告編、ニュース映像のモンタージュ、TikTokスタイルの長尺ビデオ要約でも同じアプローチが考えられます。鍵となるのは、映像の中の「何が重要か」をただ知ることではなく、作成中のアウトプットにおいてなぜ重要なのかを理解することです。すなわち、コンテキストエンジニアリングは以下の問いへの答えでなければなりません:「このコンテンツを通じて、私たちは何を達成しようとしているのか?」 これが明確になって初めて、AIは適切な順序でのストーリー進行、タイムスタンプや引用を明確にした事実精度、制作企画書で要求されたトーンやテンポの調和など、物語としての一貫性を保つ(あるいは強制する)能力を発揮できます。
また、メディア企業はマルチモーダル構築の検索についても模索しています。これは膨大なアーカイブの中から、例えば「特定のセリフを言いながら、特定の行動が行われているシーン」をピンポイントで見つけ出す技術です。ビデオネイティブなコンテキスト検索を用いることで、クリップを骨の折れる手作業で永遠にタグ付けし続けることなく、これを実現できるようになります。
公共安全とセキュリティ
事件や事故を検知するために、街中の数多くのCCTV(防犯カメラ)を監視する課題を考えてください。コンテキストエンジニアリングを施されたビデオAIは、完璧な記憶を持つ、決して眠らない観察者として機能します。長期的なコンテキストを維持できるため、システムは同じ人物が数日間にわたって異なる場所に現れたことを検知できます(ストーカー行為の兆候や、行方不明者の目撃を速やかに警告フラグします)。ツールと検索機能のオーケストレーションにより、顔画像と要注意人物リストの照合、車両のナンバープレートとデータベースとの照合を、リアルタイムで行うことができます。例えば、「午後3時に赤いジャケットを着た人物が不審な荷物を放置した。この人物は2時間前にも駅のカメラの近くで確認されている」といったアラートを出すことができます。

ビデオAIは、複数の防犯カメラ映像や外部のデータ(既知の容疑者リストなど)から動的にそのコンテキストを組み立てました。公共安全の専門機関は、AIアシスタントがライブ映像から刻一刻と変化する状況を要約し(例:「カメラ5:群衆が集まり、抗議活動のようなデモの動きを形成している」)、緊急指令員の業務を支援するシステムの試験運用を進めています。この信頼性はプロセスの透明性によって担保されています。AIは要約の根拠となったクリップを正確に示すことができるため、人間がそれを確認して即時に行動に移すことができます。コンテキストエンジニアリングに支えられたこのレベルの状況認識は、救急対応や対処の迅速化を促し、結果として多くの人命を救うことに直接繋がります。
広告とマーケティング
広告の世界では、配置環境(コンテキスト)こそが命です。適切なコンテキストに適切な広告を配置することで、エンゲージメントは倍増します。ビデオAIはコンテンツを非常に深く分析できます。単に「これは料理ビデオです」というレベルだけでなく、「このビデオのトーンはノスタルジックで、アウトドアでの家族の風景を特徴としています」といった細部まで理解します。このような深い解釈により、感情的またはテーマ的に共鳴する広告(例えば、家族向けミニバンの広告など)を絶妙にマッチングさせることができます。

さらに、ブランド各社はビデオAIをコンテンツ作成に利用することができます。例えば、長尺の商業撮影映像から、それぞれ異なる製品機能に焦点を合わせて編集した複数の短いソーシャルメディア向けクリップを自動生成することができます。Jockeyのようなエージェントは、30分の製品デモ用ビデオを受け取り、コンテキスト情報を手がかりに各テーマが現れる箇所を特定して、30秒のテーマ別クリップシリーズ(デザインに焦点を当てたもの、性能に焦点を当てたものなど)に素早く分割編集できます。
マーケティング分析の分野では、競合他社のすべてのYouTube広告をAIに視聴させ、主要なメッセージやビジュアル要素を要約したレポートを作成させることができます。これは、これまではインターンが膨大な時間をかけて骨を折って行っていた作業です。コンテキストエンジニアリングによるビデオ理解により、AIは次のような構造化データを出力できます。例えば、すべての分析対象動画について「ブランドロゴが表示されたタイムスタンプ、スローガンが発言された箇所、製品が提示された場所」のJSONファイルなどを生成し、より高次の戦略的意思決定に直接役立てることができます。
要するに、今後の広告プラットフォームの主流となるのは、コンテンツを真に視聴して理解するAIであり、これにより大幅な広告配置のスマート化と、自動化されたスケールメリット型コンテンツ生成が実現します。
これらの事例はまだまだ序の口にすぎません。その他の分野として、教育(例:生徒の過去の学習履歴というコンテキストを理解したAIチューターが組み立てるパーソナライズされたビデオ授業)、医療(患者データのコンテキストを意識した上で、執刀医にガイダンスを提供するための手術・手技ビデオ分析)、および法務(事件に関わる証拠動画全体のコンテキストを保ちながら、数時間におよぶ証言録取動画から矛盾点や決定的瞬間を迅速に抽出するシステム)など、適用できる領域は無数に存在します。
3.2 - マルチモーダル・インテリジェンスの未来

今後のマルチモーダル・ビデオインテリジェンスの未来は、非常にスリリングな展開を予感させます。私たちは以下のような変化を予測しています:
先読みしてニーズを予測するエージェント(Flow-aware agents): 優秀な人間のアシスタントと同じように、ビデオエージェントはフローティング意識的(Flow-aware)な計画プロセスを使用して、あなたが次に尋ねるであろうことや必要とすることを予測します。例えば、ハイライトを編集中に、エージェントはあなたが現在のクリップを確認している間に、先回りして次に重要になりそうなクリップのコンテキスト収集を開始します。これには、長期メモリの延長線上にある、ユーザー個人の好みや傾向を学習する「コンテキスト対応のメタ学習」が必要です。時間の経過とともにエージェントは最適化され、あなたが何をもって「見どころ(ハイライト)」と判断するかを実体験を通じて学習し、それに合わせてコンテキスト検索を微調整します。
モダリティのさらに深い統合(マルチモーダル・オーケストレーション): 未来のビデオAIは、テキスト、音声、映像、そして生成されたメディアさえもシームレスに調和させます。エージェントはビデオ内の重要なイベントを検出し、テキストの文脈を使ってそれを推論し、そして音声による解説を付けた数秒のビデオ要約を瞬時に生成します。これは、コンテキストに既存のデータだけでなく、生成されたコンテキスト(音のないCCTVクリップに対して合成されたナレーション音声など)も含むことを意味します。オーケストレーションにおいて、コンテキストから新たにビジュアルを作り出すこともあります(「この細部にズームして鮮明化せよ」といった指示に対し、超解像モデルを使って低解像度のフレームから高解像度の画像を生成するなど)。エージェントは本質的に映画監督となり、複数のAIという「役者」たちを編成します。そして、コンテキストエンジニアリングが、すべてを調和させるための「脚本」として機能するのです。
高次元の推論とセルフリフレクション(自己分析): コンテキストシステムが成熟するにつれて、エージェントは自分自身のコンテキスト構築プロセスを自己評価することに長けていきます。彼らは自問するようになります:「私は十分な情報を持っているだろうか? 私が持つコンテキストに誤解を招く記述や欠落がある可能性はないだろうか?」 例えば、エージェントは次のようにフラグを立てることができます。「この動画を要約しましたが、該当のシーンが非常に乱雑だったため正確性に確信が持てません。その部分を人が再確認しますか?」 このようなエージェント自身のメタ認知(自己への認識)は、自分のコンテキストの限界を分きまえていることで、さらなる信頼獲得へと繋がります。技術的には、エージェントがコンテキストに照らして自身の出力を評価(検証)するためにLLMを使用したり、不確実な場合に追加のコンテキストを自律的に要求したりすることが含まれます。私たちは、こうした兆候を研究(テキストにおけるSelfCheckGPTなど)の初期調査から見て取ることができ、やがてビデオエージェントにも同様に適用されると考えています。
最後に、なぜ私たちがコンテキストエンジニアリングを、次世代ビデオAIの決定的な能力になると提言するのでしょうか。それは、オープンソースモデルの性能向上やクローズドAPIの使用コスト低下によって、モデル自体がまもなくコモディティ化しつつあるからです。本当の差は、それらのモデルをどれほど効果的に統合・運用できるかという実力に移ります。これは他社が容易に真似できない持続的なアドバンテージです。競合が新しい最新モデルを構築するより、独自に磨き上げられたコンテキストパイプライン(自社データ、ビジネスに沿ったワークフロー、長年の実地最適化)を真似して再現することの方が遥かに困難です。Twelve Labsはこの点を確信しています。だからこそ、ビデオ理解アプリケーションを迅速に構築するための、他とは画一する独自のツール群を提供しています。これらのツールを導入すれば、当社の定義する4つの柱や高度な戦略をすぐに活用できます。私たちは、開発者がコンテキスト管理を一から再発明することに時間を費やすのではなく、本来のアプリケーション機能のイノベーション追求に集中してほしいと考えています。まず始めに、当社のMCPサーバーを参照してください。
結論
ビデオ理解は、未加工の数百万ピクセルに巨大なAIモデルをただ力まかせに投げ込むだけで解決するものではありません。そのピクセルの周辺に横たわるコンテキストを精密にエンジニアリングすることによってこそ解決します。何が重要かを書き出し、適切なタイミングで適切なピースを選択し、賢明に圧縮し、明確にするために情報をきれいに分離することです。メモリを搭載し、ツールを能動的に検索して利用し、最高の明確さを出すためにデータを構造化することによってこそ実現します。そして、すべてを継続して検証・評価することで、システムをさらに信頼し継続的に改善できます。これこそが、洪水のように押し寄せるビデオデータを、頭痛の種から絶好の価値創出のチャンスへと変化させる手法です。
Twelve Labsでは、コンテキストに技術投資の焦点を集中させることで、基礎研究を行っている研究者から、実際のプロダクション(商用運用)でこれらをスケールさせているMLエンジニアまで、未来を築くすべてのデベロッパーのために、ビデオAIが真に稼働する仕組み作りに邁進します。ビデオにおけるコンテキストエンジニアリングこそ、私たちの進むべき進路を示す北極星であり、それこそが次のビデオインテリジェンスの時代の灯河になると確信しています。
本投稿の作成を支援し、コメント、フィードバック、および有益な提言を寄せてくれた Twelve Labs の同僚(Ryan Khurana、Jin-Tan Ruan、および Yoon Kim)に深く感謝します。また、この記事に彩りを添える素晴らしいグラフィックを制作してくれた Sean Barclay と Jieyi Lee にも最大級の謝意を表します。




