
リサーチ
ビデオインテリジェンスはエージェンティック(自律エージェント型)へ

ジェームズ・リー
Twelve LabsのJockeyは、受動的なビデオ分析から自律型ビデオインテリジェンスへの移行を象徴しています。ビデオ基盤モデルとLLMベースの推論を組み合わせることで、ユーザーは自然言語を通じて、複雑なマルチステップのワークフローにわたり、ビデオコンテンツの検索、編集、生成を行うことができます。
Twelve LabsのJockeyは、受動的なビデオ分析から自律型ビデオインテリジェンスへの移行を象徴しています。ビデオ基盤モデルとLLMベースの推論を組み合わせることで、ユーザーは自然言語を通じて、複雑なマルチステップのワークフローにわたり、ビデオコンテンツの検索、編集、生成を行うことができます。

この記事の内容
No headings found on page
ニュースレターに登録する
ニュースレターに登録する
ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします
ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします
AIを活用してビデオを検索、分析、探索します。
2025/04/04
読了時間:30分
記事へのリンクをコピー
TLDR: エージェント型ビデオ・インテリジェンスの台頭
私たちは地殻変動を目撃しています。ビデオAIは、単なる基本的な分析ツールから、文脈を理解し、コンテンツについて推論し、複雑なクリエイティブタスクを実行できる知的なコラボレーターへと進化しています。
TwelveLabsのJockeyは、単なるもう一つのAIツールではありません。私たちのビデオネイティブな基盤モデルをシンフォニーのように指揮し、混沌としたビデオワークフローを調和のとれたクリエイティブなプロセスへと変える、洗練されたオーケストレーターです。
使いにくいビデオインターフェースは忘れてください。これらの新しいビデオエージェントは、あなたの言葉を理解しながら、ビジュアルを直接操作できるようにし、ついに人間の創造性とマシンの効率性の間のギャップを埋めます。
技術的なビデオツールと格闘する日々は残りわずかです。AIアシスタントに「
最も魅力的な顧客のストーリーを見つけて」と伝えるだけで、完璧なハイライトリールが構築されるのを見る様子を想像してみてください。ビデオコンテンツに埋もれている企業にとって、これは単なるアップグレードではなく、自然な対話を通じて、圧倒的なメディアライブラリをアクセシブルで実用的な資産へと変貌させる革命です。
NotebookLMが生成したこちらの会話から、この記事を音声で聴くことができます:https://soundcloud.com/james-le-56344460/agentic-video-intelligence
1 - はじめに:ビデオ・インテリジェンスの進化
2025年、私たちはマシンがビジュアルメディアを理解し操作する方法における、根本的な転換の瀬戸際に立っています。日々、様々なプラットフォームに数十億時間ものビデオコンテンツがアップロードされる中、限られたコンテンツと定義済みのタスクの時代に向けて設計された従来の処理ツールは、時代遅れになりつつあります。このコンテンツの爆発的増加は、前例のない機会と、途方もない課題の両方を生み出しました。
ビデオ基盤モデルの登場により、私たちの能力は単純なフレームごとのビデオ分析から、高度な空間理解や時間的推論へと進化しました。しかし、生のモデル能力と現実世界のアプリケーションとの間には、依然として重要なギャップが存在しています。ここで登場するのがエージェント型ビデオ・インテリジェンス(agentic video intelligence)です。これは、受動的な分析から、ビデオコンテンツに対する能動的で目標指向のインタラクションへのパラダイムシフトを表しています。これらのシステムは、エージェントプランニングのフレームワークを通じてビデオ基盤モデルと大規模言語モデルを組み合わせ、ビデオの中に何が映っているかだけでなく、なぜそれが重要で、どのような行動をとるべきかまで理解するAIシステムを創り出します。
TwelveLabsでは、Jockeyを通じてこれらの課題に取り組んでいます。Jockeyは、専用のエージェントアーキテクチャを通じて、ビデオ基盤モデルとLLMベースの推論を組み合わせた対話型ビデオエージェントです。この記事では、エンジニアリングとデザインの両方の視点から技術的なイノベーションを検証することにより、ビデオインテリジェンスがいかにエージェント型(ジェンティック)になりつつあるかを探ります。メディア制作からスポーツのハイライト生成に至るまで、このシフトにより、これまでは不可能だったコンテンツ作成と分析への全く新しいアプローチが可能になります。次世代のビデオアプリケーションを構築する組織にとって、これは人間の創造性とマシンの効率性を組み合わせる変革の機会となります。ビデオインテリジェンスの革命は、単に近づいているだけではありません。すでにここにあります。そしてそれは、エージェント型なのです。
2 - LLM領域におけるAIエージェントの台頭
大規模言語モデル(LLM)の登場は、理解し、計画し、行動できる自律型エージェントを可能にすることで、AIに革命をもたらしました。これらのLLM搭載エージェントは、自然言語をインターフェースとして使用し、目標を理解し、高度な推論とツールの統合を通じて複雑なタスクを実行できます。この能力は、基本的なプロンプトエンジニアリングから、思考の連鎖(Chain-of-Thought)プロンプティングを活用するより高度なアプローチへと進化し、エージェントが複雑な問題を段階的に分解できるようになりました。

ソース:https://www.letta.com/blog/ai-agents-stack
Open AI Agents SDK、Letta、LangGraphのような高度なエージェントフレームワークが、信頼性の高いエージェントを構築するための重要なインフラストラクチャとして台頭してきました。これらのフレームワークは、計画、ツール統合、メモリ管理、自己内省などの重要な機能を実装しています。近代的なエージェントアーキテクチャは、認知機能を専門的なコンポーネント(戦略のためのプランナー、アクションのためのエグゼキューター、評価のためのクリティック)に分離し、ますます複雑なタスクを処理できるようにしています。
現実世界のアプリケーションにおいて、LLMエージェントは非常に適応能力が高いことが証明されています。彼らは、LLMの推論能力とドメイン固有のツールやワークフローを組み合わせることで、ソフトウェア開発やカスタマーサービスから調査の統合にいたるまで、多様なタスクを実行できます。このアーキテクチャにより、従来の自動化よりも柔軟に複雑な問題空間をナビゲートしながら、生のLLM出力よりも高い信頼性を提供することができます。

ソース:https://weaviate.io/blog/what-are-agentic-workflows#planning-pattern
この分野では、エージェントの成功を牽引するいくつかの主要なデザインパターンが特定されています。これらには、タスクの分解(目標を管理可能なステップに分割する)、再帰的推論(中間結果に論理を適用する)、ツールの拡張(APIを介して機能を拡張する)、およびヒューマン・イン・ザ・ループのコラボレーション(ユーザーフィードバックを取り入れる)が含まれます。これらのパターンは異なるドメインを横断して機能し、効果的なエージェント設計のためのコア原則を確立しています。
LLMエージェント開発から得られたこれらの知見は、ビデオインテリジェンスシステムに極めて重要な指針を与えてくれます。基盤モデルは、特定のタスク要件に沿った構造化されたアーキテクチャ内で最も効果的に機能することを示しています。また、信頼性の向上には、明確な「計画」と「振り返り(内省)」が重要であることを強調しています。最も重要なのは、最も効果的なシステムとは自動化と人間とのコラボレーションのバランスをとることであり、マシンの知能と人間の知性の両方を活用する真のパートナーシップを築いているという点です。ビデオエージェントを開発するにあたり、これらの原則は、ビジュアルメディアの理解と操作という独自の課題を乗り越える手助けとなります。
3 - ビデオエージェントの登場:新しいパラダイム
ビデオ基盤モデルとLLMベースのエージェントアーキテクチャの融合により、ビデオエージェントが誕生しました。これは、かつてない洗練された方法でビジュアルメディアを理解、操作、および推理するために独自に設計されたシステムです。これまでの前身システムとは異なり、これらのエージェントは単にビデオコンテンツを分析するだけではありません。ビジュアルナラティブ、時間的関係、およびマルチモーダルな文脈に関する専門知識を活用し、目的を持ってビデオと対話します。この新しいパラダイムは、意味理解の欠如した従来のビデオ処理パイプラインや、ビデオコンテンツに固有の複雑な時間的・空間的次元への対応に苦労する汎用AIエージェントの双方の根本的な限界を解消します。
ビデオエージェントが際立っているのは、ビデオインテリジェンス特有の課題を克服できる能力です。ビデオデータは、視覚、音声、時間的要素を組み合わせた高次元空間に存在するため、テキストや静止画に必要なものを超えた専門的な知覚能力が必要です。計算需要はビデオの長さや解像度に応じて劇的にスケールするため、アテンション(注意)とメモリに対する効率的なアプローチが必要になります。そしておそらく何よりも重要であるのは、ビデオの理解には、フレームレベルの詳細から、シーンレベルの構成、さらにはナラティブ(物語)レベルの構造にいたるまで、複数の時間スケールにわたる推論を同時に行うことが求められるという点です。これは、他のドメインではほとんど必要とされない能力です。OmAgentのようなシステムは、マルチモーダルRAGと分割統治法(divide-and-conquer)的な推論アプローチを組み合わせた革新的なアーキテクチャを通じて、これらの課題に対するソリューションの先駆けとなりました。

近年の学術的な成果によりこのシフトは加速しており、研究者たちはビデオ理解のためのエージェント型(ジェンティック)フレームワークにますます注目しています。北京大学の論文「VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding」は、メモリメカニズムがどのように時間的推論を強化できるかを示しており、スタンフォード大学による「VideoAgent: Long-form Video Understanding with Large Language Model as Agent」の研究では、長尺ビデオから関連情報を効率的に検索・集約する方法について探求しています。これらのアプローチは共通の洞察を共有しています。すなわち、すべてのビデオコンテンツを網羅的に処理するのではなく、効果的なエージェントは、何が重要であるかを推論し、関連するセグメントに選択的に注意を向け、反復的な分析を通じて動的に理解を構築していくべきであるという点です。

ソース:https://wxh1996.github.io/VideoAgent-Website/
また、LLMの推論とビデオ専用のツールを組み合わせたLAVEのような作品もあります。これらのシステムは通常、マルチモーダル特徴を抽出する知覚システム、ビデオの文脈を保存・読み出すメモリメカニズム、複雑なクエリを分解する計画モジュール、そしてビデオ処理ツールとのインターフェースとなる実行コンポーネントなど、専門的なコンポーネントを中心にワークフローを構築しています。このモジュール性により、基盤モデルの強みと、ビデオコンテンツおよび編集操作に関するドメイン固有の知識を組み合わせることができます。

ソース:https://arxiv.org/abs/2402.10294
ビデオエージェントが研究プロトタイプからプロダクションシステムへと進化するに従い、コンテンツ作成、メディア分析、および情報検索における現実世界の課題にますます対処できるようになっています。放送、映画制作、ソーシャルメディアの初期導入企業は、ハイライト生成、コンテンツモデレーション、プロモーション用クリップの作成など、従来手動で行われていたタスクを自動化するために、すでにこれらの能力を活用しています。最も先進的なシステムは、ビデオの表面的なコンテンツだけでなく、その背景にある目的、スタイル、そして叙事的な構成まで理解しつつある初期の能力を示しています。これにより、複雑なツールを操作するというよりも、知識豊富なアシスタントとコラボレーションしているかのような対話が可能になります。受動的な分析から能動的なコラボレーションへのこの移行は、おそらくマルチモーダルAIの出現以来、ビデオインテリジェンスにおける最も重要なパラダイムシフトを表しています。

4 - TwelveLabsのアプローチ:ビデオエージェントフレームワークとしてのJockey
昨年から開発が進められてきたJockeyは、ビデオインテリジェンスにおける大きな進化を象徴しています。これはTwelveLabsの核となるビデオ基盤モデルの土台の上に構築され、複雑性のギャップに対処するために不可欠なオーケストレーション層を追加したものです。その根幹として、Jockeyは当社の2つの強力なビデオネイティブモデルを活用しています。すなわち、セマンティックビデオ検索のためのMarengo 2.7と、高度なビデオ・トゥ・テキスト(動画からテキストへの変換)理解のためのPegasus 1.2です。Jockeyはこれらのモデルを置き換えるのではなく、各コンポーネントの強みに応じて認知タスクを分配するプランナー・ワーカー・リフレクター(計画・実行・内省)アーキテクチャを通じて戦略的にこれらを調整します。計画と推論にはLLMを使用し、知覚負荷の高い操作は専用のビデオモデルに委ねています。

このアーキテクチャは、ビデオインテリジェンスにおける根本的な課題を解決します。基盤モデルは知覚や推論タスクに優れていますが、複雑なワークフローのシーケンス(順序立て)に苦戦することがよくあります。Jockeyのマルチエージェント型アプローチは、詳細な実行シーケンスを作成する「プランナー」、ビデオAPIと直接やり取りする専門の「ワーカー」、そしてアクションステップを要約する「リフレクター」を実装することで、この制限に対処します。この関心事の分離により、各コンポーネントは自身が最も得意とする機能に集中できます。LLMが推論や自然言語の理解を処理し、ビデオ基盤モデルが複雑なマルチモーダル分析を管理します。
Jockeyを特に強力にしているのは、複雑な、複数ステップにわたるワークフロー全体でコンテキスト(文脈)を維持する能力です。例えばビデオのハイライト作成において、Jockeyは単純に一度の検索処理を実行するだけではありません。正確な基準に沿って検索をシーケンス化(順序化)し、結果セットを賢く組み合わせ、ユーザーの本来の意図を反映したポストプロセス(後処理)操作を適用します。システムはLangGraph上に構築されたグラフベースのフレームワークを通じて永続的な状態を維持するため、複数の操作を跨いでクリップを追跡し、細分化されたサブタスクを実行している間も全体のタスク目的を把握し続けることができます。

ソース:https://github.com/twelvelabs-io/tl-jockey/blob/main/jockey/stirrups/stirrup.py
Jockeyの設計では、本番環境への導入に不可欠な特性である適応性を優先しています。そのモジュール式アーキテクチャにより、プロンプト駆動の動作調整から全く新しいワーカーモジュールの追加にいたるまで、複数のレベルでカスタマイズが可能です。これにより、開発者はコアシステムの信頼性を維持しながら、特定のワークフローに合わせてJockeyの機能を拡張することができます。
5 - Jockeyに透明性をもたらす
効果的なビデオエージェントの作成は、一般的なLLMアプリケーションとは異なり、ビデオ操作に特有のユニークなエンジニアリング上の課題をもたらします。特に顕著な課題は、クリップの抽出や結合といった複雑な操作における、ビデオ処理パイプラインのパフォーマンス最適化です。私たちが採用したアプローチは以下の二通りです:
第一に、
base_search()、process_clips()、およびdownload_remaining()のような個別のステップを独立して処理する関数ディスパッチャーを使用した、非同期処理パイプラインの設計。第二に、インターフェースに表示される透明な「思考(Thinking)」状態を通じて、これらの処理ステージをユーザーに開示すること(詳細はセクション6を参照)。
この透明性は単なるステータスの更新に留まりません。システムがどのようにして結論に至ったかを明らかにし、各瞬間においてどの処理コンポーネントが活用されているかを示すことで、必要不可欠な信頼関係を築き上げます。

Jockeyの開発を通じて、私たちは、たとえ応答時間がわずかに長くなったとしても、自らの推論プロセスを説明してくれるシステムに対して、ユーザーがより強い信頼を寄せるようになることを学びました。この洞察は、私たちのUIデザインに根本的な影響を与えており、処理状態や、それぞれのクエリに適用されている具体的なモデルコンポーネント(Marengoの検索機能か、あるいはPegasusのコンテクスト理解か)を明示的に表示するようにしました。この透明性は、ブラックボックスなソリューションではなく、検証可能なプロセスを必要とするエンタープライズクライアントと連携する際に特に重要です。
Jockeyの将来的な拡張は、双方向思考システムとなる予定です。これはエージェントの処理ステップを表示するだけでなく、ユーザーがそれらのステップを直接修正できるようにするものです。この機能により、Jockeyは受動的なツールから、ユーザーがインタラクティブにクエリを洗練させたり(日本のカメレオンから日本のトカゲへ変更)、処理決定を検証したり、エージェントのフォーカスを方向転換させたりできる協調的パートナーへと変わります。つまり、出力をただ受け入れるのではなく、AIを「操縦(ステアリング)」できるようになるのです。このアプローチは、MLSEチームと共同で行った成果や他のエンタープライズ顧客からのフィードバックと一致しています。彼らは、ビデオコンテンツのような価値の高いクリエイティブアセットを扱う際、純粋な自動化のスピードよりも、プロセスを理解しコントロールできることを一貫して優先しています。

ソース:https://www.latent.space/p/why-mcp-won
Model Context Protocol(MCP)フレームワークは、特にサードパーティ統合を拡大していく中で、Jockeyの将来の進化に興味深い可能性をもたらします。MCPは、Jockeyのコアコンポーネントと、外部サービス、例えばビデオ生成ツール(RunwayML、Luma Labs)、オーディオ生成ソフトウェア(ElevenLabs、Suno)、さらにはシーン分割やオブジェクトトラッキング(MetaのSAM)といった高度なビデオ操作タスクとの間に、標準化された統合レイヤーを提供する可能性があります。
統合先ごとにカスタムコネクタを作成する代わりに、MCPを使用することで、ツールの呼び出し、文脈(コンテキスト)の共有、およびレスポンス処理のための統一されたインターフェースを定義できます。このアプローチは、n×m個の統合問題(n個のエージェントフレームワーク×m個のツール)を、より管理しやすいn+m個の問題へと変換し、システム拡張性を高めつつ、実装の複雑さを劇的に軽減します。
Jockeyに関して言えば、MCPはより洗練されたワークフローを可能にする可能性があります。例えば、Marengoを介して特定されたクリップを、外部の画質向上ツールへとシームレスに渡し、次にナレーション用の生成オーディオサービスへ、そして最終的に編集システムへと引き渡すことができます。これらの一連の流れを、すべてのプロセスにわたって一貫したコンテキストを維持したまま、実行できるようになります。
6 - マルチモーダルインターフェースの力
従来のビデオインターフェースは一般的に、視覚的な文脈を無視したテキストベースの検索か、またはインタラクティブな機能が最小限に抑えられたビデオプレイヤーのどちらか一つの選択をユーザーに強いてきました。 Jockeyは、対話的なインテラクションとビデオネイティブな要素を組み合わせた、根本的にマルチモーダルなインターフェースを通じてこの関係性を再定義し、片方をもう片方に無理に合わせるのではなく、両方のモダリティを第一級の市民として扱います。以下のスクリーンショットに示されているインターフェースはこのアプローチを実証しています。対話エリアが自然言語を通じてユーザーの意図を汲み取り、ビジュアルな「思考表示」がエージェントの推論プロセスを明らかにし、ビデオギャラリーがタイムスタンプや説明などの関連する文脈とともに結果を提示します。この統一された体験により、ユーザーは抽象度の高いゴール(困難を克服した人々の心に響くストーリーを探して)の表現から、ビジュアル結果へのダイレクトな操作へとシームレスに移行できます。

このアプローチを強力なものにしているのは、テキスト要素とビジュアル要素の間を流れる、双方向の情報フローです。ユーザーが自然言語のクエリを入力すると、Jockeyはテキストによる説明と、関連するビデオセグメントへの直接リンクの双方を含む回答を返し、詳細なタイムスタンプによって映像内のどこの場所でその具体的なコンセプトが出現するかを示します。この時間的アンカー(紐付け)が、Jockeyのテキスト回答と、参照されている実際のビデオコンテンツとの間に、明確な架け橋を築き上げます。
さらに、ユーザーはサムネイルを通してビデオセグメントを直接操作できるため、ナビゲーション体験が向上します。これにより、それぞれのモダリティが互いを高め合う好循環が生まれます。言語は意図を指定する際の精度を提供し、ビジュアル要素はテキストで伝えるのが非効率な豊かさと文脈を提供します。例えば、以下のスクリーンショットは、Jockeyがエージェントの思考ステップをタイムスタンプ付きのビデオセグメントの隣にどのように表示するかを示しており、ユーザーがどのようなコンテンツが見つかったかだけでなく、なぜそれが選ばれたのかを理解する手助けをします。

このインターフェースは、ビデオインタラクションに特有のいくつかの認知的な課題に対処しています。ビデオコンテンツは本質的に時間的なものであり、情報が密に詰まっているため、ユーザーがテキストで行うようにスキャンしたり、ブラウズしたり、比較したりすることが困難です。Jockeyのマルチモーダルアプローチは、複数の入口を提供することでこれらの課題を軽減します。ユーザーはサムネイルを通して視覚的にブラウズしたり、エージェントが生成した要約に目を通したり、あるいはコンセプトの説明に基づいて特定の瞬間へとパッと直接ジャンプしたりできます。これらのアプローチを組み合わせることで、インターフェースはユーザーの認知負荷を大幅に削減し、複数のビデオを同時に処理する場合でも文脈を維持できるようにします。それは、以下のスクリーンショットで、ユーザーが検索結果を確認した後に「これらのビデオをエモーショナルなトーンで要約して」と依頼している箇所で見ることができます。

最も重要なのは、このインターフェースが単なるクエリ応答パターンを超えて、真の協調的ワークスペースへと進化している点です。以下のスクリーンショットに示すエージェントの思考表示は、Jockeyが難解なタスクを リクエストの理解 や ビデオコンテキストの取得 といった個別のステップへとどのように分解するかを示しており、透明性を生み出すことでユーザーの信頼を築き、タイムリーな介入を可能にします。この透明性は、アルゴリズムの確信度(番号付きのステップを介して)と思考プロセスの両方の表示にまで及び、ユーザーがシステムへの依存度を調整し、人間の判断が必要となる場面において情報に基づいた決定を下せるようにします。ワークフローのどの時点であってもエージェントのアプローチを中断、リダイレクト、または洗練できる機能と組み合わせることで、従来のビデオインターフェースにありがちだったトランザクション(取引)的なモデルではなく、真に協調的な関係が創り出されます。

このマルチモーダルアプローチの将来の進化は、私たちが「フロー認識型の弾道(flow-aware trajectories)」と呼ぶ方向へと向かっています。これは、ユーザーのワークフローの中で生まれつつあるパターンに基づいて、ユーザーが次に行うであろうアクションを先回りして予測するインターフェースのことです(詳細はセクション8を参照)。上のスクリーンショットのエージェントによる段階的な推論に示されているように、Jockeyは会話のやり取り全体でコンテキストを維持し、これまでの対話を踏まえて構築していくことで、すでにこの方向における初期の能力を示しています。これらの能力が成熟するにつれて、インターフェースはエージェントとツールの間の境界線をますます曖昧にし、ユーザーの創造的な流れ(フロー)を損なうことなく、ニーズを先回りして予測し、代替アプローチを提案し、専門的な細部を処理する、ユーザーの創作プロセスの延長線となることでしょう。これは、単にリクエストを処理するインターフェースから、創造的かつ分析的なプロセスに主体的に貢献する、本当の意味での「共同作業者」への根本的な転換を表しています。
7 - コンテンツ作成の変革:エンタープライズメディアワークフローに向けたJockeyのビジョン
エンタープライズメディアの領域は、制作リソースが横ばいであるにもかかわらず、コンテンツへの需要が指数関数的に増加するという、前例のない課題に直面しています。マーケティングチームは、フォーマット要件や視聴者の期待値が異なる、多様な複数のプラットフォームに向けて、より多くのビデオコンテンツを制作しなければなりません。ドキュメンタリー映画の製作者は、何百時間ものフッテージ(映像素材)から関連する瞬間を見つけ出す必要があります。企業の広報部門は、グローバル市場全体で一貫したメッセージングを維持することに苦慮しています。これらのワークフローには、共通のペインポイントがあります。それらは時間がかかり、専門的なスキルを必要とし、伝統的なアプローチでは効率的にスケールしないという点です.

Jockeyのビジョンは、企業がビデオコンテンツと関わる方法を再定義することによって、これらの課題に対処します。既存のプロセスを単に自動化するのではなく、Jockeyは、その対話型インターフェースとビデオ理解機能のインテリジェントなオーケストレーションを通じて、コンテンツワークフローに新しい可能性を生み出します。例えば、製品デモンストレーションビデオを作成しているマーケティングチームは、Jockeyに対して「製品が屋外で使用されているクリップを見つけて」と指示し、次に「それらをスムーズなトランジションで編集して」と伝えることができます。この自然言語によるアプローチは、制作スピードを低下させがちな専門的な障壁を取り除き、チームが機械的な作業ではなく、創造的な決定に集中することを可能にします。
特に魅力的な用途の一つに、Jockeyが即座に価値を発揮できる、広告およびマーケティングのワークフローが挙げられます。クリエイティブチームは、ブランドメッセージやキャンペーンのテーマに合致する瞬間を特定するために、生の映像素材をレビューするのに何時間も費やすことがよくあります。Jockeyは、街中(屋外)の環境で私たちのロゴが目立つように表示されているシーンを特定して、または 製品を使って人々が興奮を表現しているクリップを見つけてといった自然言語のクエリを使って、ビデオライブラリを検索できるようにすることで、このプロセスを変革します。エージェントはMarengoのマルチモーダルな理解力を活用して関連する映像を呼び出し、Pegasusのコンテクスト認識力を駆使してそれらの瞬間をまとまりのあるシーケンスへと組み立てるため、コンセプトから完成したアセットへと至るまでの時間を劇的に削減します。

Jockeyのアプローチが持つ真のパワーは、エンド・ツー・エンド(始点から終点まで)のクリエイティブワークフローにおいて顕著に現れます。新製品の発表ビデオ制作を任された企業広報チームを例に挙げてみましょう。従来、これには絵コンテの作成、撮影、映像素材のアーカイブ整理、ラフカットの編集、グラフィックスの追加、ナレーションの収録、そして配信に向けた最終調整が必要であり、それぞれのステップごとに異なる専門家やツールが介入していました。Jockeyの目指すビジョンは、自然言語の指示を通じて、チームが関連フッテージを呼び出し、初期カットを組み立て、付随する音声を生成し、配信可能なアセットを用意できるようにすることで、これらのワークフローを統合することです。まだ初期の段階にありますが、Jockeyの開発ロードマップには、関連ツールとのサードパーティ連携を通じてこれらの機能を拡張していくことが含まれています。これにより、組織に対して技術的な制限に自らのワークフローを合わせるよう強いるのではなく、企業の要件に合わせて適応していく総合的なプラットフォームを創り出します。
8 - ビデオエージェントの未来:私たちのビジョンとロードマップ
ビデオエージェントの将来的な進化は、段階的な改善を超えて、人間がビジュアルメディアとやり取りする方法を根本的に変革する、3つの主要な原則に導かれます。Jockeyを通じて、私たちはビデオインテリジェンスが、自動化と人間による創造的な主体性のバランスを保ちつつ、ニーズを先回りして予測し、個人の好みに適応する、創造的および分析的なワークフローの自然な拡張となるようなビジョンに向かって構築を進めています。

フロー認識型の弾道(Flow-Aware Trajectories)は、クリエイティブな勢い(モーメンタム)を維持するために、ユーザーが必要とするものを数ステップ先回りして予測するシステムであり、当社の第一の指針となる原則です。実用的な場面において、これはJockeyがハイライト作成中に次に必要とされるクリップを予測し、コンテンツに基づいて適切なトランジションを提案し、ユーザーの編集パターンに沿ったラフカットを事前に組み立てることを意味します。これらの機能が成熟するにつれて、エディターはクリエイティブな作業プロセスを邪魔されることが少なくなり、システムが技術的な細部を処理している間も自らの表現の方向性を保ち続けることができます。例えば、スポーツのプロデューサーであれば、観客の反応に基づいて重要なプレイを自動的に提案し、一定のペースを維持し、ストーリーの流れを担保したハイライトパッケージをJockeyを使って作成することができ、その間プロデューサー自身は最終的な選択に関するクリエイティブな権限を握り続けることができます。

文脈的メタ学習(Contextual Meta-Learning)は、Jockeyが対話のたびに進化し、プロジェクトやセッションの違いを越えて、ユーザーの好みに関する永続的な理解を構築できるようにするものです。あらゆる操作に明確な指示を毎回求める代わりに、システムは、好まれるトランジションのスタイル、代表的なシーン構成、または一般的な編集シーケンスなど、ユーザーの行動パターンを認識し、それに応じて提案を適応させていきます。これにより、システムが時間の経過とともにより価値を高め、プロジェクト特有の要件を記憶して、フィードバックに適応していく好循環が生まれます。定期的に発生する種類のコンテンツ(週次のスポーツハイライトや製品レビューなど)を扱う組織は、Jockeyが明確な指示なしに関連性の高いコンテンツを優先し、一貫したスタイリングを適用することを学習するため、ワークフローがますます効率的になることを実感するでしょう。

大規模なマルチモーダルインテリジェンス(Multimodal Intelligence at Scale)により、Jockeyは、ガチガチに固まったルールに頼ることなく、ビデオ、オーディオ、およびテキスト要素を横断する高度な結びつきを構築できます。この原則により、単なる視覚的な類似性だけでなくテーマとしての関連性に基づいてシーンを呼び出したり、複数のクリップにわたるナラティブの流れを分析したり、感情的に共鳴するシーケンスを自動的に特定したりする複雑な操作が可能になります。ナレーション用の音声生成、別パターンのシーン用のビデオ生成、あるいはプレゼンテーション用のアバター作成といったサードパーティの追加機能を統合していく中で、Jockeyはこれらの専門ツールをまとまりのあるワークフローへとオーケストレートし、操作全体でコンテキストを維持し、最終的な出力における一貫した品質を保証します。この統合ロードマップには、セグメンテーション、背景の置き換え、シンセティックメディア(合成メディア)生成、および音声作成のリーディングツールとの提携が含まれており、ユーザーに複雑な技術の統合管理を求めることなく、Jockeyの機能を大幅に拡張します。
ツールから協調的パートナーへのJockeyの進化は、組織がビデオ資産にアプローチする方法におけるパラダイムシフトを表しています。これら3つの原則にフォーカスし、拡張可能な機能のエコシステムを構築することで、私たちは技術的な制約にユーザーを合わせるのではなく、人々が本来ビデオコンテンツについて検討する自然な思考プロセスに適応するプラットフォームを創り出しています。このプラットフォーム上で開発を行うエンジニアにとって、Jockeyはバラバラのモデルを統合する複雑さに煩わされることなく、高度なビデオインテリジェンスを活用したアプリケーションを提供する機会を与えます。ビジュアルコンテンツの制作体制をスケールさせたい企業にとっては、確立されたワークフローを尊重しつつ、効率性を劇的に変革する、一貫した高品質な出力の土台を提供します。
9 - 結論:ビデオエージェント革命への参加
ビデオ基盤モデルとエージェントアーキテクチャの融合は、ビデオコンテンツの制作、分析、および配信方法における根本的なシフトを体現しています。Jockeyは、ビデオを専門的な専門知識を要する一枚岩のメディアとして扱うことから脱却し、多様なワークフローやクリエイティブなニーズに合わせることができるプログラミング可能なリソースへと移行できることを示しています。インテリジェントなタスク割り当て、ネイティブなビデオ処理、そして人間と協調するデザインの組み合わせを通じて、かつては労働集約的であったタスクを、流動的で対話的なやり取りへと変貌させ、創作的な主導権を確保したまま、制作時間を劇的に短縮します。
現時点におけるJockeyの限界を、アルファステージの概念実証(Proof-of-Concept)として認めることは重要です。エージェントは時として最適な結果を得るために特定の言い回しを必要としたり、時に複雑なクエリに苦労したりすることがあり、特定のワークフロー向けへの最適化もまだ完了していません。Jockeyを支えるエージェントフレームワーク自体も急速に進化を遂げており、業界全体の開発者たちが計画、メモリ管理、およびマルチモーダル推論に向けた異なるアプローチをテストしている段階です。しかしながら、これらの限界は、根本的な障害ではなく、より有能で直感的なビデオインテリジェンスへと到達するための、明確な開発プロセスにおける通過点に過ぎません。
Jockeyの早期アクセスのために、この未来を一緒に形作っていくよう皆様を招待します。私たちは、私たちの技術を積極的にテストし、貴重なフィードバックを提供してくださる、熱意ある初期導入企業(アーリーアダプター)を特に求めています。こちらのフォームから興味をお知らせください:https://form.typeform.com/to/JCKz0aBA
制作ワークフローの合理化を目指すコンテンツ制作者であれ、ビデオインテリジェンスを自社のアプリケーションに組み込みたい開発者であれ、あるいはビデオ運用体制を拡充させたい企業であれ、皆様のフィードバックや活用ケースは開発の優先順位へと直接影響を与えます。この限定アルファテストに参加していただくことで、最先端のビデオエージェント技術を直接手にするだけでなく、ビジュアルメディアの扱い方におけるより大きな変革に寄与することができます。ビデオエージェントの革命は、単に来るべき予定を指しているのではなく、まさに今ここに起きており、皆様の視点こそがその先の道を切り開く力となるのです。
この記事の執筆にあたり、コメント、フィードバック、および提案を寄せてくれたTwelveLabsの同僚たち(Kingston Yip、Simon Shim、Simon Lecointe、Yeonhoo Park、Sean Barclay、Sunny Nguyen)に感謝を捧げます。
TLDR: エージェント型ビデオ・インテリジェンスの台頭
私たちは地殻変動を目撃しています。ビデオAIは、単なる基本的な分析ツールから、文脈を理解し、コンテンツについて推論し、複雑なクリエイティブタスクを実行できる知的なコラボレーターへと進化しています。
TwelveLabsのJockeyは、単なるもう一つのAIツールではありません。私たちのビデオネイティブな基盤モデルをシンフォニーのように指揮し、混沌としたビデオワークフローを調和のとれたクリエイティブなプロセスへと変える、洗練されたオーケストレーターです。
使いにくいビデオインターフェースは忘れてください。これらの新しいビデオエージェントは、あなたの言葉を理解しながら、ビジュアルを直接操作できるようにし、ついに人間の創造性とマシンの効率性の間のギャップを埋めます。
技術的なビデオツールと格闘する日々は残りわずかです。AIアシスタントに「
最も魅力的な顧客のストーリーを見つけて」と伝えるだけで、完璧なハイライトリールが構築されるのを見る様子を想像してみてください。ビデオコンテンツに埋もれている企業にとって、これは単なるアップグレードではなく、自然な対話を通じて、圧倒的なメディアライブラリをアクセシブルで実用的な資産へと変貌させる革命です。
NotebookLMが生成したこちらの会話から、この記事を音声で聴くことができます:https://soundcloud.com/james-le-56344460/agentic-video-intelligence
1 - はじめに:ビデオ・インテリジェンスの進化
2025年、私たちはマシンがビジュアルメディアを理解し操作する方法における、根本的な転換の瀬戸際に立っています。日々、様々なプラットフォームに数十億時間ものビデオコンテンツがアップロードされる中、限られたコンテンツと定義済みのタスクの時代に向けて設計された従来の処理ツールは、時代遅れになりつつあります。このコンテンツの爆発的増加は、前例のない機会と、途方もない課題の両方を生み出しました。
ビデオ基盤モデルの登場により、私たちの能力は単純なフレームごとのビデオ分析から、高度な空間理解や時間的推論へと進化しました。しかし、生のモデル能力と現実世界のアプリケーションとの間には、依然として重要なギャップが存在しています。ここで登場するのがエージェント型ビデオ・インテリジェンス(agentic video intelligence)です。これは、受動的な分析から、ビデオコンテンツに対する能動的で目標指向のインタラクションへのパラダイムシフトを表しています。これらのシステムは、エージェントプランニングのフレームワークを通じてビデオ基盤モデルと大規模言語モデルを組み合わせ、ビデオの中に何が映っているかだけでなく、なぜそれが重要で、どのような行動をとるべきかまで理解するAIシステムを創り出します。
TwelveLabsでは、Jockeyを通じてこれらの課題に取り組んでいます。Jockeyは、専用のエージェントアーキテクチャを通じて、ビデオ基盤モデルとLLMベースの推論を組み合わせた対話型ビデオエージェントです。この記事では、エンジニアリングとデザインの両方の視点から技術的なイノベーションを検証することにより、ビデオインテリジェンスがいかにエージェント型(ジェンティック)になりつつあるかを探ります。メディア制作からスポーツのハイライト生成に至るまで、このシフトにより、これまでは不可能だったコンテンツ作成と分析への全く新しいアプローチが可能になります。次世代のビデオアプリケーションを構築する組織にとって、これは人間の創造性とマシンの効率性を組み合わせる変革の機会となります。ビデオインテリジェンスの革命は、単に近づいているだけではありません。すでにここにあります。そしてそれは、エージェント型なのです。
2 - LLM領域におけるAIエージェントの台頭
大規模言語モデル(LLM)の登場は、理解し、計画し、行動できる自律型エージェントを可能にすることで、AIに革命をもたらしました。これらのLLM搭載エージェントは、自然言語をインターフェースとして使用し、目標を理解し、高度な推論とツールの統合を通じて複雑なタスクを実行できます。この能力は、基本的なプロンプトエンジニアリングから、思考の連鎖(Chain-of-Thought)プロンプティングを活用するより高度なアプローチへと進化し、エージェントが複雑な問題を段階的に分解できるようになりました。

ソース:https://www.letta.com/blog/ai-agents-stack
Open AI Agents SDK、Letta、LangGraphのような高度なエージェントフレームワークが、信頼性の高いエージェントを構築するための重要なインフラストラクチャとして台頭してきました。これらのフレームワークは、計画、ツール統合、メモリ管理、自己内省などの重要な機能を実装しています。近代的なエージェントアーキテクチャは、認知機能を専門的なコンポーネント(戦略のためのプランナー、アクションのためのエグゼキューター、評価のためのクリティック)に分離し、ますます複雑なタスクを処理できるようにしています。
現実世界のアプリケーションにおいて、LLMエージェントは非常に適応能力が高いことが証明されています。彼らは、LLMの推論能力とドメイン固有のツールやワークフローを組み合わせることで、ソフトウェア開発やカスタマーサービスから調査の統合にいたるまで、多様なタスクを実行できます。このアーキテクチャにより、従来の自動化よりも柔軟に複雑な問題空間をナビゲートしながら、生のLLM出力よりも高い信頼性を提供することができます。

ソース:https://weaviate.io/blog/what-are-agentic-workflows#planning-pattern
この分野では、エージェントの成功を牽引するいくつかの主要なデザインパターンが特定されています。これらには、タスクの分解(目標を管理可能なステップに分割する)、再帰的推論(中間結果に論理を適用する)、ツールの拡張(APIを介して機能を拡張する)、およびヒューマン・イン・ザ・ループのコラボレーション(ユーザーフィードバックを取り入れる)が含まれます。これらのパターンは異なるドメインを横断して機能し、効果的なエージェント設計のためのコア原則を確立しています。
LLMエージェント開発から得られたこれらの知見は、ビデオインテリジェンスシステムに極めて重要な指針を与えてくれます。基盤モデルは、特定のタスク要件に沿った構造化されたアーキテクチャ内で最も効果的に機能することを示しています。また、信頼性の向上には、明確な「計画」と「振り返り(内省)」が重要であることを強調しています。最も重要なのは、最も効果的なシステムとは自動化と人間とのコラボレーションのバランスをとることであり、マシンの知能と人間の知性の両方を活用する真のパートナーシップを築いているという点です。ビデオエージェントを開発するにあたり、これらの原則は、ビジュアルメディアの理解と操作という独自の課題を乗り越える手助けとなります。
3 - ビデオエージェントの登場:新しいパラダイム
ビデオ基盤モデルとLLMベースのエージェントアーキテクチャの融合により、ビデオエージェントが誕生しました。これは、かつてない洗練された方法でビジュアルメディアを理解、操作、および推理するために独自に設計されたシステムです。これまでの前身システムとは異なり、これらのエージェントは単にビデオコンテンツを分析するだけではありません。ビジュアルナラティブ、時間的関係、およびマルチモーダルな文脈に関する専門知識を活用し、目的を持ってビデオと対話します。この新しいパラダイムは、意味理解の欠如した従来のビデオ処理パイプラインや、ビデオコンテンツに固有の複雑な時間的・空間的次元への対応に苦労する汎用AIエージェントの双方の根本的な限界を解消します。
ビデオエージェントが際立っているのは、ビデオインテリジェンス特有の課題を克服できる能力です。ビデオデータは、視覚、音声、時間的要素を組み合わせた高次元空間に存在するため、テキストや静止画に必要なものを超えた専門的な知覚能力が必要です。計算需要はビデオの長さや解像度に応じて劇的にスケールするため、アテンション(注意)とメモリに対する効率的なアプローチが必要になります。そしておそらく何よりも重要であるのは、ビデオの理解には、フレームレベルの詳細から、シーンレベルの構成、さらにはナラティブ(物語)レベルの構造にいたるまで、複数の時間スケールにわたる推論を同時に行うことが求められるという点です。これは、他のドメインではほとんど必要とされない能力です。OmAgentのようなシステムは、マルチモーダルRAGと分割統治法(divide-and-conquer)的な推論アプローチを組み合わせた革新的なアーキテクチャを通じて、これらの課題に対するソリューションの先駆けとなりました。

近年の学術的な成果によりこのシフトは加速しており、研究者たちはビデオ理解のためのエージェント型(ジェンティック)フレームワークにますます注目しています。北京大学の論文「VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding」は、メモリメカニズムがどのように時間的推論を強化できるかを示しており、スタンフォード大学による「VideoAgent: Long-form Video Understanding with Large Language Model as Agent」の研究では、長尺ビデオから関連情報を効率的に検索・集約する方法について探求しています。これらのアプローチは共通の洞察を共有しています。すなわち、すべてのビデオコンテンツを網羅的に処理するのではなく、効果的なエージェントは、何が重要であるかを推論し、関連するセグメントに選択的に注意を向け、反復的な分析を通じて動的に理解を構築していくべきであるという点です。

ソース:https://wxh1996.github.io/VideoAgent-Website/
また、LLMの推論とビデオ専用のツールを組み合わせたLAVEのような作品もあります。これらのシステムは通常、マルチモーダル特徴を抽出する知覚システム、ビデオの文脈を保存・読み出すメモリメカニズム、複雑なクエリを分解する計画モジュール、そしてビデオ処理ツールとのインターフェースとなる実行コンポーネントなど、専門的なコンポーネントを中心にワークフローを構築しています。このモジュール性により、基盤モデルの強みと、ビデオコンテンツおよび編集操作に関するドメイン固有の知識を組み合わせることができます。

ソース:https://arxiv.org/abs/2402.10294
ビデオエージェントが研究プロトタイプからプロダクションシステムへと進化するに従い、コンテンツ作成、メディア分析、および情報検索における現実世界の課題にますます対処できるようになっています。放送、映画制作、ソーシャルメディアの初期導入企業は、ハイライト生成、コンテンツモデレーション、プロモーション用クリップの作成など、従来手動で行われていたタスクを自動化するために、すでにこれらの能力を活用しています。最も先進的なシステムは、ビデオの表面的なコンテンツだけでなく、その背景にある目的、スタイル、そして叙事的な構成まで理解しつつある初期の能力を示しています。これにより、複雑なツールを操作するというよりも、知識豊富なアシスタントとコラボレーションしているかのような対話が可能になります。受動的な分析から能動的なコラボレーションへのこの移行は、おそらくマルチモーダルAIの出現以来、ビデオインテリジェンスにおける最も重要なパラダイムシフトを表しています。

4 - TwelveLabsのアプローチ:ビデオエージェントフレームワークとしてのJockey
昨年から開発が進められてきたJockeyは、ビデオインテリジェンスにおける大きな進化を象徴しています。これはTwelveLabsの核となるビデオ基盤モデルの土台の上に構築され、複雑性のギャップに対処するために不可欠なオーケストレーション層を追加したものです。その根幹として、Jockeyは当社の2つの強力なビデオネイティブモデルを活用しています。すなわち、セマンティックビデオ検索のためのMarengo 2.7と、高度なビデオ・トゥ・テキスト(動画からテキストへの変換)理解のためのPegasus 1.2です。Jockeyはこれらのモデルを置き換えるのではなく、各コンポーネントの強みに応じて認知タスクを分配するプランナー・ワーカー・リフレクター(計画・実行・内省)アーキテクチャを通じて戦略的にこれらを調整します。計画と推論にはLLMを使用し、知覚負荷の高い操作は専用のビデオモデルに委ねています。

このアーキテクチャは、ビデオインテリジェンスにおける根本的な課題を解決します。基盤モデルは知覚や推論タスクに優れていますが、複雑なワークフローのシーケンス(順序立て)に苦戦することがよくあります。Jockeyのマルチエージェント型アプローチは、詳細な実行シーケンスを作成する「プランナー」、ビデオAPIと直接やり取りする専門の「ワーカー」、そしてアクションステップを要約する「リフレクター」を実装することで、この制限に対処します。この関心事の分離により、各コンポーネントは自身が最も得意とする機能に集中できます。LLMが推論や自然言語の理解を処理し、ビデオ基盤モデルが複雑なマルチモーダル分析を管理します。
Jockeyを特に強力にしているのは、複雑な、複数ステップにわたるワークフロー全体でコンテキスト(文脈)を維持する能力です。例えばビデオのハイライト作成において、Jockeyは単純に一度の検索処理を実行するだけではありません。正確な基準に沿って検索をシーケンス化(順序化)し、結果セットを賢く組み合わせ、ユーザーの本来の意図を反映したポストプロセス(後処理)操作を適用します。システムはLangGraph上に構築されたグラフベースのフレームワークを通じて永続的な状態を維持するため、複数の操作を跨いでクリップを追跡し、細分化されたサブタスクを実行している間も全体のタスク目的を把握し続けることができます。

ソース:https://github.com/twelvelabs-io/tl-jockey/blob/main/jockey/stirrups/stirrup.py
Jockeyの設計では、本番環境への導入に不可欠な特性である適応性を優先しています。そのモジュール式アーキテクチャにより、プロンプト駆動の動作調整から全く新しいワーカーモジュールの追加にいたるまで、複数のレベルでカスタマイズが可能です。これにより、開発者はコアシステムの信頼性を維持しながら、特定のワークフローに合わせてJockeyの機能を拡張することができます。
5 - Jockeyに透明性をもたらす
効果的なビデオエージェントの作成は、一般的なLLMアプリケーションとは異なり、ビデオ操作に特有のユニークなエンジニアリング上の課題をもたらします。特に顕著な課題は、クリップの抽出や結合といった複雑な操作における、ビデオ処理パイプラインのパフォーマンス最適化です。私たちが採用したアプローチは以下の二通りです:
第一に、
base_search()、process_clips()、およびdownload_remaining()のような個別のステップを独立して処理する関数ディスパッチャーを使用した、非同期処理パイプラインの設計。第二に、インターフェースに表示される透明な「思考(Thinking)」状態を通じて、これらの処理ステージをユーザーに開示すること(詳細はセクション6を参照)。
この透明性は単なるステータスの更新に留まりません。システムがどのようにして結論に至ったかを明らかにし、各瞬間においてどの処理コンポーネントが活用されているかを示すことで、必要不可欠な信頼関係を築き上げます。

Jockeyの開発を通じて、私たちは、たとえ応答時間がわずかに長くなったとしても、自らの推論プロセスを説明してくれるシステムに対して、ユーザーがより強い信頼を寄せるようになることを学びました。この洞察は、私たちのUIデザインに根本的な影響を与えており、処理状態や、それぞれのクエリに適用されている具体的なモデルコンポーネント(Marengoの検索機能か、あるいはPegasusのコンテクスト理解か)を明示的に表示するようにしました。この透明性は、ブラックボックスなソリューションではなく、検証可能なプロセスを必要とするエンタープライズクライアントと連携する際に特に重要です。
Jockeyの将来的な拡張は、双方向思考システムとなる予定です。これはエージェントの処理ステップを表示するだけでなく、ユーザーがそれらのステップを直接修正できるようにするものです。この機能により、Jockeyは受動的なツールから、ユーザーがインタラクティブにクエリを洗練させたり(日本のカメレオンから日本のトカゲへ変更)、処理決定を検証したり、エージェントのフォーカスを方向転換させたりできる協調的パートナーへと変わります。つまり、出力をただ受け入れるのではなく、AIを「操縦(ステアリング)」できるようになるのです。このアプローチは、MLSEチームと共同で行った成果や他のエンタープライズ顧客からのフィードバックと一致しています。彼らは、ビデオコンテンツのような価値の高いクリエイティブアセットを扱う際、純粋な自動化のスピードよりも、プロセスを理解しコントロールできることを一貫して優先しています。

ソース:https://www.latent.space/p/why-mcp-won
Model Context Protocol(MCP)フレームワークは、特にサードパーティ統合を拡大していく中で、Jockeyの将来の進化に興味深い可能性をもたらします。MCPは、Jockeyのコアコンポーネントと、外部サービス、例えばビデオ生成ツール(RunwayML、Luma Labs)、オーディオ生成ソフトウェア(ElevenLabs、Suno)、さらにはシーン分割やオブジェクトトラッキング(MetaのSAM)といった高度なビデオ操作タスクとの間に、標準化された統合レイヤーを提供する可能性があります。
統合先ごとにカスタムコネクタを作成する代わりに、MCPを使用することで、ツールの呼び出し、文脈(コンテキスト)の共有、およびレスポンス処理のための統一されたインターフェースを定義できます。このアプローチは、n×m個の統合問題(n個のエージェントフレームワーク×m個のツール)を、より管理しやすいn+m個の問題へと変換し、システム拡張性を高めつつ、実装の複雑さを劇的に軽減します。
Jockeyに関して言えば、MCPはより洗練されたワークフローを可能にする可能性があります。例えば、Marengoを介して特定されたクリップを、外部の画質向上ツールへとシームレスに渡し、次にナレーション用の生成オーディオサービスへ、そして最終的に編集システムへと引き渡すことができます。これらの一連の流れを、すべてのプロセスにわたって一貫したコンテキストを維持したまま、実行できるようになります。
6 - マルチモーダルインターフェースの力
従来のビデオインターフェースは一般的に、視覚的な文脈を無視したテキストベースの検索か、またはインタラクティブな機能が最小限に抑えられたビデオプレイヤーのどちらか一つの選択をユーザーに強いてきました。 Jockeyは、対話的なインテラクションとビデオネイティブな要素を組み合わせた、根本的にマルチモーダルなインターフェースを通じてこの関係性を再定義し、片方をもう片方に無理に合わせるのではなく、両方のモダリティを第一級の市民として扱います。以下のスクリーンショットに示されているインターフェースはこのアプローチを実証しています。対話エリアが自然言語を通じてユーザーの意図を汲み取り、ビジュアルな「思考表示」がエージェントの推論プロセスを明らかにし、ビデオギャラリーがタイムスタンプや説明などの関連する文脈とともに結果を提示します。この統一された体験により、ユーザーは抽象度の高いゴール(困難を克服した人々の心に響くストーリーを探して)の表現から、ビジュアル結果へのダイレクトな操作へとシームレスに移行できます。

このアプローチを強力なものにしているのは、テキスト要素とビジュアル要素の間を流れる、双方向の情報フローです。ユーザーが自然言語のクエリを入力すると、Jockeyはテキストによる説明と、関連するビデオセグメントへの直接リンクの双方を含む回答を返し、詳細なタイムスタンプによって映像内のどこの場所でその具体的なコンセプトが出現するかを示します。この時間的アンカー(紐付け)が、Jockeyのテキスト回答と、参照されている実際のビデオコンテンツとの間に、明確な架け橋を築き上げます。
さらに、ユーザーはサムネイルを通してビデオセグメントを直接操作できるため、ナビゲーション体験が向上します。これにより、それぞれのモダリティが互いを高め合う好循環が生まれます。言語は意図を指定する際の精度を提供し、ビジュアル要素はテキストで伝えるのが非効率な豊かさと文脈を提供します。例えば、以下のスクリーンショットは、Jockeyがエージェントの思考ステップをタイムスタンプ付きのビデオセグメントの隣にどのように表示するかを示しており、ユーザーがどのようなコンテンツが見つかったかだけでなく、なぜそれが選ばれたのかを理解する手助けをします。

このインターフェースは、ビデオインタラクションに特有のいくつかの認知的な課題に対処しています。ビデオコンテンツは本質的に時間的なものであり、情報が密に詰まっているため、ユーザーがテキストで行うようにスキャンしたり、ブラウズしたり、比較したりすることが困難です。Jockeyのマルチモーダルアプローチは、複数の入口を提供することでこれらの課題を軽減します。ユーザーはサムネイルを通して視覚的にブラウズしたり、エージェントが生成した要約に目を通したり、あるいはコンセプトの説明に基づいて特定の瞬間へとパッと直接ジャンプしたりできます。これらのアプローチを組み合わせることで、インターフェースはユーザーの認知負荷を大幅に削減し、複数のビデオを同時に処理する場合でも文脈を維持できるようにします。それは、以下のスクリーンショットで、ユーザーが検索結果を確認した後に「これらのビデオをエモーショナルなトーンで要約して」と依頼している箇所で見ることができます。

最も重要なのは、このインターフェースが単なるクエリ応答パターンを超えて、真の協調的ワークスペースへと進化している点です。以下のスクリーンショットに示すエージェントの思考表示は、Jockeyが難解なタスクを リクエストの理解 や ビデオコンテキストの取得 といった個別のステップへとどのように分解するかを示しており、透明性を生み出すことでユーザーの信頼を築き、タイムリーな介入を可能にします。この透明性は、アルゴリズムの確信度(番号付きのステップを介して)と思考プロセスの両方の表示にまで及び、ユーザーがシステムへの依存度を調整し、人間の判断が必要となる場面において情報に基づいた決定を下せるようにします。ワークフローのどの時点であってもエージェントのアプローチを中断、リダイレクト、または洗練できる機能と組み合わせることで、従来のビデオインターフェースにありがちだったトランザクション(取引)的なモデルではなく、真に協調的な関係が創り出されます。

このマルチモーダルアプローチの将来の進化は、私たちが「フロー認識型の弾道(flow-aware trajectories)」と呼ぶ方向へと向かっています。これは、ユーザーのワークフローの中で生まれつつあるパターンに基づいて、ユーザーが次に行うであろうアクションを先回りして予測するインターフェースのことです(詳細はセクション8を参照)。上のスクリーンショットのエージェントによる段階的な推論に示されているように、Jockeyは会話のやり取り全体でコンテキストを維持し、これまでの対話を踏まえて構築していくことで、すでにこの方向における初期の能力を示しています。これらの能力が成熟するにつれて、インターフェースはエージェントとツールの間の境界線をますます曖昧にし、ユーザーの創造的な流れ(フロー)を損なうことなく、ニーズを先回りして予測し、代替アプローチを提案し、専門的な細部を処理する、ユーザーの創作プロセスの延長線となることでしょう。これは、単にリクエストを処理するインターフェースから、創造的かつ分析的なプロセスに主体的に貢献する、本当の意味での「共同作業者」への根本的な転換を表しています。
7 - コンテンツ作成の変革:エンタープライズメディアワークフローに向けたJockeyのビジョン
エンタープライズメディアの領域は、制作リソースが横ばいであるにもかかわらず、コンテンツへの需要が指数関数的に増加するという、前例のない課題に直面しています。マーケティングチームは、フォーマット要件や視聴者の期待値が異なる、多様な複数のプラットフォームに向けて、より多くのビデオコンテンツを制作しなければなりません。ドキュメンタリー映画の製作者は、何百時間ものフッテージ(映像素材)から関連する瞬間を見つけ出す必要があります。企業の広報部門は、グローバル市場全体で一貫したメッセージングを維持することに苦慮しています。これらのワークフローには、共通のペインポイントがあります。それらは時間がかかり、専門的なスキルを必要とし、伝統的なアプローチでは効率的にスケールしないという点です.

Jockeyのビジョンは、企業がビデオコンテンツと関わる方法を再定義することによって、これらの課題に対処します。既存のプロセスを単に自動化するのではなく、Jockeyは、その対話型インターフェースとビデオ理解機能のインテリジェントなオーケストレーションを通じて、コンテンツワークフローに新しい可能性を生み出します。例えば、製品デモンストレーションビデオを作成しているマーケティングチームは、Jockeyに対して「製品が屋外で使用されているクリップを見つけて」と指示し、次に「それらをスムーズなトランジションで編集して」と伝えることができます。この自然言語によるアプローチは、制作スピードを低下させがちな専門的な障壁を取り除き、チームが機械的な作業ではなく、創造的な決定に集中することを可能にします。
特に魅力的な用途の一つに、Jockeyが即座に価値を発揮できる、広告およびマーケティングのワークフローが挙げられます。クリエイティブチームは、ブランドメッセージやキャンペーンのテーマに合致する瞬間を特定するために、生の映像素材をレビューするのに何時間も費やすことがよくあります。Jockeyは、街中(屋外)の環境で私たちのロゴが目立つように表示されているシーンを特定して、または 製品を使って人々が興奮を表現しているクリップを見つけてといった自然言語のクエリを使って、ビデオライブラリを検索できるようにすることで、このプロセスを変革します。エージェントはMarengoのマルチモーダルな理解力を活用して関連する映像を呼び出し、Pegasusのコンテクスト認識力を駆使してそれらの瞬間をまとまりのあるシーケンスへと組み立てるため、コンセプトから完成したアセットへと至るまでの時間を劇的に削減します。

Jockeyのアプローチが持つ真のパワーは、エンド・ツー・エンド(始点から終点まで)のクリエイティブワークフローにおいて顕著に現れます。新製品の発表ビデオ制作を任された企業広報チームを例に挙げてみましょう。従来、これには絵コンテの作成、撮影、映像素材のアーカイブ整理、ラフカットの編集、グラフィックスの追加、ナレーションの収録、そして配信に向けた最終調整が必要であり、それぞれのステップごとに異なる専門家やツールが介入していました。Jockeyの目指すビジョンは、自然言語の指示を通じて、チームが関連フッテージを呼び出し、初期カットを組み立て、付随する音声を生成し、配信可能なアセットを用意できるようにすることで、これらのワークフローを統合することです。まだ初期の段階にありますが、Jockeyの開発ロードマップには、関連ツールとのサードパーティ連携を通じてこれらの機能を拡張していくことが含まれています。これにより、組織に対して技術的な制限に自らのワークフローを合わせるよう強いるのではなく、企業の要件に合わせて適応していく総合的なプラットフォームを創り出します。
8 - ビデオエージェントの未来:私たちのビジョンとロードマップ
ビデオエージェントの将来的な進化は、段階的な改善を超えて、人間がビジュアルメディアとやり取りする方法を根本的に変革する、3つの主要な原則に導かれます。Jockeyを通じて、私たちはビデオインテリジェンスが、自動化と人間による創造的な主体性のバランスを保ちつつ、ニーズを先回りして予測し、個人の好みに適応する、創造的および分析的なワークフローの自然な拡張となるようなビジョンに向かって構築を進めています。

フロー認識型の弾道(Flow-Aware Trajectories)は、クリエイティブな勢い(モーメンタム)を維持するために、ユーザーが必要とするものを数ステップ先回りして予測するシステムであり、当社の第一の指針となる原則です。実用的な場面において、これはJockeyがハイライト作成中に次に必要とされるクリップを予測し、コンテンツに基づいて適切なトランジションを提案し、ユーザーの編集パターンに沿ったラフカットを事前に組み立てることを意味します。これらの機能が成熟するにつれて、エディターはクリエイティブな作業プロセスを邪魔されることが少なくなり、システムが技術的な細部を処理している間も自らの表現の方向性を保ち続けることができます。例えば、スポーツのプロデューサーであれば、観客の反応に基づいて重要なプレイを自動的に提案し、一定のペースを維持し、ストーリーの流れを担保したハイライトパッケージをJockeyを使って作成することができ、その間プロデューサー自身は最終的な選択に関するクリエイティブな権限を握り続けることができます。

文脈的メタ学習(Contextual Meta-Learning)は、Jockeyが対話のたびに進化し、プロジェクトやセッションの違いを越えて、ユーザーの好みに関する永続的な理解を構築できるようにするものです。あらゆる操作に明確な指示を毎回求める代わりに、システムは、好まれるトランジションのスタイル、代表的なシーン構成、または一般的な編集シーケンスなど、ユーザーの行動パターンを認識し、それに応じて提案を適応させていきます。これにより、システムが時間の経過とともにより価値を高め、プロジェクト特有の要件を記憶して、フィードバックに適応していく好循環が生まれます。定期的に発生する種類のコンテンツ(週次のスポーツハイライトや製品レビューなど)を扱う組織は、Jockeyが明確な指示なしに関連性の高いコンテンツを優先し、一貫したスタイリングを適用することを学習するため、ワークフローがますます効率的になることを実感するでしょう。

大規模なマルチモーダルインテリジェンス(Multimodal Intelligence at Scale)により、Jockeyは、ガチガチに固まったルールに頼ることなく、ビデオ、オーディオ、およびテキスト要素を横断する高度な結びつきを構築できます。この原則により、単なる視覚的な類似性だけでなくテーマとしての関連性に基づいてシーンを呼び出したり、複数のクリップにわたるナラティブの流れを分析したり、感情的に共鳴するシーケンスを自動的に特定したりする複雑な操作が可能になります。ナレーション用の音声生成、別パターンのシーン用のビデオ生成、あるいはプレゼンテーション用のアバター作成といったサードパーティの追加機能を統合していく中で、Jockeyはこれらの専門ツールをまとまりのあるワークフローへとオーケストレートし、操作全体でコンテキストを維持し、最終的な出力における一貫した品質を保証します。この統合ロードマップには、セグメンテーション、背景の置き換え、シンセティックメディア(合成メディア)生成、および音声作成のリーディングツールとの提携が含まれており、ユーザーに複雑な技術の統合管理を求めることなく、Jockeyの機能を大幅に拡張します。
ツールから協調的パートナーへのJockeyの進化は、組織がビデオ資産にアプローチする方法におけるパラダイムシフトを表しています。これら3つの原則にフォーカスし、拡張可能な機能のエコシステムを構築することで、私たちは技術的な制約にユーザーを合わせるのではなく、人々が本来ビデオコンテンツについて検討する自然な思考プロセスに適応するプラットフォームを創り出しています。このプラットフォーム上で開発を行うエンジニアにとって、Jockeyはバラバラのモデルを統合する複雑さに煩わされることなく、高度なビデオインテリジェンスを活用したアプリケーションを提供する機会を与えます。ビジュアルコンテンツの制作体制をスケールさせたい企業にとっては、確立されたワークフローを尊重しつつ、効率性を劇的に変革する、一貫した高品質な出力の土台を提供します。
9 - 結論:ビデオエージェント革命への参加
ビデオ基盤モデルとエージェントアーキテクチャの融合は、ビデオコンテンツの制作、分析、および配信方法における根本的なシフトを体現しています。Jockeyは、ビデオを専門的な専門知識を要する一枚岩のメディアとして扱うことから脱却し、多様なワークフローやクリエイティブなニーズに合わせることができるプログラミング可能なリソースへと移行できることを示しています。インテリジェントなタスク割り当て、ネイティブなビデオ処理、そして人間と協調するデザインの組み合わせを通じて、かつては労働集約的であったタスクを、流動的で対話的なやり取りへと変貌させ、創作的な主導権を確保したまま、制作時間を劇的に短縮します。
現時点におけるJockeyの限界を、アルファステージの概念実証(Proof-of-Concept)として認めることは重要です。エージェントは時として最適な結果を得るために特定の言い回しを必要としたり、時に複雑なクエリに苦労したりすることがあり、特定のワークフロー向けへの最適化もまだ完了していません。Jockeyを支えるエージェントフレームワーク自体も急速に進化を遂げており、業界全体の開発者たちが計画、メモリ管理、およびマルチモーダル推論に向けた異なるアプローチをテストしている段階です。しかしながら、これらの限界は、根本的な障害ではなく、より有能で直感的なビデオインテリジェンスへと到達するための、明確な開発プロセスにおける通過点に過ぎません。
Jockeyの早期アクセスのために、この未来を一緒に形作っていくよう皆様を招待します。私たちは、私たちの技術を積極的にテストし、貴重なフィードバックを提供してくださる、熱意ある初期導入企業(アーリーアダプター)を特に求めています。こちらのフォームから興味をお知らせください:https://form.typeform.com/to/JCKz0aBA
制作ワークフローの合理化を目指すコンテンツ制作者であれ、ビデオインテリジェンスを自社のアプリケーションに組み込みたい開発者であれ、あるいはビデオ運用体制を拡充させたい企業であれ、皆様のフィードバックや活用ケースは開発の優先順位へと直接影響を与えます。この限定アルファテストに参加していただくことで、最先端のビデオエージェント技術を直接手にするだけでなく、ビジュアルメディアの扱い方におけるより大きな変革に寄与することができます。ビデオエージェントの革命は、単に来るべき予定を指しているのではなく、まさに今ここに起きており、皆様の視点こそがその先の道を切り開く力となるのです。
この記事の執筆にあたり、コメント、フィードバック、および提案を寄せてくれたTwelveLabsの同僚たち(Kingston Yip、Simon Shim、Simon Lecointe、Yeonhoo Park、Sean Barclay、Sunny Nguyen)に感謝を捧げます。




