解決する価値のあることすべてが、ベンチマークに収まるわけではない

ダン・キム

学術的なベンチマークは編集済みの映像でテストされます。しかし、プロダクションの現実は、大規模にセグメント化、検索、理解する必要がある、何時間にも及ぶ未編集のRAWビデオです。そのギャップを埋めるために、Twelve Labsは開発を行っています。

この記事の内容

No headings found on page

ニュースレターに登録する

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

AIを活用してビデオを検索、分析、探索します。

プレイグラウンドを試す

2026/05/12

5分

記事へのリンクをコピー

私はよく、卒業を控えた研究者たちとコーヒーを飲みながら話をします。会話はいつも、同じ質問へと戻っていきます。「TwelveLabsが実際に何をしているのか、公になっている情報がほとんどありません。論文もなければ、メディアの報道もありません」と。

もっともな指摘です。学術的な発表やメディアへの露出は、私たちが最も注力している部分ではありません。これはB2B企業によく見られる傾向であり、現在の私たちの重心もそこにあります。

これには構造的な理由もあります。私たちが実際に取り組んでいる課題の多くは、学術的なベンチマークが測定するために構築されたものとは、うまく合致しないのです。

編集された映像の先にある世界

多くの人は「動画」と聞くと、YouTubeのクリップのように、きれいに編集され、すべてのカットに意図があるものを想像します。学術的な動画ベンチマークも同じように機能します。映画のクリップ、ミュージックビデオ、ニュース放送など、すでに編集されたコンテンツがソースデータとなります。30秒のReelやShortから、2時間の長編映画に至るまで、最終カットのすべてのフレームに意図が込められています。シーンを理解し、それらに関する質問に答えることは困難ですが、それは定義の明確な問題です。

30秒のクリップであれ、2時間の映画であれ、それらの制作には、最終的な映像の数十倍から数百倍もの未編集の素材（RAW映像）が最初に撮影されます。業界ではこれを「撮影倍率（シューティング・レシオ）」と呼びます。これは状況によって大きく異なり、一般的なデジタル制作では10:1から30:1、ドキュメンタリーでは20:1から80:1、大規模なアクション映画では200:1を超えることもあります。エディターは、数日分に及ぶマルチカメラの映像をくまなく調べ、使える部分を抜き出し、カットし、シーケンス化して、ようやく最終製品へと仕上げます。

ウェブ上の動画配信、およびそれをベースに構築された学術的ベンチマークが見ているのは、この小さな紫色のボックスだけです。制作の現実は、編集前にある灰色のボックスの中に存在します。

そして、そのRAW映像はウェブ上の動画配信の分布には含まれません。学術的ベンチマークが使用する映像は「すでに編集された出力」であり、ソース素材そのものを処理するという課題は、どのベンチマークにも存在しないのです。

現実の姿

放送局、スポーツリーグ、セキュリティ会社など、動画を仕事として扱う人々は、毎日数千から数万時間におよぶ映像を生み出しています。毎日、複数のカメラが回っています。彼らが最も必要としているのは、その数万時間の中の「どこを」実際に見るべきかを知ることです。

「なぜ大規模な基盤モデルを使わないのか？」現実問題として、それは不可能です。コストも理由の一つですが、より深刻なのは構造的な問題です。動画を検索するには埋め込み（embeddings）が必要ですが、現在の汎用マルチモーダル埋め込みは、非常に短いクリップの長さしか処理できません。数万時間の映像を埋め込むには、すべてを短い断片に切り刻み、各チャンクに対してAPIを呼び出す必要がありますが、どのように切り刻むべきかを決定すること自体が研究課題です。それを脇に置いたとしても、このコストを毎日許容できるメディア企業はありません。

そのため、現在実際にプロダクションで稼働しているのは、前世代のエキスパートモデルです。「このクリップには人が写っている」「この人が歩いている」といった、安価でプリミティブなタグ付けを大規模に保存しています。正確ではありませんが、経済的に唯一存続可能な選択肢なのです。

核心的な課題としてのセグメンテーション

これら2つの世界のギャップこそが、私たちの注力分野です。エキスパートモデルよりもはるかに有能でありながら、汎用モデルのようなコスト爆発を伴わないもの。その中心にあるのがセグメンテーション（分節化）です。

長い動画があるとき、意味のある単位にするためにどこでカットすべきでしょうか？これはテキスト領域のRAGにおけるドキュメントのチャンク分割と本質的に似ていますが、動画はより困難です。コンテンツは時間軸に沿って自然な階層構造を持っています。サッカーの試合には、試合全体があり、その中に攻撃シーエンスがあり、さらにその中に個々のパスやシュートがあります。「スリーポイントシュートを探す」と「スルーパスを探す」を区別するには、まずこの階層をモデリングしなければなりません。

アカデミアでは、これは境界検出（boundary detection）という旗印のもとで研究されており、最近では拡散ベースのアプローチが新しい方向性を切り開いています。しかし、より興味深い動きは、単一レイヤーのフレームワークから脱却することです。1つの動画内であっても、境界は同時に複数の時間スケールで存在します。試合全体の境界、ポゼッション（ボール保持）の境界、個々のアクションの境界。これらのレイヤーを共同でモデリングすることは、制作チームが実際に映像をクエリする手段に極めて近いアプローチです。

同じ動画であっても、返すべきセグメント単位は、クエリがどのレイヤーをターゲットにしているかによって異なります。「前半のハイライト」はL2に存在し、「すべてのコーナーキック」はL3に存在します。アカデミアにおける境界検出は一度に単一のレイヤーに焦点を当てる傾向がありますが、実際のユースケースでは複数のレイヤーを同時にモデリングすることが求められます。

埋め込みにおける効率性の問題

埋め込みモデルにも同様のストーリーがあります。VLMベースの埋め込み（VLM2Vec など）が多くの注目を集めています。問題は、このアプローチでは埋め込みが必要なだけであるにもかかわらず、ビジュアルエンコーダーの上でLLMスタック全体を実行することです。ハードウェアをどれだけ最適化しても、推論は構造的に低速になります。

毎日数万時間の動画を処理しなければならない顧客にとって、精度の数値だけでは全貌を語れません。当社のモデルは学術的ベンチマークにおいてSOTA（最高水準）に位置していますが、同じ数値を記録する2つのモデルであっても、その推論コスト構造は完全に異なる場合があります。実稼働環境において、そのギャップこそがモデルを実際に大規模に展開できるかどうかを決定します。学術的な評価ではこの次元が捉えられない傾向にありますが、実務においてはこれが決定要因となります。

フォーカスとトレードオフ

「それほど多くの動画データがあるなら、ワールドモデル（世界モデル）も作れるのではないですか？」という質問をよく受けます。純粋なデータ量だけで言えば、巨大プラットフォームははるかに多くのデータを保有しており、収益のプレッシャーなしに長期的な研究に資金を提供できます。スタートアップにとってより差し迫った問いは、新しいことに取り組むべきかどうかではなく、「どのような順序で行うか」です。ワールドモデルは、私たちが最終的に到達するロードマップの一部です。私たちが下した決断は、まず私たちがすでに最も得意としている分野をさらに深掘りすることでした。

スタートアップのレバー（武器）は「フォーカス」です。すべてをやるのは巨大テック企業の領分です。私たちの目標は、動画処理パイプラインにおいて、代替不可能なポジションを占めることです。私たちは現在、すでに強みを持っている分野の「堀（moat）」を深める段階にいます。

このギャップこそが機会である

ギャップはシンプルに表現できます。ベンチマークは「編集された動画」で評価しますが、実際のユーザーは「自分で編集」を行い、RAW映像から重要な部分を削り出さなければなりません。私たちが占めようとしているのは、まさにその領域です。

これは、アカデミアがベンチマークで測定するものと、産業界が実際に費用を支払うものとの間のギャップです。動画の領域において、このギャップは異常なほどに広いです。言語モデルにおいては、アカデミアと産業界はおおむね同じ方向を向いています。しかし動画においては、ベンチマークには決して現れない多くの事柄が存在します。それらは、実際に使ってみることでしか学べないことなのです。

だからこそ、私たちは製品を世に送り出す（シップする）ことに多くの比重を置いています。そのギャップそのものが、私たちの堀（moat）なのです。