ベンチマークにない問題を解いています

ダン・キム

Twelve Labsは、学術的なベンチマークが測定する「編集された映像」ではなく、実際の現場で毎日生成される膨大な未編集の映像コンテンツを処理する方法について解決しようとしています。実際に使ってみて初めてわかること、ベンチマークには反映されないこと、その乖離そのものがTwelve Labsが注力している領域です。

この記事の内容

No headings found on page

ニュースレターに登録する

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

AIを活用してビデオを検索、分析、探索します。

プレイグラウンドを試す

2026/05/12

8分

記事へのリンクをコピー

卒業を控えた研究者の方々と時々コーヒーチャット（カジュアル面談）をします。会話をしていると、似たような質問が繰り返されます。「Twelve Labsが何をしている会社なのか、ほとんど知られていません。論文も出ていないし、メディアにも露出していないようですが？」

その通りです。私たちが学術的な出版やメディア露出にかける比重はそれほど大きくありません。B2B領域の企業は往々にしてそうですし、現在の私たちの事業の重心もそこにあります。

それには構造的な理由もあります。私たちが実際に解決している問題の大部分が、既存の学界のベンチマーク体系では測定も評価も難しい領域にあるからです。

編集された映像の向こう側の世界

「映像」というと、普通はYouTubeのクリップを思い浮かべます。きれいに編集され、意味のあるカットで埋め尽くされた映像です。学界の映像ベンチマークもほとんどがそうです。映画のクリップ、ミュージックビデオ、ニュース放送のように、すでに編集が終わったコンテンツがソースデータです。30秒のリールやショート動画から2時間の長編映画まで、最終カットのすべてのフレームに意図があります。そこから場面を理解して質問に答えるのは難しい問題ですが、明確に定義された問題でもあります。

しかし、30秒のクリップであれ2時間の映画であれ、最終的な成果物を作るためには、その前に数十倍から数百倍に達する未編集の「撮影素材（raw footage）」がまず撮影されます。業界で「撮影比率（shooting ratio）」と呼ばれるこの比率は、ジャンルによって千差万別です。一般的なデジタル制作は10:1から30:1、ドキュメンタリーは20:1から80:1、アクション大作は200:1を超えることもあります。複数台のカメラで何日もかけて撮影した元映像から、編集者が使える場面を選び出し、カットし、配置して最終成果物を作ります。

ウェブ上の映像分布、そしてその上に作られた学界のベンチマークが見ているのは、小さなラベンダー色のボックスだけです。産業の実態は、編集前のグレーのボックスの中に存在しています。

しかし、この未編集映像の分布は、ウェブから収集される映像の分布には含まれません。学界がベンチマークに使用する映像は、すでに編集を経た成果物であり、未編集映像を処理する問題そのものは、どのベンチマークにも含まれていません。

現実の制約

実際の産業で映像を扱う人々の日常はこうです。放送局であれ、スポーツリーグであれ、警備会社であれ、毎日数千から数万時間の映像が溢れ出ています。カメラが複数台あるからです。これらの人々にとって最も切実なのは、「この数万時間の中で、自分がどこを見るべきなのか」を知ることです。

「大型の汎用モデルを使えばいいのではないか」という質問をよく受けますが、現実的には困難です。コストも問題ですが、より根本的な限界があります。映像を検索するにはエンベディング（embedding）が必要ですが、現在の汎用モデルのマルチモーダルエンベディングは、処理できる映像の長さが極めて短いです。数万時間の映像を短い単位に自らカットしてAPIを呼び出さなければならないという意味ですが、どのようにカットするかを決めること自体が、すでに研究課題です。そして、そのコストを毎日負担できるメディア企業はありません。

そのため、現在の実際のプロダクション環境では、ファンデーションモデル（foundation model）の前世代の特化型モデル（expert model）が稼働しています。「この映像に人が登場する」、「この人は歩いている」といった原始的なタギングを安価に実行して保存する方法です。精巧ではありませんが、コストのためにやむを得ない選択です。

セグメンテーションという中核的な問題

私たちが集中しているのは、この間のギャップです。特化型モデルよりはるかに精巧でありながら、汎用モデルのようにコストが爆発しないポイント。そして、その核心にセグメンテーション（segmentation）問題があります。

長い映像が与えられたとき、どこでカットすれば意味のある単位になるのかを突き止める作業です。テキストドメインのRAGでドキュメントをチャンキングするのと似ていますが、映像は次元が異なります。時間軸の上に階層構造（hierarchy）があります。サッカーの試合映像であれば、試合全体があり、その中に攻撃シーケンスがあり、その中に個々のパスやシュートといったアクションがあります。この階層構造をモデリングして初めて、「3点シュートが出る場面を探して」と「スルーパスの場面を探して」を区別できるようになります。

学界では境界検出（boundary detection）という名前でこの問題を扱ってきており、最近ではディフュージョン（diffusion）ベースのアプローチも提案され、新たな方向性が開かれつつあります。ただし、より興味深いポイントは、単一階層（layer）のフレーミングから脱却することにあります。同じ映像の中でも、境界は複数の時間スケールに同時に存在します。試合単位の境界、攻撃シーケンス単位の境界、個々のアクション単位の境界のようにです。これらの階層を一緒にモデリングして初めて、プロダクション環境の実際のクエリパターンに近づきます。

同じ映像であっても、クエリがどの階層を指しているかによって、応答すべき区間（segment）の単位が変わります。「前半のハイライト」はL2単位、「コーナーキックの場面すべて」はL3単位のクエリです。学界の境界検出は主に単一階層を扱いますが、実際の使用環境では複数の階層を同時にモデリングする必要があります。