トゥエルブラップス

ベンチマークにない問題を解いています

ダン・キム

Twelve Labsは、学術的なベンチマークが測定する「編集された映像」ではなく、実際の現場で毎日生成される膨大な未編集の映像コンテンツを処理する方法について解決しようとしています。実際に使ってみて初めてわかること、ベンチマークには反映されないこと、その乖離そのものがTwelve Labsが注力している領域です。

Twelve Labsは、学術的なベンチマークが測定する「編集された映像」ではなく、実際の現場で毎日生成される膨大な未編集の映像コンテンツを処理する方法について解決しようとしています。実際に使ってみて初めてわかること、ベンチマークには反映されないこと、その乖離そのものがTwelve Labsが注力している領域です。

この記事の内容

No headings found on page

ニュースレターに登録する

ニュースレターに登録する

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

AIを活用してビデオを検索、分析、探索します。

2026/05/12

8分

記事へのリンクをコピー

卒業を控えた研究者の方々と時々コーヒーチャット(カジュアル面談)をします。会話をしていると、似たような質問が繰り返されます。「Twelve Labsが何をしている会社なのか、ほとんど知られていません。論文も出ていないし、メディアにも露出していないようですが?」

その通りです。私たちが学術的な出版やメディア露出にかける比重はそれほど大きくありません。B2B領域の企業は往々にしてそうですし、現在の私たちの事業の重心もそこにあります。

それには構造的な理由もあります。私たちが実際に解決している問題の大部分が、既存の学界のベンチマーク体系では測定も評価も難しい領域にあるからです。


編集された映像の向こう側の世界

「映像」というと、普通はYouTubeのクリップを思い浮かべます。きれいに編集され、意味のあるカットで埋め尽くされた映像です。学界の映像ベンチマークもほとんどがそうです。映画のクリップ、ミュージックビデオ、ニュース放送のように、すでに編集が終わったコンテンツがソースデータです。30秒のリールやショート動画から2時間の長編映画まで、最終カットのすべてのフレームに意図があります。そこから場面を理解して質問に答えるのは難しい問題ですが、明確に定義された問題でもあります。

しかし、30秒のクリップであれ2時間の映画であれ、最終的な成果物を作るためには、その前に数十倍から数百倍に達する未編集の「撮影素材(raw footage)」がまず撮影されます。業界で「撮影比率(shooting ratio)」と呼ばれるこの比率は、ジャンルによって千差万別です。一般的なデジタル制作は10:1から30:1、ドキュメンタリーは20:1から80:1、アクション大作は200:1を超えることもあります。複数台のカメラで何日もかけて撮影した元映像から、編集者が使える場面を選び出し、カットし、配置して最終成果物を作ります。

ウェブ上の映像分布、そしてその上に作られた学界のベンチマークが見ているのは、小さなラベンダー色のボックスだけです。産業の実態は、編集前のグレーのボックスの中に存在しています。

しかし、この未編集映像の分布は、ウェブから収集される映像の分布には含まれません。学界がベンチマークに使用する映像は、すでに編集を経た成果物であり、未編集映像を処理する問題そのものは、どのベンチマークにも含まれていません。


現実の制約

実際の産業で映像を扱う人々の日常はこうです。放送局であれ、スポーツリーグであれ、警備会社であれ、毎日数千から数万時間の映像が溢れ出ています。カメラが複数台あるからです。これらの人々にとって最も切実なのは、「この数万時間の中で、自分がどこを見るべきなのか」を知ることです。

「大型の汎用モデルを使えばいいのではないか」という質問をよく受けますが、現実的には困難です。コストも問題ですが、より根本的な限界があります。映像を検索するにはエンベディング(embedding)が必要ですが、現在の汎用モデルのマルチモーダルエンベディングは、処理できる映像の長さが極めて短いです。数万時間の映像を短い単位に自らカットしてAPIを呼び出さなければならないという意味ですが、どのようにカットするかを決めること自体が、すでに研究課題です。そして、そのコストを毎日負担できるメディア企業はありません。

そのため、現在の実際のプロダクション環境では、ファンデーションモデル(foundation model)の前世代の特化型モデル(expert model)が稼働しています。「この映像に人が登場する」、「この人は歩いている」といった原始的なタギングを安価に実行して保存する方法です。精巧ではありませんが、コストのためにやむを得ない選択です。


セグメンテーションという中核的な問題

私たちが集中しているのは、この間のギャップです。特化型モデルよりはるかに精巧でありながら、汎用モデルのようにコストが爆発しないポイント。そして、その核心にセグメンテーション(segmentation)問題があります。

長い映像が与えられたとき、どこでカットすれば意味のある単位になるのかを突き止める作業です。テキストドメインのRAGでドキュメントをチャンキングするのと似ていますが、映像は次元が異なります。時間軸の上に階層構造(hierarchy)があります。サッカーの試合映像であれば、試合全体があり、その中に攻撃シーケンスがあり、その中に個々のパスやシュートといったアクションがあります。この階層構造をモデリングして初めて、「3点シュートが出る場面を探して」と「スルーパスの場面を探して」を区別できるようになります。

学界では境界検出(boundary detection)という名前でこの問題を扱ってきており、最近ではディフュージョン(diffusion)ベースのアプローチも提案され、新たな方向性が開かれつつあります。ただし、より興味深いポイントは、単一階層(layer)のフレーミングから脱却することにあります。同じ映像の中でも、境界は複数の時間スケールに同時に存在します。試合単位の境界、攻撃シーケンス単位の境界、個々のアクション単位の境界のようにです。これらの階層を一緒にモデリングして初めて、プロダクション環境の実際のクエリパターンに近づきます。

同じ映像であっても、クエリがどの階層を指しているかによって、応答すべき区間(segment)の単位が変わります。「前半のハイライト」はL2単位、「コーナーキックの場面すべて」はL3単位のクエリです。学界の境界検出は主に単一階層を扱いますが、実際の使用環境では複数の階層を同時にモデリングする必要があります。


エンベディングの効率性の問題

エンベディングモデルにも同様の背景を持つ問題があります。最近、VLMベースのエンベディング(VLM2Vecなど)が注目を集めていますが、この方式は映像をエンコードする際、上層にあるLLMレイヤーまで全すべて実行する必要があります。エンベディングだけを抽出できればよい状況であってもです。いくらハードウェアを最適化しても、推論(inference)が遅くならざるを得ない構造的な限界です。

数万時間の映像を毎日処理しなければならない顧客の立場からは、正確度の数値だけで意思決定はなされません。私たちのモデルは学界のベンチマークでSOTA(最先端)に位置していますが、同じスコアを記録した2つのモデルであっても推論にかかるコスト構造が完全に異なる場合があり、その差がその規模で実際に運用可能かどうかを分けるからです。学術的な評価ではあまり測定されない軸ですが、産業の現場ではその軸が決定的な役割を果たします。


選択と集中について

「映像データが多いのだから、ワールドモデル(world model)もできるのではないか」という質問もよく受けます。映像自体の量だけで言えば大手プラットフォームが圧倒的に多く、彼らには収益の圧迫なしに長期的な研究に投資する余力もあります。スタートアップにおいては、「やるかやらないか」よりも「どの順序でやるか」がより切実な質問です。ワールドモデルも最終的には取り組んで解決すべき領域ですが、今は最も得意なものにまず深みを加えることにしたのです。

スタートアップができるのは選択と集中です。すべてを網羅するのはビッグテックの領域であり、私たちの目標は映像パイプライン(pipeline)の中で代替不可能な独自のポジションを確立することです。現在得意なことであり、堀(moat)を深く掘る段階にあります。


この乖離こそが機会である

一行で整理するとこうです。ベンチマークは評価のためにすでに編集された映像を提供しますが、実際のユーザーは未編集の映像から必要な部分だけを残す編集を自分で行わなければなりません。私たちが獲得しようとしているポジションは、まさにその隙間です。

学問の世界でベンチマークによって測定される能力と、産業において実際に費用を支払って購入される能力との間の乖離。映像ドメインにおいて、この乖離は特に深刻です。言語ドメインでは、学術と産業が比較的同じ方向を向いていますが、映像ではベンチマークに現れないものが多く存在します。使ってみて初めてわかること、です。

私たちが製品によって答えを作り出していくことに、より多くの重要性を置く理由でもあります。この乖離そのものが、私たちの掘(moat)なのですから。


実際にどのような問題をどのように解決しているのか、さらに知りたい場合はこちら → [Danのインタビュー]

私たちと旅を共にするメンバーを募集しています → [Twelve Labs Careers]

卒業を控えた研究者の方々と時々コーヒーチャット(カジュアル面談)をします。会話をしていると、似たような質問が繰り返されます。「Twelve Labsが何をしている会社なのか、ほとんど知られていません。論文も出ていないし、メディアにも露出していないようですが?」

その通りです。私たちが学術的な出版やメディア露出にかける比重はそれほど大きくありません。B2B領域の企業は往々にしてそうですし、現在の私たちの事業の重心もそこにあります。

それには構造的な理由もあります。私たちが実際に解決している問題の大部分が、既存の学界のベンチマーク体系では測定も評価も難しい領域にあるからです。


編集された映像の向こう側の世界

「映像」というと、普通はYouTubeのクリップを思い浮かべます。きれいに編集され、意味のあるカットで埋め尽くされた映像です。学界の映像ベンチマークもほとんどがそうです。映画のクリップ、ミュージックビデオ、ニュース放送のように、すでに編集が終わったコンテンツがソースデータです。30秒のリールやショート動画から2時間の長編映画まで、最終カットのすべてのフレームに意図があります。そこから場面を理解して質問に答えるのは難しい問題ですが、明確に定義された問題でもあります。

しかし、30秒のクリップであれ2時間の映画であれ、最終的な成果物を作るためには、その前に数十倍から数百倍に達する未編集の「撮影素材(raw footage)」がまず撮影されます。業界で「撮影比率(shooting ratio)」と呼ばれるこの比率は、ジャンルによって千差万別です。一般的なデジタル制作は10:1から30:1、ドキュメンタリーは20:1から80:1、アクション大作は200:1を超えることもあります。複数台のカメラで何日もかけて撮影した元映像から、編集者が使える場面を選び出し、カットし、配置して最終成果物を作ります。

ウェブ上の映像分布、そしてその上に作られた学界のベンチマークが見ているのは、小さなラベンダー色のボックスだけです。産業の実態は、編集前のグレーのボックスの中に存在しています。

しかし、この未編集映像の分布は、ウェブから収集される映像の分布には含まれません。学界がベンチマークに使用する映像は、すでに編集を経た成果物であり、未編集映像を処理する問題そのものは、どのベンチマークにも含まれていません。


現実の制約

実際の産業で映像を扱う人々の日常はこうです。放送局であれ、スポーツリーグであれ、警備会社であれ、毎日数千から数万時間の映像が溢れ出ています。カメラが複数台あるからです。これらの人々にとって最も切実なのは、「この数万時間の中で、自分がどこを見るべきなのか」を知ることです。

「大型の汎用モデルを使えばいいのではないか」という質問をよく受けますが、現実的には困難です。コストも問題ですが、より根本的な限界があります。映像を検索するにはエンベディング(embedding)が必要ですが、現在の汎用モデルのマルチモーダルエンベディングは、処理できる映像の長さが極めて短いです。数万時間の映像を短い単位に自らカットしてAPIを呼び出さなければならないという意味ですが、どのようにカットするかを決めること自体が、すでに研究課題です。そして、そのコストを毎日負担できるメディア企業はありません。

そのため、現在の実際のプロダクション環境では、ファンデーションモデル(foundation model)の前世代の特化型モデル(expert model)が稼働しています。「この映像に人が登場する」、「この人は歩いている」といった原始的なタギングを安価に実行して保存する方法です。精巧ではありませんが、コストのためにやむを得ない選択です。


セグメンテーションという中核的な問題

私たちが集中しているのは、この間のギャップです。特化型モデルよりはるかに精巧でありながら、汎用モデルのようにコストが爆発しないポイント。そして、その核心にセグメンテーション(segmentation)問題があります。

長い映像が与えられたとき、どこでカットすれば意味のある単位になるのかを突き止める作業です。テキストドメインのRAGでドキュメントをチャンキングするのと似ていますが、映像は次元が異なります。時間軸の上に階層構造(hierarchy)があります。サッカーの試合映像であれば、試合全体があり、その中に攻撃シーケンスがあり、その中に個々のパスやシュートといったアクションがあります。この階層構造をモデリングして初めて、「3点シュートが出る場面を探して」と「スルーパスの場面を探して」を区別できるようになります。

学界では境界検出(boundary detection)という名前でこの問題を扱ってきており、最近ではディフュージョン(diffusion)ベースのアプローチも提案され、新たな方向性が開かれつつあります。ただし、より興味深いポイントは、単一階層(layer)のフレーミングから脱却することにあります。同じ映像の中でも、境界は複数の時間スケールに同時に存在します。試合単位の境界、攻撃シーケンス単位の境界、個々のアクション単位の境界のようにです。これらの階層を一緒にモデリングして初めて、プロダクション環境の実際のクエリパターンに近づきます。

同じ映像であっても、クエリがどの階層を指しているかによって、応答すべき区間(segment)の単位が変わります。「前半のハイライト」はL2単位、「コーナーキックの場面すべて」はL3単位のクエリです。学界の境界検出は主に単一階層を扱いますが、実際の使用環境では複数の階層を同時にモデリングする必要があります。


エンベディングの効率性の問題

エンベディングモデルにも同様の背景を持つ問題があります。最近、VLMベースのエンベディング(VLM2Vecなど)が注目を集めていますが、この方式は映像をエンコードする際、上層にあるLLMレイヤーまで全すべて実行する必要があります。エンベディングだけを抽出できればよい状況であってもです。いくらハードウェアを最適化しても、推論(inference)が遅くならざるを得ない構造的な限界です。

数万時間の映像を毎日処理しなければならない顧客の立場からは、正確度の数値だけで意思決定はなされません。私たちのモデルは学界のベンチマークでSOTA(最先端)に位置していますが、同じスコアを記録した2つのモデルであっても推論にかかるコスト構造が完全に異なる場合があり、その差がその規模で実際に運用可能かどうかを分けるからです。学術的な評価ではあまり測定されない軸ですが、産業の現場ではその軸が決定的な役割を果たします。


選択と集中について

「映像データが多いのだから、ワールドモデル(world model)もできるのではないか」という質問もよく受けます。映像自体の量だけで言えば大手プラットフォームが圧倒的に多く、彼らには収益の圧迫なしに長期的な研究に投資する余力もあります。スタートアップにおいては、「やるかやらないか」よりも「どの順序でやるか」がより切実な質問です。ワールドモデルも最終的には取り組んで解決すべき領域ですが、今は最も得意なものにまず深みを加えることにしたのです。

スタートアップができるのは選択と集中です。すべてを網羅するのはビッグテックの領域であり、私たちの目標は映像パイプライン(pipeline)の中で代替不可能な独自のポジションを確立することです。現在得意なことであり、堀(moat)を深く掘る段階にあります。


この乖離こそが機会である

一行で整理するとこうです。ベンチマークは評価のためにすでに編集された映像を提供しますが、実際のユーザーは未編集の映像から必要な部分だけを残す編集を自分で行わなければなりません。私たちが獲得しようとしているポジションは、まさにその隙間です。

学問の世界でベンチマークによって測定される能力と、産業において実際に費用を支払って購入される能力との間の乖離。映像ドメインにおいて、この乖離は特に深刻です。言語ドメインでは、学術と産業が比較的同じ方向を向いていますが、映像ではベンチマークに現れないものが多く存在します。使ってみて初めてわかること、です。

私たちが製品によって答えを作り出していくことに、より多くの重要性を置く理由でもあります。この乖離そのものが、私たちの掘(moat)なのですから。


実際にどのような問題をどのように解決しているのか、さらに知りたい場合はこちら → [Danのインタビュー]

私たちと旅を共にするメンバーを募集しています → [Twelve Labs Careers]