トゥエルブラップス

ビデオを構造化された資産に:Time-Based Metadata(TBM)パイプライン構築記

ケビン・リー

ビデオアーカイブを検索可能なアセットにするために、Twelve Labsがどのようにスキーマ条件付きセグメンテーションと、時間およびメタデータを分離した二重評価システムを設計したかについて解説します。

ビデオアーカイブを検索可能なアセットにするために、Twelve Labsがどのようにスキーマ条件付きセグメンテーションと、時間およびメタデータを分離した二重評価システムを設計したかについて解説します。

この記事の内容

No headings found on page

ニュースレターに登録する

ニュースレターに登録する

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

AIを活用してビデオを検索、分析、探索します。

2026/05/04

15分

記事へのリンクをコピー

放送局、スポーツリーグ、メディア企業、エンタープライズプラットフォームは、ペタバイト規模のビデオアーカイブを保有しています。しかし、このコンテンツの大部分は、私たちがダークビデオ(dark video)と呼ぶ状態に留まっています。存在してはいるものの、検索できず、構造化されておらず、意味のある単位で活用することもできない状態です。

その理由は驚くほど単純です。ビデオはテキストではないからです。ビデオファイルに grep をかけることはできませんし、 SELECT * FROM video WHERE scene = 'scoring_play' も不可能です。映像が経済的価値を持つためには、まず構造化されたセグメントと機械可読なメタデータに分解されなければなりません。私たちはこのプロセスをビデオ資産化(video assetization)と呼んでいます。

この記事は、Time-Based Metadata(TBM、時間基準メタデータ)とその評価体系を構築してきた私たちの物語です。その過程で、一つのことが明らかになりました。時間・意味ベースの映像理解を設計し評価する際には、テキストや画像モデルとは異なるアプローチが必要だということです。


1. ビデオ資産化のギャップ:顧客が本当に求めているもの

20万時間のニュースアーカイブを管理する放送局を想像してみてください。現在、この作業は手動で行われています。映像アーカイブの担当者が各セグメントを手動でロギングし、ストーリーをタギングし、話者を特定し、トピックの境界を表示するという方法です。映像1時間あたり約15ドルのコストがかかり、予算は削減されつつあります。このような方法では、到底スケールしません。

もう一つの事例も見てみましょう。数千人のインフルエンサーの動画にわたり、自社製品の露出を追跡したい消費財ブランドがあるとします。特定の製品が画面に登場し、クリエイターがカメラに向かって話しているすべての瞬間を見つけ出す必要があります。単に製品が登場したという事実だけでは不十分です。正確にいつ、どれほど目立って、どのような文脈で登場したのかまで把握しなければならないからです。

これらの事例は架空のものではありません。放送アーカイブ管理、スポーツハイライトの自動化、ブランドインテリジェンス、コンプライアンス監査。私たちが目にするほぼすべてのエンタープライズビデオワークロードは、互いに独立した2つの要素を同時に要求します。

  1. 正確な時間境界:各セグメントはどこで始まり、どこで終わるのか?

  2. スキーマに準拠した構造化メタデータ:そのセグメント内で何が起きたのか?

今日、多くの映像・言語モデルに「この動画で何が起きていますか?」と尋ねると、流暢な文章を返してくれます。しかし、「すべてのエディトリアルナラティブの開始/終了タイムスタンプを、構造化されたフィールド(トピック、話者、信頼度など)とともに提供してほしい」と要求した瞬間、汎用的なビデオ推論とプロダクションセグメンテーションが全く異なる問題であることに即座に気づくことになります。

放送局が実際に求めている結果を、より具体的に描いてみましょう。各エディトリアルセグメントには、タイトル、説明、編集トピック、登場人物、信頼度レベルが必要です。1時間のニュース番組からTBMが抽出する結果は、以下のような形になります。


各セグメントには、 editorial_subjectsvisual_subjectsnamesconfidence といった構造化されたメタデータが含まれます。1時間の番組が、クエリ可能なオブジェクトの集合へと変換される瞬間です。


2. なぜ既存のアプローチは失敗するのか

境界予測問題 (Boundary Prediction Problem)

大規模言語モデルは、区間に対する推論(要約、質疑応答、内容描写)に優れています。しかし、セグメントの境界がどこにあるかを予測することは、本質的に異なる課題です。

境界予測(Boundary prediction)は、3つの技術的難問の交差点に位置しています。

  • Weakly-supervised temporal localization:グラウンドトゥルース(正解データ)が希薄で主観的です。

  • Multimodal change-point detection:境界が視覚・音声・意味信号の同時変化によって定義されます。

  • Autoregressive decodingにおけるトークンレベルの分類(token-level classification):モデルが正確なタイムスタンプをトークンとして出力する必要があります。

初期の実験では、最先端のフロンティアモデルでさえ、意味的には合理的であるものの、時間的には不正確な境界を出力しました。ハードカットから開始すべきセグメントが5〜15秒ほどずれてしまうといった具合です。モデルは何が起きているかはよく理解していましたが、それが「いつ」起きているかを正確に特定できなかったのです。


スキーマがなければ、それは資産ではありません

ほとんどの映像・言語モデルは、自由形式のテキストを生成します。

「この映像はニュース番組を示しています。約2分の時点でスポーツセグメントに切り替わります...」

これは人間が読むには便利です。しかし、下流(downstream)の自動化プロセスにとっては、ほとんど役に立ちません。エンタープライズワークフローにおいて実際に必要なのは、以下のような形式だからです。

{
  "start_time": 120.45,
  "end_time": 245.80,
  "metadata": {
    "segment_title": "NFLプレイオフ・リキャップ",
    "editorial_subjects": ["NFL", "プレイオフ", "負傷"],
    "names": ["Patrick Mahomes", "Lamar Jackson"],
    "confidence": "HIGH"
  }
}

表現力豊かなテキストと、機械が即座に処理できる構造化された出力との間のギャップは、単なるフォーマットの問題ではありません。モデリングと評価が密接に絡み合った問題なのです。


3. Twelve Labsのアプローチ:Schema-Conditioned Temporal Extraction

どの問題を解くか定義する

TBMを設計する際、私たちは重要な分岐点に立たされました。ビデオだけを受け取って何にでも答える汎用モデル(セグメンテーションもその機能の一つ)にするのか、それともビデオとともにユーザーが定義したスキーマを受け取り、そのスキーマに沿ってセグメントとフィールドを埋めるスキーマ条件付き抽出モデル(schema-conditioned extraction model)にするのか?

最初は前者が自然に思えました。しかし、§2で見た失敗パターン(曖昧な境界、自由形式のフィールド、実行ごとに異なる出力)は、結果的に汎用アプローチの構造的な限界でした。スキーマがなければ、モデルは何をどれほど正確に見つければよいのかを識別できず、評価も「それらしく書けているか?」というレベルに留まってしまいます。

私たちは後者を選択しました。TBMはすべての要件を網羅する汎用モデルではなく、正確な時間境界とスキーマに準拠(schema-conforming)したメタデータに最適化された抽出モデルです。


スキーマコンディショニングの下す3つの効果

TBMでは、ユーザーが segment_definitions を提供します。どのセグメントを探索し、それぞれからどのメタデータフィールドを抽出するのかを定義した構造化された仕様です。これは単に便利なAPIの設計にとどまりません。モデリングの観点から、スキーマコンディショニングは以下の3つの重要な役割を果たします。

探索空間の削減。 ビデオのあらゆる側面について自由な自然言語を生成する代わりに、モデルはスキーマが定義した制限された出力空間内で動作します。スポーツ中継であれば、 downscoring_playpenalty_type を指定するだけで十分です。可能性はあるものの無関係である膨大な観察空間が、すっきりと削ぎ落とされます。

境界整列の安定化。 モデルが何を探索しているかを認識すると(例えば、「プレーの境界(play boundary)」なのか「広告への移行(ad transition)」なのか)、一般的な変化点検出のヒューリスティックに頼る代わりに、ドメイン固有の時間的手がかり(ホイッスル、フォーメーションの変化、フェードトゥブラックのパターンなど)を活用できます。

評価のアンカリング(基準化)。 各スキーマフィールドが、具体的かつ測定可能な評価ターゲットになります。「モデルが映像を理解しているか?」という曖昧な問いの代わりに、「モデルがこのセグメントの down フィールドを正確に 3 と特定できたか?」と問うことができるようになります。


4. カバレッジの広さ:4つの手がかり(Cue)階層システム

スキーマコンディショニングを実際に機能させるには、スキーマがどのような種類の信号にマッピングされているかを特定する必要があります。ビデオセグメンテーションを困難にする要因の一つが、まさに境界を定義する信号の種類が非常に多様であるという点です。カメラアングルの切り替えといったフレームレベルの視覚的な変化から、ニュース編集パッケージの構造的な切り替え、話者の交代といった音声の手がかり、そしてスポーツにおける視覚+音声+競技ルールが結合された複合イベントまで、その幅は極めて広範囲に及びます。1つの単純なモデルだけで解決できる問題ではありません。

私たちはこの多様性を体系的に分類し、4つの「Cue(手がかり)階層」に整理しました。

Cue階層

説明

境界信号の例

Low-Level Visual

フレーム内で発生する視覚的要素の変化。狭い範囲の視覚的詳細に焦点を当てます。

ショットの切り替え、カメラアングルの変更

High-Level Semantic

意味的・ナラティブ(物語)レベルのグローバルな変化。視覚ストリームと音声ストリームの両方を含みます。

トピックの遷移、編集パッケージの境界(キャスター↔現場↔スタジオ)

Audio

音声、音楽、効果音、静寂などの聴覚信号です。

話者の交代、音楽/BGMの切り替え

Composite

視覚+音声+コンテキスト情報が結合されたマルチモーダルな信号です。

スポーツのプレー別イベント、広告挿入区間


この分類が持つ意味

一般的なビデオモデルは、これら4つの階層を区別しません。しかし、実際の顧客が抱えるセグメンテーション要件は、特定の階層、あるいは複数の階層の組み合わせに正確にマッピングされます。

  • ニュース放送局の「エディトリアルナラティブの分離」 → High-Level (トピック遷移 + 編集パッケージの境界)

  • 映像編集チームの「ショット境界の検出」 → Low-Level Visual (カメラカット、アングルの変化)

  • スポーツリーグの「プレー別セグメンテーション」 → Composite (視覚的フォーメーション + ホイッスル音 + 試合のルール)

  • ポッドキャストプラットフォームの「話者別の区間分離」 → Audio (話者の交代 + ASRによるトピックの変化)

この分類は、単なるアカデミックな整理にとどまりません。階層ごとに、モデリングの戦略、学習データ、評価指標がすべて異なるためです。Low-Level Visualはフレームごとの変化検出(frame-wise change detection)に近く、Compositeは長期の文脈理解(long-context reasoning)を要求するといった違いがあります。


5. Multimodal Grounding:テキストを超えて

エンタープライズのビデオセグメンテーションにおいて、しばしば直面する限界があります。それは、何を探索すべきかをテキストによる説明だけで十分に指定しきれないという点です。


テキストだけでは不十分な理由

ある旅行コンテンツプラットフォームの事例を見てみましょう。彼らが解決したい課題は以下の通りです。

外国人によるソウル旅行のVlog数万本の中から、 Nソウルタワー が画面に映るすべての瞬間を見つけ出したい。漢江や都市の全景から遠くに捉えた「エスタブリッシング・ショット」なのか、南山公園を散歩している際のカッティングなのか、展望台からのクローズアップや夜間のライトアップカットなのかまで分類して特定したい。

テキストだけでは不十分です。モデルが「Nソウルタワー」という名前を知っているからといって、その視覚的な外観まで安定して思い描くことができるとは限らないからです。ビデオ・言語モデルにおいて、特定のエンティティ(specific entity)の言語的認知と視覚的識別は別個の問題です。学習データの分布によっては視覚的表現が曖昧な場合もあり、東京タワーやCNタワーのように形状が酷似した他の電波塔(broadcasting tower)と混同されることもあります。しかし、Nソウルタワーの外観を示す写真を基準画像として1枚与えれば、モデルはその写真を視覚的埋め込み(visual embedding)の参照点として、ビデオフレームと直接比較できます。テキストを視覚情報に翻訳する負担が解消されるのです。


Entity Reference システム

TBMは media_sources をサポートしています。セグメント定義の中に <参照名> の形式でタグを埋め込むことで、ユーザーが登録した参照画像をコンテキスト内で直接指し示すことができます。

出典 - 世宗学堂財団, https://www.kogl.or.kr/recommend/recommendDivView.do?oc=&recommendIdx=91796&division=img#

{
  "segment_definitions": [{
    "id": "namsan_tower_appearances",
    "media_sources": [
      { "name": "namsan_tower_img", "media_type": "image", "media_url": "<https://cdn>.../namsan_tower.jpg" }
    ],
    "description": "<namsan_tower_img>として識別されるNソウルタワーが画面に登場する瞬間",
    "fields": [
      { "name": "screen_prominence", "type": "string",
        "enum": ["HERO_SHOT", "PARTIAL", "BACKGROUND"] },
      { "name": "shot_type", "type": "string",
        "enum": ["CITY_ESTABLISHING", "PARK_WALK", "OBSERVATION_DECK", "NIGHT_LIGHTUP"] }
    ]
  }]
}

モデリングの観点から言えば、これはセグメンテーションをオープンボキャブラリー検出(open-vocabulary detection)問題から、位置特定を伴うグラウンデッド検索(grounded retrieval + temporal localization)問題へと変換していることに相当します。

  1. Reference resolution (参照の解決):モデルが <namsan_tower_img> をビデオ全体にわたり、特定の視覚的な外観パターンに紐付ける必要があります。

  2. Visual embedding alignment (視覚的埋め込みの整列):参照画像が、ビデオフレームと同じ表現空間(representation space)上にエンコードされます。

  3. Conditional boundary detection (条件付き境界検出):セグメントの境界が一般的なシーンの切り替えではなく、特定の視覚的エンティティの同時出現を基準に決定されます。

これは「都市の風景のシーンを探して」と「Nソウルタワーが登場するシーンを探して」との違いに相当します。技術的な難易度の違いだけでなく、製品が実際に解決する問題そのものが変化するのです。

Entity groundingが加わると、セグメンテーションの失敗要因は「時間境界」「意味ラベル」「視覚的なエンティティ解決」の3つの軸に分散します。これが評価の問題をもう一段階複雑にする要因となります。


6. 品質保証:Dual-Track Evaluation (二重トラック評価)

TBMを構築・運用する中で、最も決定的でありながらも意外だった発見は、単一のスコアだけではセグメンテーションの品質を正しく判定できないという事実でした。


隠れた結合問題

以下の2つの失敗シナリオを比較してみましょう。

シナリオA。 モデルが 10.0s 〜 25.0s のセグメントを検出しました。実際の正答は 12.0s 〜 48.0s です。ニュースキャスターによる15秒のイントロだけを拾い上げ、その後に続く23秒の本編ストーリーを丸ごと見落とした形です。キャスターの名前、トピック、話者タグなどの情報はすべて完璧に記述できていましたが、時間境界は実際の内容の3分の1しかカバーできませんでした。

シナリオB。 モデルは正確に 12.0s 〜 48.0s を捉えました。しかし、本来は「政治分析」であるセグメントを「天気予報」とタギングしてしまいました。境界特定は難点がないものの、メタデータの内容が間違っている状態です。

単一の合算スコアでは、これら2つのケースを区別できません。しかし、改善の方向性はまったく異なります。前者は時間モデリング(temporal modeling)の改善が必要であり、後者は意味グラウンディング(semantic grounding)の調整を要します。これらのエラーモード(failure mode)を分解して管理しなければ、モデルの改善活動が実際に役立っているのかどうかさえ検証できなくなります。


Twelve Labsの解決策:独立した2つの評価トラック

Segment Track: 「モデルは正しい区間を見つけられたか?」

時間的な正確性を測定します。セグメントレベル(個々の区間をどれほど適切に捉えられたか)と時間軸レベル(タイムラインのどの区間を正しくカバーできているか)の両面から検証します。双方とも重要であるためです。一方に優れていても他方が損なわれていることがあり、どちら側がエラーを起こしているかがダイレクトに改善へのアプローチを決定づけます。最終的な比較には、これら2つの観点を統合した複合指標を主なベンチマークとして採用しています。

Metadata Track: 「検出した正しい区間において、モデルは正確に構造化を行えたか?」

セグメントマッチングの実施後、マッチングが成立したセグメントのペア内部で各フィールドを独立して評価します。LLM-as-judge方式を用い、0.0〜5.0のスケールで、フィールドごとの規定ガイドラインに従って採点します。

もう一つの仕掛け。 セグメント境界の合致度が高いほど、メタデータスコアに対してより大きな加重値を適用します。境界の曖昧な区間で「それらしく見える」メタデータが存在することで、全体スコアが不当に押し上げられるのを防ぐためです。

運用上の利点。 メタデータの評価段階を推論プロセスから切り離された「後処理工程」として定義しているため、高コストなビデオ推論を再度走らせることなく、LLM-as-judgeの評価基準(プロンプトやスコアリング用のガイドライン)を迅速に反復・アップデートできます。

なぜこの分離が不可欠なのか。 セグメント精度のスコアは改善しているのに対し、メタデータ精度のスコアが低下しているとすれば、それはモデルの時間特有の位置特定能力(temporal localization)は向上したものの、意味的な精度(semantic precision)をロスしている兆候です。これはモデルアーキテクチャの変更ではなく、学習データのバランスを再調整すべき局面であることを示します。こうした正確な診断は、評価トラックがそれぞれ独立して設計されて初めて可能になります。


7. Semantic Flywheel:補正がもたらす映像資産化の複利効果

資産化は、一度きりのバッチ処理で完結する作業ではありません。システムが健全に機能し始めると、一つひとつの回転が次の段階の燃料となる「自己強化ループ」へと入っていきます。


私たちはこれをSemantic Flywheel(意味的フライホイール)と呼んでいます。放送アーカイブ、ブランドインテリジェンス、コンプライアンス監査、スポーツハイライトの自動化。TBMベースで走るワークロードはドメインごとに多様ですが、すべて同じフライホイールに沿って進行します。セグメントとメタデータのペアが蓄積されると、クライアント側による境界補正、除外されたタグ、変更された値といった実運用のログそのものが、次世代のモデルをトレーニングする貴重な教師信号としてフィードバックされます。一度回転を始めれば、アーカイブは単に「整理される」だけではなく、回を追うごとに、さらに精緻で洗練された方法で自動分類・蓄積されるインテリジェントなエコシステムへと昇華します。

フライホイールが駆動を維持するための大前提は、改善のプロセスが定常的に観測可能であることです。時間境界の正確性とメタデータの品質を別個に切り離して計測できなければ、どちらが前進し、どちらがボトルネックになっているかを正しく判断することができません。方向を誤れば体系的なブラッシュアップは難しく、体系的なアプローチ抜きにはフライホイールはやがて失速してしまいます。コンテンツの資産構造を正確に捉える評価スキームなしには、資産化の取り組みは、その場限りの一見の成果に甘んじることになります。


8. Twelve Labsが学んだ教訓

TBMと、それを測定するための評価フレームワークの開発を通じて私たちが得た教訓です。

セグメンテーションの本質は質疑応答ではありません。 時間的セグメンテーションを単に「少し難解なLLMタスクの一つ」として捉えようとする無意識の方向性が、一時的に開発効率を阻害する要因となっていました。時間的な境界予測は、発生する固有のエラーモード、求められる評価構造、さらにはモデルアーキテクチャへの感度特性に至るまで、質疑応答(Q&A)とはすべての前提が異なっていたのです。この事実に初期段階で設計を見直せていれば、数か月におよぶ開発期間をスマートに短縮できていたでしょう。

構造化された出力は、美麗な流文よりもはるかに価値があります。 実業務の現場においては、タイムスタンプに数秒のミリ単位のずれが含まれていても、要件を満たした完全なJSONによるセグメントデータの方が、構造化されたデータ項目を一切含まない美麗な文学的ナラティブよりも業務的な実用価値を上回ります。「機械可読性(Machine-readability)」を「可読性の心地よさ(human-readability)」よりも最優先に位置付けた開発戦略は、結果として極めて妥当性の高い判断でした。

決定論的なアプローチは制約条件ではなく、コア機能そのものです。 「重複しないように制御された一貫したセグメント構造」「厳格なスキーマ整合管理」「既定値としての temperature=0」。開発の初期フェーズにおいて、これらの厳密な制約は「本来あるべきモデルの自由度や推論能力を大きく圧迫するものではないか」という疑念に突き当たることが多々ありました。しかし実際には、これらの硬性ルールがあったからこそ、出力される推論内容の確実性が担保され、実際のエンタープライズの自動化プロセスに組み込めるレベルまで実用性が引き上げられました。API上で複雑なソリューションシステムを構築する際、顧客が最終的に価値を見出すのは、「気まぐれな潜在能力」ではなく「変わらない堅牢性」です。


今後の展望

ビデオアセット化の変革は、まだスタートラインに立ったに過ぎません。より長尺の時系列コンテキストへの対応(3時間を超える大容量ソース)、さらに広範なマルチモーダル対応(数十種類の異なる実参照画像を用いた一発エンティティ処理)、そしてビデオの領域を超えて音声ストリームやポッドキャストをはじめとする多様な構成アセット(containerized asset)へ向けた共通抽出スキーマの展開。これらが私たちのロードマップで現在着実に実装を進めているネクストステップです。

しかしそれ以上に重要な挑戦は、技術の進化に適応し、自律的にスケールアウトを可能にする高品質な「評価フレームワークの構築」です。映像言語モデルの推論能力がより高精度に洗練されるほど、発生するエラーの傾向はさらに微視的かつ複雑化していくため、評価側の精度と検出アルゴリズムもそれと同じ歩幅で深化し続けねばなりません。

現在、世界中に点在するエンタープライズビデオアーカイブの圧倒的多数は、依然としてその眠れるポテンシャルを引き出される機会を待っています。ビデオから真の資産価値を引き出すためには、モデルそのものを磨き上げるだけでは不十分です。そのモデルがターゲットの関心を「本当に捉えているか」、そして「正確に定義できているか」をいつでも可視化して正しく測れる精確な評価の目利きこそが不可欠なのです。


Pegasus 1.5についてより詳しくお知りになりたい方はこちら → Pegasus 1.5 Tech Blog

プロダクトチームとともに、この大きな挑戦の旅路をともに歩む仲間を募っています → TwelveLabs Careers

放送局、スポーツリーグ、メディア企業、エンタープライズプラットフォームは、ペタバイト規模のビデオアーカイブを保有しています。しかし、このコンテンツの大部分は、私たちがダークビデオ(dark video)と呼ぶ状態に留まっています。存在してはいるものの、検索できず、構造化されておらず、意味のある単位で活用することもできない状態です。

その理由は驚くほど単純です。ビデオはテキストではないからです。ビデオファイルに grep をかけることはできませんし、 SELECT * FROM video WHERE scene = 'scoring_play' も不可能です。映像が経済的価値を持つためには、まず構造化されたセグメントと機械可読なメタデータに分解されなければなりません。私たちはこのプロセスをビデオ資産化(video assetization)と呼んでいます。

この記事は、Time-Based Metadata(TBM、時間基準メタデータ)とその評価体系を構築してきた私たちの物語です。その過程で、一つのことが明らかになりました。時間・意味ベースの映像理解を設計し評価する際には、テキストや画像モデルとは異なるアプローチが必要だということです。


1. ビデオ資産化のギャップ:顧客が本当に求めているもの

20万時間のニュースアーカイブを管理する放送局を想像してみてください。現在、この作業は手動で行われています。映像アーカイブの担当者が各セグメントを手動でロギングし、ストーリーをタギングし、話者を特定し、トピックの境界を表示するという方法です。映像1時間あたり約15ドルのコストがかかり、予算は削減されつつあります。このような方法では、到底スケールしません。

もう一つの事例も見てみましょう。数千人のインフルエンサーの動画にわたり、自社製品の露出を追跡したい消費財ブランドがあるとします。特定の製品が画面に登場し、クリエイターがカメラに向かって話しているすべての瞬間を見つけ出す必要があります。単に製品が登場したという事実だけでは不十分です。正確にいつ、どれほど目立って、どのような文脈で登場したのかまで把握しなければならないからです。

これらの事例は架空のものではありません。放送アーカイブ管理、スポーツハイライトの自動化、ブランドインテリジェンス、コンプライアンス監査。私たちが目にするほぼすべてのエンタープライズビデオワークロードは、互いに独立した2つの要素を同時に要求します。

  1. 正確な時間境界:各セグメントはどこで始まり、どこで終わるのか?

  2. スキーマに準拠した構造化メタデータ:そのセグメント内で何が起きたのか?

今日、多くの映像・言語モデルに「この動画で何が起きていますか?」と尋ねると、流暢な文章を返してくれます。しかし、「すべてのエディトリアルナラティブの開始/終了タイムスタンプを、構造化されたフィールド(トピック、話者、信頼度など)とともに提供してほしい」と要求した瞬間、汎用的なビデオ推論とプロダクションセグメンテーションが全く異なる問題であることに即座に気づくことになります。

放送局が実際に求めている結果を、より具体的に描いてみましょう。各エディトリアルセグメントには、タイトル、説明、編集トピック、登場人物、信頼度レベルが必要です。1時間のニュース番組からTBMが抽出する結果は、以下のような形になります。


各セグメントには、 editorial_subjectsvisual_subjectsnamesconfidence といった構造化されたメタデータが含まれます。1時間の番組が、クエリ可能なオブジェクトの集合へと変換される瞬間です。


2. なぜ既存のアプローチは失敗するのか

境界予測問題 (Boundary Prediction Problem)

大規模言語モデルは、区間に対する推論(要約、質疑応答、内容描写)に優れています。しかし、セグメントの境界がどこにあるかを予測することは、本質的に異なる課題です。

境界予測(Boundary prediction)は、3つの技術的難問の交差点に位置しています。

  • Weakly-supervised temporal localization:グラウンドトゥルース(正解データ)が希薄で主観的です。

  • Multimodal change-point detection:境界が視覚・音声・意味信号の同時変化によって定義されます。

  • Autoregressive decodingにおけるトークンレベルの分類(token-level classification):モデルが正確なタイムスタンプをトークンとして出力する必要があります。

初期の実験では、最先端のフロンティアモデルでさえ、意味的には合理的であるものの、時間的には不正確な境界を出力しました。ハードカットから開始すべきセグメントが5〜15秒ほどずれてしまうといった具合です。モデルは何が起きているかはよく理解していましたが、それが「いつ」起きているかを正確に特定できなかったのです。


スキーマがなければ、それは資産ではありません

ほとんどの映像・言語モデルは、自由形式のテキストを生成します。

「この映像はニュース番組を示しています。約2分の時点でスポーツセグメントに切り替わります...」

これは人間が読むには便利です。しかし、下流(downstream)の自動化プロセスにとっては、ほとんど役に立ちません。エンタープライズワークフローにおいて実際に必要なのは、以下のような形式だからです。

{
  "start_time": 120.45,
  "end_time": 245.80,
  "metadata": {
    "segment_title": "NFLプレイオフ・リキャップ",
    "editorial_subjects": ["NFL", "プレイオフ", "負傷"],
    "names": ["Patrick Mahomes", "Lamar Jackson"],
    "confidence": "HIGH"
  }
}

表現力豊かなテキストと、機械が即座に処理できる構造化された出力との間のギャップは、単なるフォーマットの問題ではありません。モデリングと評価が密接に絡み合った問題なのです。


3. Twelve Labsのアプローチ:Schema-Conditioned Temporal Extraction

どの問題を解くか定義する

TBMを設計する際、私たちは重要な分岐点に立たされました。ビデオだけを受け取って何にでも答える汎用モデル(セグメンテーションもその機能の一つ)にするのか、それともビデオとともにユーザーが定義したスキーマを受け取り、そのスキーマに沿ってセグメントとフィールドを埋めるスキーマ条件付き抽出モデル(schema-conditioned extraction model)にするのか?

最初は前者が自然に思えました。しかし、§2で見た失敗パターン(曖昧な境界、自由形式のフィールド、実行ごとに異なる出力)は、結果的に汎用アプローチの構造的な限界でした。スキーマがなければ、モデルは何をどれほど正確に見つければよいのかを識別できず、評価も「それらしく書けているか?」というレベルに留まってしまいます。

私たちは後者を選択しました。TBMはすべての要件を網羅する汎用モデルではなく、正確な時間境界とスキーマに準拠(schema-conforming)したメタデータに最適化された抽出モデルです。


スキーマコンディショニングの下す3つの効果

TBMでは、ユーザーが segment_definitions を提供します。どのセグメントを探索し、それぞれからどのメタデータフィールドを抽出するのかを定義した構造化された仕様です。これは単に便利なAPIの設計にとどまりません。モデリングの観点から、スキーマコンディショニングは以下の3つの重要な役割を果たします。

探索空間の削減。 ビデオのあらゆる側面について自由な自然言語を生成する代わりに、モデルはスキーマが定義した制限された出力空間内で動作します。スポーツ中継であれば、 downscoring_playpenalty_type を指定するだけで十分です。可能性はあるものの無関係である膨大な観察空間が、すっきりと削ぎ落とされます。

境界整列の安定化。 モデルが何を探索しているかを認識すると(例えば、「プレーの境界(play boundary)」なのか「広告への移行(ad transition)」なのか)、一般的な変化点検出のヒューリスティックに頼る代わりに、ドメイン固有の時間的手がかり(ホイッスル、フォーメーションの変化、フェードトゥブラックのパターンなど)を活用できます。

評価のアンカリング(基準化)。 各スキーマフィールドが、具体的かつ測定可能な評価ターゲットになります。「モデルが映像を理解しているか?」という曖昧な問いの代わりに、「モデルがこのセグメントの down フィールドを正確に 3 と特定できたか?」と問うことができるようになります。


4. カバレッジの広さ:4つの手がかり(Cue)階層システム

スキーマコンディショニングを実際に機能させるには、スキーマがどのような種類の信号にマッピングされているかを特定する必要があります。ビデオセグメンテーションを困難にする要因の一つが、まさに境界を定義する信号の種類が非常に多様であるという点です。カメラアングルの切り替えといったフレームレベルの視覚的な変化から、ニュース編集パッケージの構造的な切り替え、話者の交代といった音声の手がかり、そしてスポーツにおける視覚+音声+競技ルールが結合された複合イベントまで、その幅は極めて広範囲に及びます。1つの単純なモデルだけで解決できる問題ではありません。

私たちはこの多様性を体系的に分類し、4つの「Cue(手がかり)階層」に整理しました。

Cue階層

説明

境界信号の例

Low-Level Visual

フレーム内で発生する視覚的要素の変化。狭い範囲の視覚的詳細に焦点を当てます。

ショットの切り替え、カメラアングルの変更

High-Level Semantic

意味的・ナラティブ(物語)レベルのグローバルな変化。視覚ストリームと音声ストリームの両方を含みます。

トピックの遷移、編集パッケージの境界(キャスター↔現場↔スタジオ)

Audio

音声、音楽、効果音、静寂などの聴覚信号です。

話者の交代、音楽/BGMの切り替え

Composite

視覚+音声+コンテキスト情報が結合されたマルチモーダルな信号です。

スポーツのプレー別イベント、広告挿入区間


この分類が持つ意味

一般的なビデオモデルは、これら4つの階層を区別しません。しかし、実際の顧客が抱えるセグメンテーション要件は、特定の階層、あるいは複数の階層の組み合わせに正確にマッピングされます。

  • ニュース放送局の「エディトリアルナラティブの分離」 → High-Level (トピック遷移 + 編集パッケージの境界)

  • 映像編集チームの「ショット境界の検出」 → Low-Level Visual (カメラカット、アングルの変化)

  • スポーツリーグの「プレー別セグメンテーション」 → Composite (視覚的フォーメーション + ホイッスル音 + 試合のルール)

  • ポッドキャストプラットフォームの「話者別の区間分離」 → Audio (話者の交代 + ASRによるトピックの変化)

この分類は、単なるアカデミックな整理にとどまりません。階層ごとに、モデリングの戦略、学習データ、評価指標がすべて異なるためです。Low-Level Visualはフレームごとの変化検出(frame-wise change detection)に近く、Compositeは長期の文脈理解(long-context reasoning)を要求するといった違いがあります。


5. Multimodal Grounding:テキストを超えて

エンタープライズのビデオセグメンテーションにおいて、しばしば直面する限界があります。それは、何を探索すべきかをテキストによる説明だけで十分に指定しきれないという点です。


テキストだけでは不十分な理由

ある旅行コンテンツプラットフォームの事例を見てみましょう。彼らが解決したい課題は以下の通りです。

外国人によるソウル旅行のVlog数万本の中から、 Nソウルタワー が画面に映るすべての瞬間を見つけ出したい。漢江や都市の全景から遠くに捉えた「エスタブリッシング・ショット」なのか、南山公園を散歩している際のカッティングなのか、展望台からのクローズアップや夜間のライトアップカットなのかまで分類して特定したい。

テキストだけでは不十分です。モデルが「Nソウルタワー」という名前を知っているからといって、その視覚的な外観まで安定して思い描くことができるとは限らないからです。ビデオ・言語モデルにおいて、特定のエンティティ(specific entity)の言語的認知と視覚的識別は別個の問題です。学習データの分布によっては視覚的表現が曖昧な場合もあり、東京タワーやCNタワーのように形状が酷似した他の電波塔(broadcasting tower)と混同されることもあります。しかし、Nソウルタワーの外観を示す写真を基準画像として1枚与えれば、モデルはその写真を視覚的埋め込み(visual embedding)の参照点として、ビデオフレームと直接比較できます。テキストを視覚情報に翻訳する負担が解消されるのです。


Entity Reference システム

TBMは media_sources をサポートしています。セグメント定義の中に <参照名> の形式でタグを埋め込むことで、ユーザーが登録した参照画像をコンテキスト内で直接指し示すことができます。

出典 - 世宗学堂財団, https://www.kogl.or.kr/recommend/recommendDivView.do?oc=&recommendIdx=91796&division=img#

{
  "segment_definitions": [{
    "id": "namsan_tower_appearances",
    "media_sources": [
      { "name": "namsan_tower_img", "media_type": "image", "media_url": "<https://cdn>.../namsan_tower.jpg" }
    ],
    "description": "<namsan_tower_img>として識別されるNソウルタワーが画面に登場する瞬間",
    "fields": [
      { "name": "screen_prominence", "type": "string",
        "enum": ["HERO_SHOT", "PARTIAL", "BACKGROUND"] },
      { "name": "shot_type", "type": "string",
        "enum": ["CITY_ESTABLISHING", "PARK_WALK", "OBSERVATION_DECK", "NIGHT_LIGHTUP"] }
    ]
  }]
}

モデリングの観点から言えば、これはセグメンテーションをオープンボキャブラリー検出(open-vocabulary detection)問題から、位置特定を伴うグラウンデッド検索(grounded retrieval + temporal localization)問題へと変換していることに相当します。

  1. Reference resolution (参照の解決):モデルが <namsan_tower_img> をビデオ全体にわたり、特定の視覚的な外観パターンに紐付ける必要があります。

  2. Visual embedding alignment (視覚的埋め込みの整列):参照画像が、ビデオフレームと同じ表現空間(representation space)上にエンコードされます。

  3. Conditional boundary detection (条件付き境界検出):セグメントの境界が一般的なシーンの切り替えではなく、特定の視覚的エンティティの同時出現を基準に決定されます。

これは「都市の風景のシーンを探して」と「Nソウルタワーが登場するシーンを探して」との違いに相当します。技術的な難易度の違いだけでなく、製品が実際に解決する問題そのものが変化するのです。

Entity groundingが加わると、セグメンテーションの失敗要因は「時間境界」「意味ラベル」「視覚的なエンティティ解決」の3つの軸に分散します。これが評価の問題をもう一段階複雑にする要因となります。


6. 品質保証:Dual-Track Evaluation (二重トラック評価)

TBMを構築・運用する中で、最も決定的でありながらも意外だった発見は、単一のスコアだけではセグメンテーションの品質を正しく判定できないという事実でした。


隠れた結合問題

以下の2つの失敗シナリオを比較してみましょう。

シナリオA。 モデルが 10.0s 〜 25.0s のセグメントを検出しました。実際の正答は 12.0s 〜 48.0s です。ニュースキャスターによる15秒のイントロだけを拾い上げ、その後に続く23秒の本編ストーリーを丸ごと見落とした形です。キャスターの名前、トピック、話者タグなどの情報はすべて完璧に記述できていましたが、時間境界は実際の内容の3分の1しかカバーできませんでした。

シナリオB。 モデルは正確に 12.0s 〜 48.0s を捉えました。しかし、本来は「政治分析」であるセグメントを「天気予報」とタギングしてしまいました。境界特定は難点がないものの、メタデータの内容が間違っている状態です。

単一の合算スコアでは、これら2つのケースを区別できません。しかし、改善の方向性はまったく異なります。前者は時間モデリング(temporal modeling)の改善が必要であり、後者は意味グラウンディング(semantic grounding)の調整を要します。これらのエラーモード(failure mode)を分解して管理しなければ、モデルの改善活動が実際に役立っているのかどうかさえ検証できなくなります。


Twelve Labsの解決策:独立した2つの評価トラック

Segment Track: 「モデルは正しい区間を見つけられたか?」

時間的な正確性を測定します。セグメントレベル(個々の区間をどれほど適切に捉えられたか)と時間軸レベル(タイムラインのどの区間を正しくカバーできているか)の両面から検証します。双方とも重要であるためです。一方に優れていても他方が損なわれていることがあり、どちら側がエラーを起こしているかがダイレクトに改善へのアプローチを決定づけます。最終的な比較には、これら2つの観点を統合した複合指標を主なベンチマークとして採用しています。

Metadata Track: 「検出した正しい区間において、モデルは正確に構造化を行えたか?」

セグメントマッチングの実施後、マッチングが成立したセグメントのペア内部で各フィールドを独立して評価します。LLM-as-judge方式を用い、0.0〜5.0のスケールで、フィールドごとの規定ガイドラインに従って採点します。

もう一つの仕掛け。 セグメント境界の合致度が高いほど、メタデータスコアに対してより大きな加重値を適用します。境界の曖昧な区間で「それらしく見える」メタデータが存在することで、全体スコアが不当に押し上げられるのを防ぐためです。

運用上の利点。 メタデータの評価段階を推論プロセスから切り離された「後処理工程」として定義しているため、高コストなビデオ推論を再度走らせることなく、LLM-as-judgeの評価基準(プロンプトやスコアリング用のガイドライン)を迅速に反復・アップデートできます。

なぜこの分離が不可欠なのか。 セグメント精度のスコアは改善しているのに対し、メタデータ精度のスコアが低下しているとすれば、それはモデルの時間特有の位置特定能力(temporal localization)は向上したものの、意味的な精度(semantic precision)をロスしている兆候です。これはモデルアーキテクチャの変更ではなく、学習データのバランスを再調整すべき局面であることを示します。こうした正確な診断は、評価トラックがそれぞれ独立して設計されて初めて可能になります。


7. Semantic Flywheel:補正がもたらす映像資産化の複利効果

資産化は、一度きりのバッチ処理で完結する作業ではありません。システムが健全に機能し始めると、一つひとつの回転が次の段階の燃料となる「自己強化ループ」へと入っていきます。


私たちはこれをSemantic Flywheel(意味的フライホイール)と呼んでいます。放送アーカイブ、ブランドインテリジェンス、コンプライアンス監査、スポーツハイライトの自動化。TBMベースで走るワークロードはドメインごとに多様ですが、すべて同じフライホイールに沿って進行します。セグメントとメタデータのペアが蓄積されると、クライアント側による境界補正、除外されたタグ、変更された値といった実運用のログそのものが、次世代のモデルをトレーニングする貴重な教師信号としてフィードバックされます。一度回転を始めれば、アーカイブは単に「整理される」だけではなく、回を追うごとに、さらに精緻で洗練された方法で自動分類・蓄積されるインテリジェントなエコシステムへと昇華します。

フライホイールが駆動を維持するための大前提は、改善のプロセスが定常的に観測可能であることです。時間境界の正確性とメタデータの品質を別個に切り離して計測できなければ、どちらが前進し、どちらがボトルネックになっているかを正しく判断することができません。方向を誤れば体系的なブラッシュアップは難しく、体系的なアプローチ抜きにはフライホイールはやがて失速してしまいます。コンテンツの資産構造を正確に捉える評価スキームなしには、資産化の取り組みは、その場限りの一見の成果に甘んじることになります。


8. Twelve Labsが学んだ教訓

TBMと、それを測定するための評価フレームワークの開発を通じて私たちが得た教訓です。

セグメンテーションの本質は質疑応答ではありません。 時間的セグメンテーションを単に「少し難解なLLMタスクの一つ」として捉えようとする無意識の方向性が、一時的に開発効率を阻害する要因となっていました。時間的な境界予測は、発生する固有のエラーモード、求められる評価構造、さらにはモデルアーキテクチャへの感度特性に至るまで、質疑応答(Q&A)とはすべての前提が異なっていたのです。この事実に初期段階で設計を見直せていれば、数か月におよぶ開発期間をスマートに短縮できていたでしょう。

構造化された出力は、美麗な流文よりもはるかに価値があります。 実業務の現場においては、タイムスタンプに数秒のミリ単位のずれが含まれていても、要件を満たした完全なJSONによるセグメントデータの方が、構造化されたデータ項目を一切含まない美麗な文学的ナラティブよりも業務的な実用価値を上回ります。「機械可読性(Machine-readability)」を「可読性の心地よさ(human-readability)」よりも最優先に位置付けた開発戦略は、結果として極めて妥当性の高い判断でした。

決定論的なアプローチは制約条件ではなく、コア機能そのものです。 「重複しないように制御された一貫したセグメント構造」「厳格なスキーマ整合管理」「既定値としての temperature=0」。開発の初期フェーズにおいて、これらの厳密な制約は「本来あるべきモデルの自由度や推論能力を大きく圧迫するものではないか」という疑念に突き当たることが多々ありました。しかし実際には、これらの硬性ルールがあったからこそ、出力される推論内容の確実性が担保され、実際のエンタープライズの自動化プロセスに組み込めるレベルまで実用性が引き上げられました。API上で複雑なソリューションシステムを構築する際、顧客が最終的に価値を見出すのは、「気まぐれな潜在能力」ではなく「変わらない堅牢性」です。


今後の展望

ビデオアセット化の変革は、まだスタートラインに立ったに過ぎません。より長尺の時系列コンテキストへの対応(3時間を超える大容量ソース)、さらに広範なマルチモーダル対応(数十種類の異なる実参照画像を用いた一発エンティティ処理)、そしてビデオの領域を超えて音声ストリームやポッドキャストをはじめとする多様な構成アセット(containerized asset)へ向けた共通抽出スキーマの展開。これらが私たちのロードマップで現在着実に実装を進めているネクストステップです。

しかしそれ以上に重要な挑戦は、技術の進化に適応し、自律的にスケールアウトを可能にする高品質な「評価フレームワークの構築」です。映像言語モデルの推論能力がより高精度に洗練されるほど、発生するエラーの傾向はさらに微視的かつ複雑化していくため、評価側の精度と検出アルゴリズムもそれと同じ歩幅で深化し続けねばなりません。

現在、世界中に点在するエンタープライズビデオアーカイブの圧倒的多数は、依然としてその眠れるポテンシャルを引き出される機会を待っています。ビデオから真の資産価値を引き出すためには、モデルそのものを磨き上げるだけでは不十分です。そのモデルがターゲットの関心を「本当に捉えているか」、そして「正確に定義できているか」をいつでも可視化して正しく測れる精確な評価の目利きこそが不可欠なのです。


Pegasus 1.5についてより詳しくお知りになりたい方はこちら → Pegasus 1.5 Tech Blog

プロダクトチームとともに、この大きな挑戦の旅路をともに歩む仲間を募っています → TwelveLabs Careers

放送局、スポーツリーグ、メディア企業、エンタープライズプラットフォームは、ペタバイト規模のビデオアーカイブを保有しています。しかし、このコンテンツの大部分は、私たちがダークビデオ(dark video)と呼ぶ状態に留まっています。存在してはいるものの、検索できず、構造化されておらず、意味のある単位で活用することもできない状態です。

その理由は驚くほど単純です。ビデオはテキストではないからです。ビデオファイルに grep をかけることはできませんし、 SELECT * FROM video WHERE scene = 'scoring_play' も不可能です。映像が経済的価値を持つためには、まず構造化されたセグメントと機械可読なメタデータに分解されなければなりません。私たちはこのプロセスをビデオ資産化(video assetization)と呼んでいます。

この記事は、Time-Based Metadata(TBM、時間基準メタデータ)とその評価体系を構築してきた私たちの物語です。その過程で、一つのことが明らかになりました。時間・意味ベースの映像理解を設計し評価する際には、テキストや画像モデルとは異なるアプローチが必要だということです。


1. ビデオ資産化のギャップ:顧客が本当に求めているもの

20万時間のニュースアーカイブを管理する放送局を想像してみてください。現在、この作業は手動で行われています。映像アーカイブの担当者が各セグメントを手動でロギングし、ストーリーをタギングし、話者を特定し、トピックの境界を表示するという方法です。映像1時間あたり約15ドルのコストがかかり、予算は削減されつつあります。このような方法では、到底スケールしません。

もう一つの事例も見てみましょう。数千人のインフルエンサーの動画にわたり、自社製品の露出を追跡したい消費財ブランドがあるとします。特定の製品が画面に登場し、クリエイターがカメラに向かって話しているすべての瞬間を見つけ出す必要があります。単に製品が登場したという事実だけでは不十分です。正確にいつ、どれほど目立って、どのような文脈で登場したのかまで把握しなければならないからです。

これらの事例は架空のものではありません。放送アーカイブ管理、スポーツハイライトの自動化、ブランドインテリジェンス、コンプライアンス監査。私たちが目にするほぼすべてのエンタープライズビデオワークロードは、互いに独立した2つの要素を同時に要求します。

  1. 正確な時間境界:各セグメントはどこで始まり、どこで終わるのか?

  2. スキーマに準拠した構造化メタデータ:そのセグメント内で何が起きたのか?

今日、多くの映像・言語モデルに「この動画で何が起きていますか?」と尋ねると、流暢な文章を返してくれます。しかし、「すべてのエディトリアルナラティブの開始/終了タイムスタンプを、構造化されたフィールド(トピック、話者、信頼度など)とともに提供してほしい」と要求した瞬間、汎用的なビデオ推論とプロダクションセグメンテーションが全く異なる問題であることに即座に気づくことになります。

放送局が実際に求めている結果を、より具体的に描いてみましょう。各エディトリアルセグメントには、タイトル、説明、編集トピック、登場人物、信頼度レベルが必要です。1時間のニュース番組からTBMが抽出する結果は、以下のような形になります。


各セグメントには、 editorial_subjectsvisual_subjectsnamesconfidence といった構造化されたメタデータが含まれます。1時間の番組が、クエリ可能なオブジェクトの集合へと変換される瞬間です。


2. なぜ既存のアプローチは失敗するのか

境界予測問題 (Boundary Prediction Problem)

大規模言語モデルは、区間に対する推論(要約、質疑応答、内容描写)に優れています。しかし、セグメントの境界がどこにあるかを予測することは、本質的に異なる課題です。

境界予測(Boundary prediction)は、3つの技術的難問の交差点に位置しています。

  • Weakly-supervised temporal localization:グラウンドトゥルース(正解データ)が希薄で主観的です。

  • Multimodal change-point detection:境界が視覚・音声・意味信号の同時変化によって定義されます。

  • Autoregressive decodingにおけるトークンレベルの分類(token-level classification):モデルが正確なタイムスタンプをトークンとして出力する必要があります。

初期の実験では、最先端のフロンティアモデルでさえ、意味的には合理的であるものの、時間的には不正確な境界を出力しました。ハードカットから開始すべきセグメントが5〜15秒ほどずれてしまうといった具合です。モデルは何が起きているかはよく理解していましたが、それが「いつ」起きているかを正確に特定できなかったのです。


スキーマがなければ、それは資産ではありません

ほとんどの映像・言語モデルは、自由形式のテキストを生成します。

「この映像はニュース番組を示しています。約2分の時点でスポーツセグメントに切り替わります...」

これは人間が読むには便利です。しかし、下流(downstream)の自動化プロセスにとっては、ほとんど役に立ちません。エンタープライズワークフローにおいて実際に必要なのは、以下のような形式だからです。

{
  "start_time": 120.45,
  "end_time": 245.80,
  "metadata": {
    "segment_title": "NFLプレイオフ・リキャップ",
    "editorial_subjects": ["NFL", "プレイオフ", "負傷"],
    "names": ["Patrick Mahomes", "Lamar Jackson"],
    "confidence": "HIGH"
  }
}

表現力豊かなテキストと、機械が即座に処理できる構造化された出力との間のギャップは、単なるフォーマットの問題ではありません。モデリングと評価が密接に絡み合った問題なのです。


3. Twelve Labsのアプローチ:Schema-Conditioned Temporal Extraction

どの問題を解くか定義する

TBMを設計する際、私たちは重要な分岐点に立たされました。ビデオだけを受け取って何にでも答える汎用モデル(セグメンテーションもその機能の一つ)にするのか、それともビデオとともにユーザーが定義したスキーマを受け取り、そのスキーマに沿ってセグメントとフィールドを埋めるスキーマ条件付き抽出モデル(schema-conditioned extraction model)にするのか?

最初は前者が自然に思えました。しかし、§2で見た失敗パターン(曖昧な境界、自由形式のフィールド、実行ごとに異なる出力)は、結果的に汎用アプローチの構造的な限界でした。スキーマがなければ、モデルは何をどれほど正確に見つければよいのかを識別できず、評価も「それらしく書けているか?」というレベルに留まってしまいます。

私たちは後者を選択しました。TBMはすべての要件を網羅する汎用モデルではなく、正確な時間境界とスキーマに準拠(schema-conforming)したメタデータに最適化された抽出モデルです。


スキーマコンディショニングの下す3つの効果

TBMでは、ユーザーが segment_definitions を提供します。どのセグメントを探索し、それぞれからどのメタデータフィールドを抽出するのかを定義した構造化された仕様です。これは単に便利なAPIの設計にとどまりません。モデリングの観点から、スキーマコンディショニングは以下の3つの重要な役割を果たします。

探索空間の削減。 ビデオのあらゆる側面について自由な自然言語を生成する代わりに、モデルはスキーマが定義した制限された出力空間内で動作します。スポーツ中継であれば、 downscoring_playpenalty_type を指定するだけで十分です。可能性はあるものの無関係である膨大な観察空間が、すっきりと削ぎ落とされます。

境界整列の安定化。 モデルが何を探索しているかを認識すると(例えば、「プレーの境界(play boundary)」なのか「広告への移行(ad transition)」なのか)、一般的な変化点検出のヒューリスティックに頼る代わりに、ドメイン固有の時間的手がかり(ホイッスル、フォーメーションの変化、フェードトゥブラックのパターンなど)を活用できます。

評価のアンカリング(基準化)。 各スキーマフィールドが、具体的かつ測定可能な評価ターゲットになります。「モデルが映像を理解しているか?」という曖昧な問いの代わりに、「モデルがこのセグメントの down フィールドを正確に 3 と特定できたか?」と問うことができるようになります。


4. カバレッジの広さ:4つの手がかり(Cue)階層システム

スキーマコンディショニングを実際に機能させるには、スキーマがどのような種類の信号にマッピングされているかを特定する必要があります。ビデオセグメンテーションを困難にする要因の一つが、まさに境界を定義する信号の種類が非常に多様であるという点です。カメラアングルの切り替えといったフレームレベルの視覚的な変化から、ニュース編集パッケージの構造的な切り替え、話者の交代といった音声の手がかり、そしてスポーツにおける視覚+音声+競技ルールが結合された複合イベントまで、その幅は極めて広範囲に及びます。1つの単純なモデルだけで解決できる問題ではありません。

私たちはこの多様性を体系的に分類し、4つの「Cue(手がかり)階層」に整理しました。

Cue階層

説明

境界信号の例

Low-Level Visual

フレーム内で発生する視覚的要素の変化。狭い範囲の視覚的詳細に焦点を当てます。

ショットの切り替え、カメラアングルの変更

High-Level Semantic

意味的・ナラティブ(物語)レベルのグローバルな変化。視覚ストリームと音声ストリームの両方を含みます。

トピックの遷移、編集パッケージの境界(キャスター↔現場↔スタジオ)

Audio

音声、音楽、効果音、静寂などの聴覚信号です。

話者の交代、音楽/BGMの切り替え

Composite

視覚+音声+コンテキスト情報が結合されたマルチモーダルな信号です。

スポーツのプレー別イベント、広告挿入区間


この分類が持つ意味

一般的なビデオモデルは、これら4つの階層を区別しません。しかし、実際の顧客が抱えるセグメンテーション要件は、特定の階層、あるいは複数の階層の組み合わせに正確にマッピングされます。

  • ニュース放送局の「エディトリアルナラティブの分離」 → High-Level (トピック遷移 + 編集パッケージの境界)

  • 映像編集チームの「ショット境界の検出」 → Low-Level Visual (カメラカット、アングルの変化)

  • スポーツリーグの「プレー別セグメンテーション」 → Composite (視覚的フォーメーション + ホイッスル音 + 試合のルール)

  • ポッドキャストプラットフォームの「話者別の区間分離」 → Audio (話者の交代 + ASRによるトピックの変化)

この分類は、単なるアカデミックな整理にとどまりません。階層ごとに、モデリングの戦略、学習データ、評価指標がすべて異なるためです。Low-Level Visualはフレームごとの変化検出(frame-wise change detection)に近く、Compositeは長期の文脈理解(long-context reasoning)を要求するといった違いがあります。


5. Multimodal Grounding:テキストを超えて

エンタープライズのビデオセグメンテーションにおいて、しばしば直面する限界があります。それは、何を探索すべきかをテキストによる説明だけで十分に指定しきれないという点です。


テキストだけでは不十分な理由

ある旅行コンテンツプラットフォームの事例を見てみましょう。彼らが解決したい課題は以下の通りです。

外国人によるソウル旅行のVlog数万本の中から、 Nソウルタワー が画面に映るすべての瞬間を見つけ出したい。漢江や都市の全景から遠くに捉えた「エスタブリッシング・ショット」なのか、南山公園を散歩している際のカッティングなのか、展望台からのクローズアップや夜間のライトアップカットなのかまで分類して特定したい。

テキストだけでは不十分です。モデルが「Nソウルタワー」という名前を知っているからといって、その視覚的な外観まで安定して思い描くことができるとは限らないからです。ビデオ・言語モデルにおいて、特定のエンティティ(specific entity)の言語的認知と視覚的識別は別個の問題です。学習データの分布によっては視覚的表現が曖昧な場合もあり、東京タワーやCNタワーのように形状が酷似した他の電波塔(broadcasting tower)と混同されることもあります。しかし、Nソウルタワーの外観を示す写真を基準画像として1枚与えれば、モデルはその写真を視覚的埋め込み(visual embedding)の参照点として、ビデオフレームと直接比較できます。テキストを視覚情報に翻訳する負担が解消されるのです。


Entity Reference システム

TBMは media_sources をサポートしています。セグメント定義の中に <参照名> の形式でタグを埋め込むことで、ユーザーが登録した参照画像をコンテキスト内で直接指し示すことができます。

出典 - 世宗学堂財団, https://www.kogl.or.kr/recommend/recommendDivView.do?oc=&recommendIdx=91796&division=img#

{
  "segment_definitions": [{
    "id": "namsan_tower_appearances",
    "media_sources": [
      { "name": "namsan_tower_img", "media_type": "image", "media_url": "<https://cdn>.../namsan_tower.jpg" }
    ],
    "description": "<namsan_tower_img>として識別されるNソウルタワーが画面に登場する瞬間",
    "fields": [
      { "name": "screen_prominence", "type": "string",
        "enum": ["HERO_SHOT", "PARTIAL", "BACKGROUND"] },
      { "name": "shot_type", "type": "string",
        "enum": ["CITY_ESTABLISHING", "PARK_WALK", "OBSERVATION_DECK", "NIGHT_LIGHTUP"] }
    ]
  }]
}

モデリングの観点から言えば、これはセグメンテーションをオープンボキャブラリー検出(open-vocabulary detection)問題から、位置特定を伴うグラウンデッド検索(grounded retrieval + temporal localization)問題へと変換していることに相当します。

  1. Reference resolution (参照の解決):モデルが <namsan_tower_img> をビデオ全体にわたり、特定の視覚的な外観パターンに紐付ける必要があります。

  2. Visual embedding alignment (視覚的埋め込みの整列):参照画像が、ビデオフレームと同じ表現空間(representation space)上にエンコードされます。

  3. Conditional boundary detection (条件付き境界検出):セグメントの境界が一般的なシーンの切り替えではなく、特定の視覚的エンティティの同時出現を基準に決定されます。

これは「都市の風景のシーンを探して」と「Nソウルタワーが登場するシーンを探して」との違いに相当します。技術的な難易度の違いだけでなく、製品が実際に解決する問題そのものが変化するのです。

Entity groundingが加わると、セグメンテーションの失敗要因は「時間境界」「意味ラベル」「視覚的なエンティティ解決」の3つの軸に分散します。これが評価の問題をもう一段階複雑にする要因となります。


6. 品質保証:Dual-Track Evaluation (二重トラック評価)

TBMを構築・運用する中で、最も決定的でありながらも意外だった発見は、単一のスコアだけではセグメンテーションの品質を正しく判定できないという事実でした。


隠れた結合問題

以下の2つの失敗シナリオを比較してみましょう。

シナリオA。 モデルが 10.0s 〜 25.0s のセグメントを検出しました。実際の正答は 12.0s 〜 48.0s です。ニュースキャスターによる15秒のイントロだけを拾い上げ、その後に続く23秒の本編ストーリーを丸ごと見落とした形です。キャスターの名前、トピック、話者タグなどの情報はすべて完璧に記述できていましたが、時間境界は実際の内容の3分の1しかカバーできませんでした。

シナリオB。 モデルは正確に 12.0s 〜 48.0s を捉えました。しかし、本来は「政治分析」であるセグメントを「天気予報」とタギングしてしまいました。境界特定は難点がないものの、メタデータの内容が間違っている状態です。

単一の合算スコアでは、これら2つのケースを区別できません。しかし、改善の方向性はまったく異なります。前者は時間モデリング(temporal modeling)の改善が必要であり、後者は意味グラウンディング(semantic grounding)の調整を要します。これらのエラーモード(failure mode)を分解して管理しなければ、モデルの改善活動が実際に役立っているのかどうかさえ検証できなくなります。


Twelve Labsの解決策:独立した2つの評価トラック

Segment Track: 「モデルは正しい区間を見つけられたか?」

時間的な正確性を測定します。セグメントレベル(個々の区間をどれほど適切に捉えられたか)と時間軸レベル(タイムラインのどの区間を正しくカバーできているか)の両面から検証します。双方とも重要であるためです。一方に優れていても他方が損なわれていることがあり、どちら側がエラーを起こしているかがダイレクトに改善へのアプローチを決定づけます。最終的な比較には、これら2つの観点を統合した複合指標を主なベンチマークとして採用しています。

Metadata Track: 「検出した正しい区間において、モデルは正確に構造化を行えたか?」

セグメントマッチングの実施後、マッチングが成立したセグメントのペア内部で各フィールドを独立して評価します。LLM-as-judge方式を用い、0.0〜5.0のスケールで、フィールドごとの規定ガイドラインに従って採点します。

もう一つの仕掛け。 セグメント境界の合致度が高いほど、メタデータスコアに対してより大きな加重値を適用します。境界の曖昧な区間で「それらしく見える」メタデータが存在することで、全体スコアが不当に押し上げられるのを防ぐためです。

運用上の利点。 メタデータの評価段階を推論プロセスから切り離された「後処理工程」として定義しているため、高コストなビデオ推論を再度走らせることなく、LLM-as-judgeの評価基準(プロンプトやスコアリング用のガイドライン)を迅速に反復・アップデートできます。

なぜこの分離が不可欠なのか。 セグメント精度のスコアは改善しているのに対し、メタデータ精度のスコアが低下しているとすれば、それはモデルの時間特有の位置特定能力(temporal localization)は向上したものの、意味的な精度(semantic precision)をロスしている兆候です。これはモデルアーキテクチャの変更ではなく、学習データのバランスを再調整すべき局面であることを示します。こうした正確な診断は、評価トラックがそれぞれ独立して設計されて初めて可能になります。


7. Semantic Flywheel:補正がもたらす映像資産化の複利効果

資産化は、一度きりのバッチ処理で完結する作業ではありません。システムが健全に機能し始めると、一つひとつの回転が次の段階の燃料となる「自己強化ループ」へと入っていきます。


私たちはこれをSemantic Flywheel(意味的フライホイール)と呼んでいます。放送アーカイブ、ブランドインテリジェンス、コンプライアンス監査、スポーツハイライトの自動化。TBMベースで走るワークロードはドメインごとに多様ですが、すべて同じフライホイールに沿って進行します。セグメントとメタデータのペアが蓄積されると、クライアント側による境界補正、除外されたタグ、変更された値といった実運用のログそのものが、次世代のモデルをトレーニングする貴重な教師信号としてフィードバックされます。一度回転を始めれば、アーカイブは単に「整理される」だけではなく、回を追うごとに、さらに精緻で洗練された方法で自動分類・蓄積されるインテリジェントなエコシステムへと昇華します。

フライホイールが駆動を維持するための大前提は、改善のプロセスが定常的に観測可能であることです。時間境界の正確性とメタデータの品質を別個に切り離して計測できなければ、どちらが前進し、どちらがボトルネックになっているかを正しく判断することができません。方向を誤れば体系的なブラッシュアップは難しく、体系的なアプローチ抜きにはフライホイールはやがて失速してしまいます。コンテンツの資産構造を正確に捉える評価スキームなしには、資産化の取り組みは、その場限りの一見の成果に甘んじることになります。


8. Twelve Labsが学んだ教訓

TBMと、それを測定するための評価フレームワークの開発を通じて私たちが得た教訓です。

セグメンテーションの本質は質疑応答ではありません。 時間的セグメンテーションを単に「少し難解なLLMタスクの一つ」として捉えようとする無意識の方向性が、一時的に開発効率を阻害する要因となっていました。時間的な境界予測は、発生する固有のエラーモード、求められる評価構造、さらにはモデルアーキテクチャへの感度特性に至るまで、質疑応答(Q&A)とはすべての前提が異なっていたのです。この事実に初期段階で設計を見直せていれば、数か月におよぶ開発期間をスマートに短縮できていたでしょう。

構造化された出力は、美麗な流文よりもはるかに価値があります。 実業務の現場においては、タイムスタンプに数秒のミリ単位のずれが含まれていても、要件を満たした完全なJSONによるセグメントデータの方が、構造化されたデータ項目を一切含まない美麗な文学的ナラティブよりも業務的な実用価値を上回ります。「機械可読性(Machine-readability)」を「可読性の心地よさ(human-readability)」よりも最優先に位置付けた開発戦略は、結果として極めて妥当性の高い判断でした。

決定論的なアプローチは制約条件ではなく、コア機能そのものです。 「重複しないように制御された一貫したセグメント構造」「厳格なスキーマ整合管理」「既定値としての temperature=0」。開発の初期フェーズにおいて、これらの厳密な制約は「本来あるべきモデルの自由度や推論能力を大きく圧迫するものではないか」という疑念に突き当たることが多々ありました。しかし実際には、これらの硬性ルールがあったからこそ、出力される推論内容の確実性が担保され、実際のエンタープライズの自動化プロセスに組み込めるレベルまで実用性が引き上げられました。API上で複雑なソリューションシステムを構築する際、顧客が最終的に価値を見出すのは、「気まぐれな潜在能力」ではなく「変わらない堅牢性」です。


今後の展望

ビデオアセット化の変革は、まだスタートラインに立ったに過ぎません。より長尺の時系列コンテキストへの対応(3時間を超える大容量ソース)、さらに広範なマルチモーダル対応(数十種類の異なる実参照画像を用いた一発エンティティ処理)、そしてビデオの領域を超えて音声ストリームやポッドキャストをはじめとする多様な構成アセット(containerized asset)へ向けた共通抽出スキーマの展開。これらが私たちのロードマップで現在着実に実装を進めているネクストステップです。

しかしそれ以上に重要な挑戦は、技術の進化に適応し、自律的にスケールアウトを可能にする高品質な「評価フレームワークの構築」です。映像言語モデルの推論能力がより高精度に洗練されるほど、発生するエラーの傾向はさらに微視的かつ複雑化していくため、評価側の精度と検出アルゴリズムもそれと同じ歩幅で深化し続けねばなりません。

現在、世界中に点在するエンタープライズビデオアーカイブの圧倒的多数は、依然としてその眠れるポテンシャルを引き出される機会を待っています。ビデオから真の資産価値を引き出すためには、モデルそのものを磨き上げるだけでは不十分です。そのモデルがターゲットの関心を「本当に捉えているか」、そして「正確に定義できているか」をいつでも可視化して正しく測れる精確な評価の目利きこそが不可欠なのです。


Pegasus 1.5についてより詳しくお知りになりたい方はこちら → Pegasus 1.5 Tech Blog

プロダクトチームとともに、この大きな挑戦の旅路をともに歩む仲間を募っています → TwelveLabs Careers