
商品
Pegasus 1.5の構築:クリップ単位のQAから時間単位のメタデータへ

キアン・キム、シャノン・ホン
Pegasus 1.5は、ビデオ理解における根本的な転換をもたらします。それは、動画クリップに関する質問に答えることから、ビデオ全体にわたって構造化された時間基準のメタデータを生成することへの移行です。本記事では、時間的セグメンテーション(temporal segmentation)の背後にある技術的課題、TwelveLabsが第一原理から新しい評価指標とデータセットをどのように設計したか、そしてなぜトレーニングをこれらの指標に合わせることが実世界での信頼性にとって重要なのかを詳しく解説します。その結果、ビデオを検索可能でプロダクション環境に対応したデータに変換し、大規模な検索、分析、自動化を可能にするシステムが実現しました。
Pegasus 1.5は、ビデオ理解における根本的な転換をもたらします。それは、動画クリップに関する質問に答えることから、ビデオ全体にわたって構造化された時間基準のメタデータを生成することへの移行です。本記事では、時間的セグメンテーション(temporal segmentation)の背後にある技術的課題、TwelveLabsが第一原理から新しい評価指標とデータセットをどのように設計したか、そしてなぜトレーニングをこれらの指標に合わせることが実世界での信頼性にとって重要なのかを詳しく解説します。その結果、ビデオを検索可能でプロダクション環境に対応したデータに変換し、大規模な検索、分析、自動化を可能にするシステムが実現しました。

この記事の内容
No headings found on page
ニュースレターに登録する
ニュースレターに登録する
ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします
ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします
AIを活用してビデオを検索、分析、探索します。
2026/04/19
12分
記事へのリンクをコピー

1 - クリップベースの回答から構造化されたビデオインテリジェンスへ
ビデオは最も情報豊かな形態の一つですが、ソフトウェアシステムにとっては最もアクセスしにくいものの一つであり続けています。テキストや画像とは異なり、ビデオにおける意味は単一の瞬間にとどまりません。時間の経過に伴う連続性、マルチモーダルな相互作用、そして因果関係を通じて生まれます。スポーツのプレイが数秒かけて展開され、映画のプロットが数分間に及び、ブランドの登場が視覚的には些細であっても文脈上重要であることがあります。ビデオを大規模に活用するために、システムは何が起こるかだけでなく、それがいつ起こるかについても推論する必要があります。
ここで時間ベースのメタデータが不可欠になります。時間ベースのメタデータは、生のビデオを構造化されタイムスタンプが押されたデータへと変換し、開発者がビデオをクエリ可能かつ計算可能な資産として扱えるようにします。手作業で映像を確認したり、不安定なヒューリスティクスに頼ったりする代わりに、組織は自社ビジネスにとって重要なこと(編集セグメント、スポーツのプレイ、発言者の交代、ブランドの登場など)を定義し、ビデオライブラリ全体からこれらのイベントを自動的に抽出できます。

Pegasusの以前のバージョンは、異なる種類の問題に対処していました。Pegasus 1.2はビデオ質問回答 (QA) システムとして設計されました。ユーザーがクリップを提供して質問すると、モデルが回答や要約を返します。このパラダイムは、事実に関するクエリや局所的な理解には適しています。しかし、実際のワークフローにおいては根本的な制限が生じます。それは、ユーザーがどこを探すべきかをあらかじめ知っていなければならないということです。大規模な環境(メディアアーカイブ、ライブスポーツ、配信カタログなど)では、この前提は成り立ちません。
その結果、Pegasus 1.2は、ビデオ全体にわたる体系的なセグメンテーションや、一貫したメタデータ抽出を必要とするワークフローを完全にはサポートできませんでした。モデル駆動型の境界検出が存在しなかったため、ユーザーは関心のある時間領域を定義するために、依然として手動のアノテーションやヒューリスティックな前処理に依存していました。
Pegasus 1.5は根本的な大転換を意味します。事前定義されたクリップに対する質問に回答する代わりに、モデルはユーザー定義のスキーマに従ってビデオ全体を分割し、各セグメントに構造化されたメタデータでラベルを貼り付けます。この変革により、ビデオ理解は検索の問題からデータ生成パイプラインへと移行し、ビデオは分析、自動化、およびエージェントシステムのためのファーストクラスのインプットになります。
2 - 非構造化ビデオのコスト
ビデオコンテンツの爆発的な成長にもかかわらず、ほとんどの組織は依然として非構造化メディアとして管理しています。従来のアプローチは、手動のロギング、キーワードタグ付け、または単純なカット検出アルゴリズムに依存しています。これらの方法では、下流の意思決定に必要な意味的および時間的な複雑さを捉えることができません。
システム側の観点から見ると、課題はビデオの3つの特性に起因します:
時間的曖昧さ: イベントには明確な境界がありません。ニュースストーリーがどこで始まり、スポーツのプレイがどこで終わるかを判断するには、複数のモダリティにわたる文脈的な推論が必要です。
マルチモーダルへの依存: 意味は、視覚的ヒント、音声、オーディオ信号、画面上のテキストの相互作用から生じます。
スキーマの多様性: 組織によって関心を持つイベントは異なるため、柔軟でドメイン特定の定義が必要になります。
信頼性の高い時間ベースのメタデータがなければ、ビデオを簡単にインデックス化、クエリ、あるいはデータパイプラインに統合できず、自動化や分析における価値が制限されます。
生ビデオと構造化データの間の運用上のギャップは、次の比較で説明できます:
図1: 従来のワークフロー

図2: Pegasus 1.5のワークフロー

開発者がイベントのボキャブラリを定義できるようにすることで、Pegasus 1.5は時間的推論の負担を人間からモデルへと移行させ、スケーラブルで一貫したメタデータ抽出を実現します。
メディア&エンターテインメントでは、編集チームは長尺のコンテンツを、シーン、トピック、キャラクターの登場などのナビゲーションユニットに分割し、アーカイブ、レコメンデーション、収益化をサポートする必要があります。Pegasus 1.5を使用すると、編集セグメントのスキーマを定義し、カタログ全体から構造化されたメタデータを自動的に抽出できます。これにより、セマンティック検索、ハイライトの自動生成、効率的なコンテンツの再利用が可能になります。
スポーツアナリティクスでは、スポーツ映像内のプレイを特定してラベルを付ける作業は労力がかかり、時間的な制約もあるため、専門家がゲーム全体を確認することがよく求められます。Pegasus 1.5を使用すると、プレイ(ゴール、ファウル、ターンオーバーなど)のスキーマを定義し、正確な時間境界で各インスタンスを自動的に検出できます。これは、リアルタイムのハイライト作成やパフォーマンス分析をサポートします。
ストリーミングプラットフォームでは、ターゲット広告やコンテンツの収益化を可能にするために、ブランドの露出、シーンの切り替わり、文脈に応じた瞬間を特定する必要があります。Pegasus 1.5を使用すると、ブランドの視認性や文脈に即したトリガーのスキーマを定義でき、膨大なライブラリ全体から収益化可能な瞬間を自動的に検出できます。
3 - 技術的基盤: 時間ベースのメタデータの定義
時間ベースのメタデータ (TBM) とは、ビデオの特定の時間的セグメントに関連付けられた構造化情報を指します。各セグメントは正確な開始および終了のタイムスタンプによって定義され、ユーザー定義のスキーマに準拠するメタデータフィールドで強化されます。
形式的には、TBM出力は以下のように表現できます:
Segment = { start_time: float, end_time: float, metadata: { key: value, ... } }
完全な分析は、ユーザーから提供された各セマンティック定義用の、重複しないセグメントのセットで構成されます。この構造により、検索インデックス、分析プラットフォーム、およびエージェントベースのワークフローなどの下流システムとの確実な統合が可能になります。
Pegasus 1.5は、 /analyze APIを通じて、スキーマファーストのインタラクションモデルを導入します。開発者は、モデルに対してオープンエンドの質問をする代わりに、以下を記述するセグメント定義を指定します:
何をもってセグメントとするか(意味的な説明)
どのメタデータフィールドを抽出するか
長さや文脈上の言及などの制限(オプション)
この設計により、本番環境における一貫性、決定性、および統合準備の容易さが保証されます。

これは上記のバスケットボールのビデオに対する /analyze APIリクエストの例です:
{ "model_name": "pegasus1.5", "analysis_mode": "time_based_metadata", "video": { "type": "url", "url": "https://example.com/video.mp4" }, "response_format": { "type": "segment_definitions", "segment_definitions": [ { "id": "non_gameplay_footage", "description": "画面上のコンテンツが実際の試合プレイではない場合のみセグメントを生成します。", "fields": [ { "name": "description", "type": "string", "description": "ゲームプレイ以外の映像に関する詳細かつ長い説明。" } ] }, { "id": "scoring_plays", "description": "チームが得点したすべての時間をセグメント化します。セグメントは得点プレイ全体とします。", "fields": [ { "name": "points_scored", "type": "string", "description": "プレイ中に得点された点数。", "enum": [ "2pt", "1pt", "3pt" ] }, { "name": "shot_type", "type": "string", "description": "得点プレイにおけるシュートの種類。", "enum": [ "jump_start", "layup", "dunk", "foul_shot" ] }, { "name": "scoring_team", "type": "string", "description": "得点したチームの名前。" } ] }, { "id": "camera_cut", "description": "カメラにハードカット(パッと切り替わる場面)がある瞬間のみセグメント化します。それ以外の場合は現在のセグメントを継続します。", "fields": [ { "name": "camera_angle", "type": "string", "description": "現在のカメラのアングル。", "enum": [ "high", "low", "medium" ] } ] } ] }, "temperature": 0, "min_segment_duration": 2 }
そして、以下が応答の出力例の構造です:
"result": { "generation_id": "5be1b8c6-7e92-43ce-b37d-ba1b53ed1ebe", "data": "{\"gameplay_footage\": [{\"start_time\": 0.0, \"end_time\": 11.0, \"metadata\": {\"description\": \"ロヨラ大学のNCAAチャンピオンシップ優勝を発表するタイトルカードでビデオが始まり、その後に満員の競技場のワイドショットと、コート上の'NCAA Finals 1963'ロゴのクローズアップが続きます。\"}}, {\"start_time\": 20.0, \"end_time\": 22.0, \"metadata\": {\"description\": \"短いカットインカットが、観客席の女性が笑顔で熱心に拍手している様子を示しています。\"}}, {\"start_time\": 29.0, \"end_time\": 31.0, \"metadata\": {\"description\": \"カメラがスコアボードにズームし、第2ピリオド残り2:04でスコアが48-50であることを示しています。\"}}, {\"start_time\": 53.0, \"end_time\": 54.0, \"metadata\": {\"description\": \"観客席の観客が試合に反応している短いショット。\"}}, {\"start_time\": 56.0, \"end_time\": 58.0, \"metadata\": {\"description\": \"カメラが観客席で両腕を上げて祝う2人の男性を捉えています。\"}}, {\"start_time\": 68.0, \"end_time\": 70.0, \"metadata\": {\"description\": \"再びスコアボードが表示され、第3ピリオドの残り5:00で54-54と同点のスプリットスコアを示しています。\"}}, {\"start_time\": 76.0, \"end_time\": 78.0, \"metadata\": {\"description\": \"群衆のショットが、試合中にファンが歓声を上げて祝っている様子を示しています。\"}}, {\"start_time\": 81.0, \"end_time\": 83.0, \"metadata\": {\"description\": \"コート上で2人のチアリーダーがルーティンを披露している様子が表示されます。\"}}, {\"start_time\": 88.0, \"end_time\": 90.0, \"metadata\": {\"description\": \"スーツを着た男性が観客席に立ち、拍手を送っている姿が見られます。\"}}, {\"start_time\": 109.0, \"end_time\": 118.0, \"metadata\": {\"description\": \"最後のシュートに続いて、ロヨラの選手とコーチがコートになだれ込み、チャンピオンシップの勝利を祝います。\"}}, {\"start_time\": 118.0, \"end_time\": 121.0, \"metadata\": {\"description\": \"最終スコアボードが表示され、タイムアウト時のロヨラの60-58での勝利を示しています。\"}}], \"scoring_plays\": [{\"start_time\": 12.0, \"end_time\": 20.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"layup\", \"scoring_team\": \"シンシナティ大学ベアキャッツ\"}}, {\"start_time\": 23.0, \"end_time\": 28.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"jump_start\", \"scoring_team\": \"ロヨラ・ランブラーズ\"}}, {\"start_time\": 46.0, \"end_time\": 52.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"layup\", \"scoring_team\": \"ロヨラ・ランブラーズ\"}}, {\"start_time\": 60.0, \"end_time\": 68.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"layup\", \"scoring_team\": \"ロヨラ・ランブラーズ\"}}, {\"start_time\": 71.0, \"end_time\": 76.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"jump_start\", \"scoring_team\": \"ロヨラ・ランブラーズ\"}}, {\"start_time\": 79.0, \"end_time\": 83.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"jump_start\", \"scoring_team\": \"シンシナティ大学ベアキャッツ\"}}, {\"start_time\": 102.0, \"end_time\": 110.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"layup\", \"scoring_team\": \"ロヨラ・ランブラーズ\"}}], \"camera_cut\": [{\"start_time\": 0.0, \"end_time\": 3.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 3.0, \"end_time\": 10.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 10.0, \"end_time\": 11.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 11.0, \"end_time\": 20.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 20.0, \"end_time\": 22.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 22.0, \"end_time\": 28.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 28.0, \"end_time\": 31.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 31.0, \"end_time\": 38.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 38.0, \"end_time\": 45.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 45.0, \"end_time\": 53.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 53.0, \"end_time\": 54.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 54.0, \"end_time\": 56.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 56.0, \"end_time\": 58.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 58.0, \"end_time\": 68.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 68.0, \"end_time\": 70.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 70.0, \"end_time\": 76.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 76.0, \"end_time\": 78.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 78.0, \"end_time\": 81.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 81.0, \"end_time\": 83.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 83.0, \"end_time\": 88.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 88.0, \"end_time\": 90.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 90.0, \"end_time\": 108.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 108.0, \"end_time\": 118.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 118.0, \"end_time\": 121.0, \"metadata\": {\"camera_angle\": \"medium\"}}]}" "finish_reason": "stop", "usage": { "output_tokens": <number>
レスポンス構造の

1 - クリップベースの回答から構造化されたビデオインテリジェンスへ
ビデオは最も情報豊かな形態の一つですが、ソフトウェアシステムにとっては最もアクセスしにくいものの一つであり続けています。テキストや画像とは異なり、ビデオにおける意味は単一の瞬間にとどまりません。時間の経過に伴う連続性、マルチモーダルな相互作用、そして因果関係を通じて生まれます。スポーツのプレイが数秒かけて展開され、映画のプロットが数分間に及び、ブランドの登場が視覚的には些細であっても文脈上重要であることがあります。ビデオを大規模に活用するために、システムは何が起こるかだけでなく、それがいつ起こるかについても推論する必要があります。
ここで時間ベースのメタデータが不可欠になります。時間ベースのメタデータは、生のビデオを構造化されタイムスタンプが押されたデータへと変換し、開発者がビデオをクエリ可能かつ計算可能な資産として扱えるようにします。手作業で映像を確認したり、不安定なヒューリスティクスに頼ったりする代わりに、組織は自社ビジネスにとって重要なこと(編集セグメント、スポーツのプレイ、発言者の交代、ブランドの登場など)を定義し、ビデオライブラリ全体からこれらのイベントを自動的に抽出できます。

Pegasusの以前のバージョンは、異なる種類の問題に対処していました。Pegasus 1.2はビデオ質問回答 (QA) システムとして設計されました。ユーザーがクリップを提供して質問すると、モデルが回答や要約を返します。このパラダイムは、事実に関するクエリや局所的な理解には適しています。しかし、実際のワークフローにおいては根本的な制限が生じます。それは、ユーザーがどこを探すべきかをあらかじめ知っていなければならないということです。大規模な環境(メディアアーカイブ、ライブスポーツ、配信カタログなど)では、この前提は成り立ちません。
その結果、Pegasus 1.2は、ビデオ全体にわたる体系的なセグメンテーションや、一貫したメタデータ抽出を必要とするワークフローを完全にはサポートできませんでした。モデル駆動型の境界検出が存在しなかったため、ユーザーは関心のある時間領域を定義するために、依然として手動のアノテーションやヒューリスティックな前処理に依存していました。
Pegasus 1.5は根本的な大転換を意味します。事前定義されたクリップに対する質問に回答する代わりに、モデルはユーザー定義のスキーマに従ってビデオ全体を分割し、各セグメントに構造化されたメタデータでラベルを貼り付けます。この変革により、ビデオ理解は検索の問題からデータ生成パイプラインへと移行し、ビデオは分析、自動化、およびエージェントシステムのためのファーストクラスのインプットになります。
2 - 非構造化ビデオのコスト
ビデオコンテンツの爆発的な成長にもかかわらず、ほとんどの組織は依然として非構造化メディアとして管理しています。従来のアプローチは、手動のロギング、キーワードタグ付け、または単純なカット検出アルゴリズムに依存しています。これらの方法では、下流の意思決定に必要な意味的および時間的な複雑さを捉えることができません。
システム側の観点から見ると、課題はビデオの3つの特性に起因します:
時間的曖昧さ: イベントには明確な境界がありません。ニュースストーリーがどこで始まり、スポーツのプレイがどこで終わるかを判断するには、複数のモダリティにわたる文脈的な推論が必要です。
マルチモーダルへの依存: 意味は、視覚的ヒント、音声、オーディオ信号、画面上のテキストの相互作用から生じます。
スキーマの多様性: 組織によって関心を持つイベントは異なるため、柔軟でドメイン特定の定義が必要になります。
信頼性の高い時間ベースのメタデータがなければ、ビデオを簡単にインデックス化、クエリ、あるいはデータパイプラインに統合できず、自動化や分析における価値が制限されます。
生ビデオと構造化データの間の運用上のギャップは、次の比較で説明できます:
図1: 従来のワークフロー

図2: Pegasus 1.5のワークフロー

開発者がイベントのボキャブラリを定義できるようにすることで、Pegasus 1.5は時間的推論の負担を人間からモデルへと移行させ、スケーラブルで一貫したメタデータ抽出を実現します。
メディア&エンターテインメントでは、編集チームは長尺のコンテンツを、シーン、トピック、キャラクターの登場などのナビゲーションユニットに分割し、アーカイブ、レコメンデーション、収益化をサポートする必要があります。Pegasus 1.5を使用すると、編集セグメントのスキーマを定義し、カタログ全体から構造化されたメタデータを自動的に抽出できます。これにより、セマンティック検索、ハイライトの自動生成、効率的なコンテンツの再利用が可能になります。
スポーツアナリティクスでは、スポーツ映像内のプレイを特定してラベルを付ける作業は労力がかかり、時間的な制約もあるため、専門家がゲーム全体を確認することがよく求められます。Pegasus 1.5を使用すると、プレイ(ゴール、ファウル、ターンオーバーなど)のスキーマを定義し、正確な時間境界で各インスタンスを自動的に検出できます。これは、リアルタイムのハイライト作成やパフォーマンス分析をサポートします。
ストリーミングプラットフォームでは、ターゲット広告やコンテンツの収益化を可能にするために、ブランドの露出、シーンの切り替わり、文脈に応じた瞬間を特定する必要があります。Pegasus 1.5を使用すると、ブランドの視認性や文脈に即したトリガーのスキーマを定義でき、膨大なライブラリ全体から収益化可能な瞬間を自動的に検出できます。
3 - 技術的基盤: 時間ベースのメタデータの定義
時間ベースのメタデータ (TBM) とは、ビデオの特定の時間的セグメントに関連付けられた構造化情報を指します。各セグメントは正確な開始および終了のタイムスタンプによって定義され、ユーザー定義のスキーマに準拠するメタデータフィールドで強化されます。
形式的には、TBM出力は以下のように表現できます:
Segment = { start_time: float, end_time: float, metadata: { key: value, ... } }
完全な分析は、ユーザーから提供された各セマンティック定義用の、重複しないセグメントのセットで構成されます。この構造により、検索インデックス、分析プラットフォーム、およびエージェントベースのワークフローなどの下流システムとの確実な統合が可能になります。
Pegasus 1.5は、 /analyze APIを通じて、スキーマファーストのインタラクションモデルを導入します。開発者は、モデルに対してオープンエンドの質問をする代わりに、以下を記述するセグメント定義を指定します:
何をもってセグメントとするか(意味的な説明)
どのメタデータフィールドを抽出するか
長さや文脈上の言及などの制限(オプション)
この設計により、本番環境における一貫性、決定性、および統合準備の容易さが保証されます。

これは上記のバスケットボールのビデオに対する /analyze APIリクエストの例です:
{ "model_name": "pegasus1.5", "analysis_mode": "time_based_metadata", "video": { "type": "url", "url": "https://example.com/video.mp4" }, "response_format": { "type": "segment_definitions", "segment_definitions": [ { "id": "non_gameplay_footage", "description": "画面上のコンテンツが実際の試合プレイではない場合のみセグメントを生成します。", "fields": [ { "name": "description", "type": "string", "description": "ゲームプレイ以外の映像に関する詳細かつ長い説明。" } ] }, { "id": "scoring_plays", "description": "チームが得点したすべての時間をセグメント化します。セグメントは得点プレイ全体とします。", "fields": [ { "name": "points_scored", "type": "string", "description": "プレイ中に得点された点数。", "enum": [ "2pt", "1pt", "3pt" ] }, { "name": "shot_type", "type": "string", "description": "得点プレイにおけるシュートの種類。", "enum": [ "jump_start", "layup", "dunk", "foul_shot" ] }, { "name": "scoring_team", "type": "string", "description": "得点したチームの名前。" } ] }, { "id": "camera_cut", "description": "カメラにハードカット(パッと切り替わる場面)がある瞬間のみセグメント化します。それ以外の場合は現在のセグメントを継続します。", "fields": [ { "name": "camera_angle", "type": "string", "description": "現在のカメラのアングル。", "enum": [ "high", "low", "medium" ] } ] } ] }, "temperature": 0, "min_segment_duration": 2 }
そして、以下が応答の出力例の構造です:
"result": { "generation_id": "5be1b8c6-7e92-43ce-b37d-ba1b53ed1ebe", "data": "{\"gameplay_footage\": [{\"start_time\": 0.0, \"end_time\": 11.0, \"metadata\": {\"description\": \"ロヨラ大学のNCAAチャンピオンシップ優勝を発表するタイトルカードでビデオが始まり、その後に満員の競技場のワイドショットと、コート上の'NCAA Finals 1963'ロゴのクローズアップが続きます。\"}}, {\"start_time\": 20.0, \"end_time\": 22.0, \"metadata\": {\"description\": \"短いカットインカットが、観客席の女性が笑顔で熱心に拍手している様子を示しています。\"}}, {\"start_time\": 29.0, \"end_time\": 31.0, \"metadata\": {\"description\": \"カメラがスコアボードにズームし、第2ピリオド残り2:04でスコアが48-50であることを示しています。\"}}, {\"start_time\": 53.0, \"end_time\": 54.0, \"metadata\": {\"description\": \"観客席の観客が試合に反応している短いショット。\"}}, {\"start_time\": 56.0, \"end_time\": 58.0, \"metadata\": {\"description\": \"カメラが観客席で両腕を上げて祝う2人の男性を捉えています。\"}}, {\"start_time\": 68.0, \"end_time\": 70.0, \"metadata\": {\"description\": \"再びスコアボードが表示され、第3ピリオドの残り5:00で54-54と同点のスプリットスコアを示しています。\"}}, {\"start_time\": 76.0, \"end_time\": 78.0, \"metadata\": {\"description\": \"群衆のショットが、試合中にファンが歓声を上げて祝っている様子を示しています。\"}}, {\"start_time\": 81.0, \"end_time\": 83.0, \"metadata\": {\"description\": \"コート上で2人のチアリーダーがルーティンを披露している様子が表示されます。\"}}, {\"start_time\": 88.0, \"end_time\": 90.0, \"metadata\": {\"description\": \"スーツを着た男性が観客席に立ち、拍手を送っている姿が見られます。\"}}, {\"start_time\": 109.0, \"end_time\": 118.0, \"metadata\": {\"description\": \"最後のシュートに続いて、ロヨラの選手とコーチがコートになだれ込み、チャンピオンシップの勝利を祝います。\"}}, {\"start_time\": 118.0, \"end_time\": 121.0, \"metadata\": {\"description\": \"最終スコアボードが表示され、タイムアウト時のロヨラの60-58での勝利を示しています。\"}}], \"scoring_plays\": [{\"start_time\": 12.0, \"end_time\": 20.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"layup\", \"scoring_team\": \"シンシナティ大学ベアキャッツ\"}}, {\"start_time\": 23.0, \"end_time\": 28.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"jump_start\", \"scoring_team\": \"ロヨラ・ランブラーズ\"}}, {\"start_time\": 46.0, \"end_time\": 52.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"layup\", \"scoring_team\": \"ロヨラ・ランブラーズ\"}}, {\"start_time\": 60.0, \"end_time\": 68.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"layup\", \"scoring_team\": \"ロヨラ・ランブラーズ\"}}, {\"start_time\": 71.0, \"end_time\": 76.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"jump_start\", \"scoring_team\": \"ロヨラ・ランブラーズ\"}}, {\"start_time\": 79.0, \"end_time\": 83.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"jump_start\", \"scoring_team\": \"シンシナティ大学ベアキャッツ\"}}, {\"start_time\": 102.0, \"end_time\": 110.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"layup\", \"scoring_team\": \"ロヨラ・ランブラーズ\"}}], \"camera_cut\": [{\"start_time\": 0.0, \"end_time\": 3.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 3.0, \"end_time\": 10.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 10.0, \"end_time\": 11.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 11.0, \"end_time\": 20.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 20.0, \"end_time\": 22.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 22.0, \"end_time\": 28.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 28.0, \"end_time\": 31.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 31.0, \"end_time\": 38.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 38.0, \"end_time\": 45.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 45.0, \"end_time\": 53.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 53.0, \"end_time\": 54.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 54.0, \"end_time\": 56.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 56.0, \"end_time\": 58.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 58.0, \"end_time\": 68.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 68.0, \"end_time\": 70.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 70.0, \"end_time\": 76.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 76.0, \"end_time\": 78.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 78.0, \"end_time\": 81.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 81.0, \"end_time\": 83.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 83.0, \"end_time\": 88.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 88.0, \"end_time\": 90.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 90.0, \"end_time\": 108.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 108.0, \"end_time\": 118.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 118.0, \"end_time\": 121.0, \"metadata\": {\"camera_angle\": \"medium\"}}]}" "finish_reason": "stop", "usage": { "output_tokens": <number>
レスポンス構造の

1 - クリップベースの回答から構造化されたビデオインテリジェンスへ
ビデオは最も情報豊かな形態の一つですが、ソフトウェアシステムにとっては最もアクセスしにくいものの一つであり続けています。テキストや画像とは異なり、ビデオにおける意味は単一の瞬間にとどまりません。時間の経過に伴う連続性、マルチモーダルな相互作用、そして因果関係を通じて生まれます。スポーツのプレイが数秒かけて展開され、映画のプロットが数分間に及び、ブランドの登場が視覚的には些細であっても文脈上重要であることがあります。ビデオを大規模に活用するために、システムは何が起こるかだけでなく、それがいつ起こるかについても推論する必要があります。
ここで時間ベースのメタデータが不可欠になります。時間ベースのメタデータは、生のビデオを構造化されタイムスタンプが押されたデータへと変換し、開発者がビデオをクエリ可能かつ計算可能な資産として扱えるようにします。手作業で映像を確認したり、不安定なヒューリスティクスに頼ったりする代わりに、組織は自社ビジネスにとって重要なこと(編集セグメント、スポーツのプレイ、発言者の交代、ブランドの登場など)を定義し、ビデオライブラリ全体からこれらのイベントを自動的に抽出できます。

Pegasusの以前のバージョンは、異なる種類の問題に対処していました。Pegasus 1.2はビデオ質問回答 (QA) システムとして設計されました。ユーザーがクリップを提供して質問すると、モデルが回答や要約を返します。このパラダイムは、事実に関するクエリや局所的な理解には適しています。しかし、実際のワークフローにおいては根本的な制限が生じます。それは、ユーザーがどこを探すべきかをあらかじめ知っていなければならないということです。大規模な環境(メディアアーカイブ、ライブスポーツ、配信カタログなど)では、この前提は成り立ちません。
その結果、Pegasus 1.2は、ビデオ全体にわたる体系的なセグメンテーションや、一貫したメタデータ抽出を必要とするワークフローを完全にはサポートできませんでした。モデル駆動型の境界検出が存在しなかったため、ユーザーは関心のある時間領域を定義するために、依然として手動のアノテーションやヒューリスティックな前処理に依存していました。
Pegasus 1.5は根本的な大転換を意味します。事前定義されたクリップに対する質問に回答する代わりに、モデルはユーザー定義のスキーマに従ってビデオ全体を分割し、各セグメントに構造化されたメタデータでラベルを貼り付けます。この変革により、ビデオ理解は検索の問題からデータ生成パイプラインへと移行し、ビデオは分析、自動化、およびエージェントシステムのためのファーストクラスのインプットになります。
2 - 非構造化ビデオのコスト
ビデオコンテンツの爆発的な成長にもかかわらず、ほとんどの組織は依然として非構造化メディアとして管理しています。従来のアプローチは、手動のロギング、キーワードタグ付け、または単純なカット検出アルゴリズムに依存しています。これらの方法では、下流の意思決定に必要な意味的および時間的な複雑さを捉えることができません。
システム側の観点から見ると、課題はビデオの3つの特性に起因します:
時間的曖昧さ: イベントには明確な境界がありません。ニュースストーリーがどこで始まり、スポーツのプレイがどこで終わるかを判断するには、複数のモダリティにわたる文脈的な推論が必要です。
マルチモーダルへの依存: 意味は、視覚的ヒント、音声、オーディオ信号、画面上のテキストの相互作用から生じます。
スキーマの多様性: 組織によって関心を持つイベントは異なるため、柔軟でドメイン特定の定義が必要になります。
信頼性の高い時間ベースのメタデータがなければ、ビデオを簡単にインデックス化、クエリ、あるいはデータパイプラインに統合できず、自動化や分析における価値が制限されます。
生ビデオと構造化データの間の運用上のギャップは、次の比較で説明できます:
図1: 従来のワークフロー

図2: Pegasus 1.5のワークフロー

開発者がイベントのボキャブラリを定義できるようにすることで、Pegasus 1.5は時間的推論の負担を人間からモデルへと移行させ、スケーラブルで一貫したメタデータ抽出を実現します。
メディア&エンターテインメントでは、編集チームは長尺のコンテンツを、シーン、トピック、キャラクターの登場などのナビゲーションユニットに分割し、アーカイブ、レコメンデーション、収益化をサポートする必要があります。Pegasus 1.5を使用すると、編集セグメントのスキーマを定義し、カタログ全体から構造化されたメタデータを自動的に抽出できます。これにより、セマンティック検索、ハイライトの自動生成、効率的なコンテンツの再利用が可能になります。
スポーツアナリティクスでは、スポーツ映像内のプレイを特定してラベルを付ける作業は労力がかかり、時間的な制約もあるため、専門家がゲーム全体を確認することがよく求められます。Pegasus 1.5を使用すると、プレイ(ゴール、ファウル、ターンオーバーなど)のスキーマを定義し、正確な時間境界で各インスタンスを自動的に検出できます。これは、リアルタイムのハイライト作成やパフォーマンス分析をサポートします。
ストリーミングプラットフォームでは、ターゲット広告やコンテンツの収益化を可能にするために、ブランドの露出、シーンの切り替わり、文脈に応じた瞬間を特定する必要があります。Pegasus 1.5を使用すると、ブランドの視認性や文脈に即したトリガーのスキーマを定義でき、膨大なライブラリ全体から収益化可能な瞬間を自動的に検出できます。
3 - 技術的基盤: 時間ベースのメタデータの定義
時間ベースのメタデータ (TBM) とは、ビデオの特定の時間的セグメントに関連付けられた構造化情報を指します。各セグメントは正確な開始および終了のタイムスタンプによって定義され、ユーザー定義のスキーマに準拠するメタデータフィールドで強化されます。
形式的には、TBM出力は以下のように表現できます:
Segment = { start_time: float, end_time: float, metadata: { key: value, ... } }
完全な分析は、ユーザーから提供された各セマンティック定義用の、重複しないセグメントのセットで構成されます。この構造により、検索インデックス、分析プラットフォーム、およびエージェントベースのワークフローなどの下流システムとの確実な統合が可能になります。
Pegasus 1.5は、 /analyze APIを通じて、スキーマファーストのインタラクションモデルを導入します。開発者は、モデルに対してオープンエンドの質問をする代わりに、以下を記述するセグメント定義を指定します:
何をもってセグメントとするか(意味的な説明)
どのメタデータフィールドを抽出するか
長さや文脈上の言及などの制限(オプション)
この設計により、本番環境における一貫性、決定性、および統合準備の容易さが保証されます。

これは上記のバスケットボールのビデオに対する /analyze APIリクエストの例です:
{ "model_name": "pegasus1.5", "analysis_mode": "time_based_metadata", "video": { "type": "url", "url": "https://example.com/video.mp4" }, "response_format": { "type": "segment_definitions", "segment_definitions": [ { "id": "non_gameplay_footage", "description": "画面上のコンテンツが実際の試合プレイではない場合のみセグメントを生成します。", "fields": [ { "name": "description", "type": "string", "description": "ゲームプレイ以外の映像に関する詳細かつ長い説明。" } ] }, { "id": "scoring_plays", "description": "チームが得点したすべての時間をセグメント化します。セグメントは得点プレイ全体とします。", "fields": [ { "name": "points_scored", "type": "string", "description": "プレイ中に得点された点数。", "enum": [ "2pt", "1pt", "3pt" ] }, { "name": "shot_type", "type": "string", "description": "得点プレイにおけるシュートの種類。", "enum": [ "jump_start", "layup", "dunk", "foul_shot" ] }, { "name": "scoring_team", "type": "string", "description": "得点したチームの名前。" } ] }, { "id": "camera_cut", "description": "カメラにハードカット(パッと切り替わる場面)がある瞬間のみセグメント化します。それ以外の場合は現在のセグメントを継続します。", "fields": [ { "name": "camera_angle", "type": "string", "description": "現在のカメラのアングル。", "enum": [ "high", "low", "medium" ] } ] } ] }, "temperature": 0, "min_segment_duration": 2 }
そして、以下が応答の出力例の構造です:
"result": { "generation_id": "5be1b8c6-7e92-43ce-b37d-ba1b53ed1ebe", "data": "{\"gameplay_footage\": [{\"start_time\": 0.0, \"end_time\": 11.0, \"metadata\": {\"description\": \"ロヨラ大学のNCAAチャンピオンシップ優勝を発表するタイトルカードでビデオが始まり、その後に満員の競技場のワイドショットと、コート上の'NCAA Finals 1963'ロゴのクローズアップが続きます。\"}}, {\"start_time\": 20.0, \"end_time\": 22.0, \"metadata\": {\"description\": \"短いカットインカットが、観客席の女性が笑顔で熱心に拍手している様子を示しています。\"}}, {\"start_time\": 29.0, \"end_time\": 31.0, \"metadata\": {\"description\": \"カメラがスコアボードにズームし、第2ピリオド残り2:04でスコアが48-50であることを示しています。\"}}, {\"start_time\": 53.0, \"end_time\": 54.0, \"metadata\": {\"description\": \"観客席の観客が試合に反応している短いショット。\"}}, {\"start_time\": 56.0, \"end_time\": 58.0, \"metadata\": {\"description\": \"カメラが観客席で両腕を上げて祝う2人の男性を捉えています。\"}}, {\"start_time\": 68.0, \"end_time\": 70.0, \"metadata\": {\"description\": \"再びスコアボードが表示され、第3ピリオドの残り5:00で54-54と同点のスプリットスコアを示しています。\"}}, {\"start_time\": 76.0, \"end_time\": 78.0, \"metadata\": {\"description\": \"群衆のショットが、試合中にファンが歓声を上げて祝っている様子を示しています。\"}}, {\"start_time\": 81.0, \"end_time\": 83.0, \"metadata\": {\"description\": \"コート上で2人のチアリーダーがルーティンを披露している様子が表示されます。\"}}, {\"start_time\": 88.0, \"end_time\": 90.0, \"metadata\": {\"description\": \"スーツを着た男性が観客席に立ち、拍手を送っている姿が見られます。\"}}, {\"start_time\": 109.0, \"end_time\": 118.0, \"metadata\": {\"description\": \"最後のシュートに続いて、ロヨラの選手とコーチがコートになだれ込み、チャンピオンシップの勝利を祝います。\"}}, {\"start_time\": 118.0, \"end_time\": 121.0, \"metadata\": {\"description\": \"最終スコアボードが表示され、タイムアウト時のロヨラの60-58での勝利を示しています。\"}}], \"scoring_plays\": [{\"start_time\": 12.0, \"end_time\": 20.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"layup\", \"scoring_team\": \"シンシナティ大学ベアキャッツ\"}}, {\"start_time\": 23.0, \"end_time\": 28.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"jump_start\", \"scoring_team\": \"ロヨラ・ランブラーズ\"}}, {\"start_time\": 46.0, \"end_time\": 52.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"layup\", \"scoring_team\": \"ロヨラ・ランブラーズ\"}}, {\"start_time\": 60.0, \"end_time\": 68.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"layup\", \"scoring_team\": \"ロヨラ・ランブラーズ\"}}, {\"start_time\": 71.0, \"end_time\": 76.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"jump_start\", \"scoring_team\": \"ロヨラ・ランブラーズ\"}}, {\"start_time\": 79.0, \"end_time\": 83.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"jump_start\", \"scoring_team\": \"シンシナティ大学ベアキャッツ\"}}, {\"start_time\": 102.0, \"end_time\": 110.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"layup\", \"scoring_team\": \"ロヨラ・ランブラーズ\"}}], \"camera_cut\": [{\"start_time\": 0.0, \"end_time\": 3.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 3.0, \"end_time\": 10.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 10.0, \"end_time\": 11.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 11.0, \"end_time\": 20.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 20.0, \"end_time\": 22.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 22.0, \"end_time\": 28.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 28.0, \"end_time\": 31.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 31.0, \"end_time\": 38.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 38.0, \"end_time\": 45.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 45.0, \"end_time\": 53.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 53.0, \"end_time\": 54.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 54.0, \"end_time\": 56.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 56.0, \"end_time\": 58.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 58.0, \"end_time\": 68.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 68.0, \"end_time\": 70.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 70.0, \"end_time\": 76.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 76.0, \"end_time\": 78.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 78.0, \"end_time\": 81.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 81.0, \"end_time\": 83.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 83.0, \"end_time\": 88.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 88.0, \"end_time\": 90.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 90.0, \"end_time\": 108.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 108.0, \"end_time\": 118.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 118.0, \"end_time\": 121.0, \"metadata\": {\"camera_angle\": \"medium\"}}]}" "finish_reason": "stop", "usage": { "output_tokens": <number>
レスポンス構造の




