商品

TwelveLabsのユーザーがPegasusをどのように活用しているか

テオ・キム、アディティヤ・サンケ

9,000件以上のユニークなPegasusプロンプトを分析した結果、4つのワークフローの目的(「コンテンツの理解と整理」、「正確性の確保」、「創造的な変換」、「影響の測定」)にわたる11のタスクアーキタイプが明らかになりました。これは、ユーザーが単一の質問に対する問い合わせをはるかに超えて、タイムラインを意識した複雑なワークフローを構築していることを示しています。

9,000件以上のユニークなPegasusプロンプトを分析した結果、4つのワークフローの目的(「コンテンツの理解と整理」、「正確性の確保」、「創造的な変換」、「影響の測定」)にわたる11のタスクアーキタイプが明らかになりました。これは、ユーザーが単一の質問に対する問い合わせをはるかに超えて、タイムラインを意識した複雑なワークフローを構築していることを示しています。

この記事の内容

No headings found on page

ニュースレターに登録する

ニュースレターに登録する

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

AIを活用してビデオを検索、分析、探索します。

2025/10/26

15分

記事へのリンクをコピー

今年2月、私たちは Pegasus をリリースしました 学術的な研究レベルにとどまる多くのAIシステムとは異なり、Pegasusは、極めて細かい時間的推論から数秒〜数時間におよぶコンテンツのハンドリングにいたるまで、現実世界におけるビデオの理解と分析の実用的な課題に対応するように設計されています。

リリース以来、大規模なビデオデータセットを管理するエンタープライズ企業から、個人創作や独自のプロジェクトを追求するクリエイターまで、幅広い層に導入されてきました。その多様なユースケースは、私たちの当初の想定をはるかに超え、日常の業務やワークフローにおけるビデオインテリジェンスのあり方を大きく広げています。

今回、この進化の軌跡を探るべくユーザープロンプトの分析を行い、Pegasusがビデオ理解においてどのように人間とAIの協調(コラボレーション)を再定義しているかを明らかにしました。

本レポートでは、以下の内容を公開します:

  1. 9,000件以上のユニークなプロンプトの分析から、ユーザーがPegasusをどのようなビデオタスクに活用しているのか、その4つのワークフロー意図と11のタスクパターンを明らかにします。

  2. どのようなプロンプトパターンによって、複雑でタイムラインを意識した、そのまま実用に足る高度な動画編集ワークフローを構築しているかを示し、それを支えるためにシステム側に求められる機能と方向性を提唱します。


Pegasusに求められるタスクはどれほど多様化しているか?

ユーザーは、映画や広告、スポーツ、教育、そして安全衛生管理にいたるまで、実にあらゆるドメインでPegasusを駆使しています。この幅広い活用事例は、Pegasusが特定の業界や固定のワークフローに縛られることなく、非常に多様なユーザーのニーズに柔軟に寄り添い、応用されていることを裏付けています。

この広がりをより深く理解するため、人々がどのようにPegasusと対話しているのか、その行動パターンを特定するための 「定性・定量複合アプローチ(混合研究法)」 によるデータ分析を実施しました。

  1. プロンプトのデコード: LLMを用いたアプローチにより、複雑なユーザープロンプトの根底にある本来の「意図」と「構造」を抽出しました。

  2. 類似性の検出(マッピング): 各プロンプトを 「セマンティック・エンベディンク(意味論的ベクトル表現)」 に変換し、プロンプト同士が意味としてどれほど近いかを可視化する独自のデジタル指紋を生成しました。

  3. プロンプトのクラスタリング(グループ化): 機械学習のクラスタリング技術を適用して意味のあるセグメントを抽出し、その結果を人間が高度に解釈可能かつ明快な分類になるまで繰り返しチューニングを行いました。

  4. 人間によるレビューと高度化: 最後に、私たちのエキスパートチームがこれらのクラスターを手動で精査。Pegasusが「現実世界で実際にどう使われているか」を完全に反映した実用的なタクソノミー(分類体系)を構築しました。

今回の分析では、2025年6月のPegasusのプロンプトログを抽出・分析の対象としました。ユーザーの利用状況には大きなばらつきがあり、単にリクエストの総件数だけで測ろうとするとデータに偏りが生じるため、リクエストボリュームではなく個々の 「プロンプトの内容(プロンプトレベル)」 に着目しました。表記揺れなどの完全一致による重複排除を行い、セマンティック類似度(意味の類似性)のしきい値を「0.90」に設定して厳密なノイズ調整を行った結果、最終的な分析対象となる 「ユニークなプロンプト」 のデータセットが得られました。

この厳選されたデータセットを基盤として、ユーザーの間で繰り返し発生しているタスクのパターンと、その背景にある真の利用意図の特定を進めました。

生ログの抽出から、クラスター化されたタスクカテゴリと利用意図の特定にいたるまでの、Pegasus用プロンプトのデータ処理および分析パイプライン。


Pegasusを活用する 11 の主要なタスクパターン

この包括的なプロンプト分析の結果、動画のワークフローにおいてユーザーがPegasusに要求している 「11のタスクカテゴリ」 を特定することができました。これらは大きく 「4つの包括的な意図(4つのメタドメイン)」 に分類されます。ユーザーが動画を理解・整理し、安全性を担保し、クリエイティブに変換し、そしてその動画がもたらす効果を測定するために、いかに効果的にPegasusを役立てているかが分かります。

Pegasusの各タスクが動画のワークフロー上にどのように分布しているかを示す、意図に基づく4つの象限。ユーザーは、「要約」「ナラティブの構築」「セグメンテーション」を通じてビデオの内容を理解し、「コンテンツチェック」「文字起こし」「技術評価」によってその安全性と正確性を担保し、「クリエイティブで文体的な再編集」によって付加価値を追加し、マーケティングや解釈分析といった「分析タスク」を通じてその影響力やパフォーマンスを測定しています。


1 - ビデオサマリー(動画要約)

最も典型的なユースケースの1つが、動画要約です。「動画をフルで再生することなく、その内容を瞬時に把握する」 ために用いられます。ユーザーはこれにより時間と労力を大幅に削減しながら、核となるメッセージや要点を確実にキャッチアップした書き出しログ(記録)を作成できます。そして、この「動画を要約する」という1つのカテゴリの中だけでも、ユーザーによって多種多様なフォーマットや要求が存在します:

  • 多くのユーザーは、全体の主要なシーンやストーリー展開をハイレベルに要約し、動画全体の大きな流れを素早く追いたいというプロンプトを入力します。

  • 一方で、表面的なサマリーに留まらず、「登場人物の隠された意図」「映画に散りばめられたメタファー(暗喩)」「動画全体が訴える内省的なメッセージ」など、より深い文脈や背景の意味(インサイト)の推論をPegasusに要求するケースも顕著に見られます。

この動画のコンテンツを分析してください。私の制作しているキャラクターの1人についてのパートです。

タイムスタンプと、そこに込められた道徳的な教訓への考察を交えて、200ワードのサマリーを作成してください。

何度も繰り返し現れるこの男性は、何を暗示しているのですか?

  • さらに、「アクション(行動)」「ロケーション(場所)」「感情のトーン(雰囲気)」といった特定の目的にフィットした、カテゴリ別の高度なテーブル形式の出力を求めるユーザーもいます。

行動(Activity)、場所(Location)、イベントタイプ(Event Type)、主要コンテンツ、および感情のトーン(Emotional Tone)に焦点を当てて、この動画を要約してください。

これらの傾向から、Pegasusの動画要約機能は、単に時間を節約するためのツールではなく、「動画の内容と深いレベルでアクセスするための新たな対話型インターフェース」 として機能しています。Pegasusが生成する多様な要約によって、ユーザーは直感的に深い洞察を得て、自身の目的に応じてコンテクストを再構築しています。


2 - ナラティブ構築(ストーリーテラー)

要約を超えて、 多くのユーザーがPegasusを 「ビデオから詳細な物語(ナラティブ)を構築し、それを発展させる」 手段として活用しています。これらのプロンプトは、動画の中で繰り広げられるアクションを、まるで映画のスクリプトや小説の1ページを読んでいるかのような、シームレスで没入感のあるストーリーとして語り直すことに主眼を置いています。

  • たとえば、動画の一部分をPegasusに分析させ、シーン全体のペース配分や描写のディテールを高度に補完しながら、単純な説明録ではない、より起伏のあるまとまったストーリーテキストに拡張させるリクエストなどです。

映画の現在のシーンを分析したうえで、以降の描写を継ぎ目なく拡張してください。結果が極めて首尾一貫した、流れるような物語(ナラティブ)になるようにし、展開とイベントが自然に描写されることに集中してください。


3 - セグメンテーションとハイライト(チャプター化)

構造化された映像制作やアーカイブのワークフローにおいて、 Pegasusは 「動画を意味のある区切りに細分化し、ハイライトシーンを特定して切り出す」 目的で広く使用されています。ユーザーは動画を1本の長く切れない「点」として扱うのではなく、個別のチャプターへ分割したり、最もエンゲージメントの高い瞬間を見つけたり、特定のショットタイプを特定して並べ替えたりしたいと考えています。これにより、長尺動画の遷移をスムーズに行い、魅力的なハイライト集を作成したり、配信や編集プロセスにスムーズに統合したりすることが容易になります。

「セグメンテーションとハイライト」のユースケースを示す画面コンセプト案。1つの動画が、どのようにチャプター構造とそれに対応する概要テキストに自動分割されるかを示しています。※図は機能説明用のモックアップであり、実際の実装インターフェースとは異なる場合があります。

  • 一部のプロンプトは チャプター作成 に焦点を当てています。長尺ビデオをソーシャルメディアなどでそのまま独立して発信できるようなショート動画用のセクションへと分割、または特定の時系列に沿った一目でわかるチャプタータイムラインテーブルへとリスト化する手法です。

この動画を各チャプターに分解し、それぞれのチャプターに対して、タイトル、タイムスタンプの範囲、および100〜150文字以内の箇条書きの要約を記載したリストを作成してください。

  • また、視覚的に最も美しく強烈な印象を与える瞬間や、感情を大きく動かす瞬間をピンポイントで切り出す ハイライト抽出 を求める声もあります。これらはYouTubeのサムネイル、映画のプレビュー予告編、あるいは数秒間で視聴者の心を掴む必要があるSNSマーケティング素材の選定などで威力を発揮します。

あなたはサムネイル画像の最適化を専門とする、プロの映像アナリストです。この動画を分析し、タイムスタンプおよびそこに映るビジュアルの詳細情報とともに、サムネイルにふさわしい決定的な瞬間を3〜4個抽出してください。

  • さらに、映像のカット割、トランジション(シーンの切り替え)、カメラのズーム状態、スクリーン上の要素を時系列で網羅的に記録する ショット・シーンタイプの特定 を目的としたプロンプトも存在します。このミリ秒単位の極めて高い精度は、プロの動画制作、ポスプロ編集、または映像品質評価チェック(QA)に直結します。

極限の精度でこの映像を分析してください。すべての映像カット、ズーム、そして画角の遷移を特定し、タイムスタンプ、フレーム(ショット)タイプ、ズームの状態、およびその時に画面に映っている構成要素を網羅した詳細なログを出力してください。

セグメンテーションとハイライトの抽出機能により、Pegasusは長大なビデオを 「編集しやすく、扱いやすい構造化されたアセット(部品)」 へと変換します。ユーザーはもう必要なシーンを探すために数時間も早送り・巻き戻しを繰り返す必要はありません。一瞬で、求める価値のある場面にジャンプできます。


4 - コンテンツ・セーフティチェック(安全・コンプライアンス監査)

安全性と信頼性が最優先される企業ワークフローにおいて、 Pegasusは 「動画内のポリシー違反や不適切なシーンを検知するセーフティ・フィルター」 として重要な役割を果たしています。人力に頼るリスク監視から脱却し、企業やブランドイメージの毀損、および法令違反のリスクとなり得る危険な場面をPegasusが自動でスキャニングして検知します。不適切な箇所を早期段階で検出・ブロックすることで、コンプライアンス侵害のリスクを未然に防ぎ、コンテンツの健全性とブランドの安全を守ります。

  • 一般的なプロンプトには、刃物や火器といった 危険物や暴力的・違法なコンテンツ の自動検知があります。これらの検出結果は、レビューワーがすぐにエスカレーション判断を行えるよう、詳細な文脈説明とともに、発生した正確なタイムスタンプ情報を含んだ状態で出力されます。

画面に拳銃やナイフなどの武器が映っている箇所をすべて検出してください。

該当箇所のタイムスタンプと、その周囲で何が起こっているか、状況の説明を添えてください。

  • 他にも、工場、建築現場などの職場、あるいは交通ルールといった、特定のコンプライアンスや 安全ポリシーの適用違反 のチェックにも活用されています。とりわけ、ヘルメットや安全ベスト、自動車のシートベルトといった防具や義務化された保護具を未着用で走行・移動しているシーンを自動監視するリクエストなどが挙げられます。

二輪車が移動中に、運転者または同乗者がヘルメットを着用していないシーンを検出してください。このポリシー違反が起こっているすべてのタイムスタンプを示してください。

  • 最後に、Pegasusは 露出(アダルトシーン等)やグロテスクな暴力描写のフィルタリング といった用途でも重宝されています。この要件は、指定箇所をトリミング・除外して一般視聴者向けのセーフバージョン動画を作るワークフロー、あるいは放送規制対応のためにすべての問題箇所をエビデンス付きでリストアップする、編集・校正双方の用途で利用されています。

肌の露出(ヌード)が含まれるすべてのセグメントを検出してください。タイムスタンプと、それが部分的な露出か全面的な露出かを明記してください。

こうした一連のセーフティ検証を自動化することで、Pegasusはビデオを扱うあらゆる業種における、信頼性の高い 「安全な配信とコンプライアンスのガーディアン(防壁)」 の役割を担っています。


5 - 文字起こしとオンスクリーンテキスト(OCR)抽出

Pegasusは、動画内の 「話し言葉(音声のダイアログ)」から「画面に映っている文字情報(テロップや背景)」にいたるまで、あらゆるテキスト情報を完全に書き下す 用途で極めて多くのユーザーに好まれています。テキスト化によって動画内のすべての瞬間を一言一句漏らさずに検索(インデックス化)できるようになり、ビデオファイルをまるで普通のテキストドキュメントのように瞬時に処理・引用可能になります。

  • 多くの書き出しプロンプトでは、タイムコード、発話者のラベリング、さらには話し言葉における「あの」「ええと」といったケバ取り前の 「フル文字起こし(逐語起こし)」 を求めています。この極めて正確なデータ抽出工程は、法的機関による証跡記録や、学術・リサーチ研究、アクセシビリティ対応字幕といったミッションクリティカルな場面で必要とされています。

このビデオの正確な逐語文字起こし( verbatim transcription )を作成してください。

30秒ごとに明確なタイムスタンプを挿入し、話者の交代を明記し、言い淀みやフィラーワード(ケバ)もそのまま残してください。

  • また、看板、メニューの価格、ウェブサイトのURL、SNSハンドル、画面下部に数秒しか流れない法的注記(ディスクレイマー)など、動画の背景やバナーにある 「画面上のテキスト(視覚文字の検出)」 に特化したユースケースも数多く見られます。これは主に、ブランド広告の監視、競合企業の販売プロモーション内容の自動精査、動画から情報を取得するデータエントリの自動化などで利用されています。

この広告に表示されているすべての画面上のテキストを抽出してください。
以下を特に注意して探してください:

  • ウェブサイトのURL

  • 電話番号

  • 価格表示やプロモーションコード(割引コード)

  • 実店舗のアドレスやロケーション情報

  • ハッシュタグ、SNSのユーザー名(ハンドル名)
    画面に表示されているものをそのまま「すべて」書き出し、出現したタイムスタンプを横に記載してください。

音声テキストと視覚テキストの双方を 検索可能で柔軟な構造化テキスト(アセット) に変換することで、Pegasusは多種多様なダウンストリーム処理のハブになり得ます。これには、自動多言語字幕の作成やアーカイブの検索性はもちろん、法規チェックや自動意思決定エンジンとしての運用などが含まれます。


6 - クリエイティブで文体豊かな「ビデオ書き起こし」

クリエイティブ(表現)の領域においては、 Pegasusは単に要約するだけでなく、「動画の内容を取り出し、それをまったく特定のトーン、魅力的な語り口、または任意のファイルフォーマットへと再編集して出力させる」 ために採用されています。このタスクの最大の目的は、動画自体の情報を捻じ曲げることなく、提供するチャネルや狙いたいオーディエンス層に完璧にマッチする文体に仕上げ直すことです。たとえば、1本の動画にある同じ出来事を、マーケティング広告向けには「エネルギッシュで心を躍らせる言葉」に仕立て、社内の事故報告向けには「淡々とした客観的な事実報告」に、そしてソーシャルアカウント向けには「極めてキャッチーでユーモアを含んだショート文」に瞬時に書き換えることが可能になります。

「クリエイティブかつ文体的なビデオ説明」のユースケースコンセプト。動画データを読み取り、ユーザーが指定した特定のスタイル(トーン)に瞬時にリライトする流れを示しています。この例では、同じ防犯カメラの映像が、ユーザーの指示によって「サスペンスドラマやミステリー小説の緊迫したスクリプト」へと変化しています。※図は機能説明用の概念図であり、実際のPegasusのUIデザインとは異なる場合があります。

  • 特に数多いのが トーン・マナー(語り口)のコントロール を目的としたプロンプトです。客観的な調査報告書のようなフォーマルな筆致から、YouTubeでそのまま喋って使えるようなフレンドリーで親近感のあるトーンにいたるまで、出力の「話し手としてのキャラクター」を厳密に指示します。

事件の捜査調査報告書のようなトーンで、100文字以内で要約してください。

人気YouTuberの語り口調にしてください。タイムスタンプも交えて。

  • 少し角度を変えて、エンターテインメント性やユーモアを追加する プロンプトも見られます。視聴者の関心を惹きつけつつ、動画の骨組みを面白おかしく理解してもらうのに効果的です。

このビデオ全体を、スタンドアップコメディの小話のように30字で要約してください。

最悪な1日を過ごした辛口なコメディアンが、この動画を酷評している(Roast)スタイルで教えてください。

  • 最も利用が急増しているのが、数文字で目を引く フック(キャッチコピー)の作成 です。1秒で指を止めさせ、詳細を読ませるための工夫です。

Instagramのカード型画像に挿入する、わずか1〜2行での紹介テキスト。

Twitter/X(280文字以内の投稿)にフィットする要約を書いてください。

テキストをベースとした「スタイル(文体)変換」を実行するとき、Pegasusは単なる自動サマライズの仕組みを超えて、あなたの隣に寄り添う 「動画専門の凄腕コピーライター」 のような振る舞いを見せます。


7 - マーケティング・広告・トレンド分析

マーケティングや広告業界において、 Pegasusは 「動画がどれほど視聴者を動かす説得力(パースエージョン)を持っているかという視点に基づいた評価」 に活用されています。マーケターやメディアエージェンシーは、単に「何が映っているか」に留まらず、広告としてクリエイティブがどれほど有効で、ターゲットに刺さっているかというパフォーマンス視点を知るために、Pegasusに分析を実行させます。広告クリエイターは、これにより、メッセージの明確さ、ブランドへのエンゲージメント、コンバージョン最大化に向けた改善点を特定できます。

  • まずは クリエイティブおよび構成の改善提案(アドバイス) です。編集のリズム、セリフ、クリエイティブ全体のディレクションなどを、プロンプトで指定した特定のアウトプット役(メンター等)の立場に立ちきって分析・評価するよう指令を出します。

インフルエンサーマーケティングのエグゼクティブとしての役割に徹して、この動画に対し、編集方法、全体の構成・台本、プロモーションの品質などの視点から、改善すべきエリアと具体的なアドバイスを提案してください。

  • また、フックとメッセージエンゲージメント分析へのアプローチ も顕著です。視聴を開始した瞬間の関心引き寄せ力、中心となるブランドメッセージの分かりやすさ、視聴者の心に訴える情緒的トリガー(感情移入要素)を深く点検します。これらの知見から、どの表現が視聴率を上げているのか(あるいは下げているのか)を学習し、そのノウハウを次の映像キャンペーンに再利用します。

オープニング3秒間のアテンション(注意喚起)の強さと解りやすさをレビューしてください。

視聴者にアクションを促す、別の「Call-to-Action」(CTAフレーズ)のバリエーションを幾つか提示してください。

マーケティングおよび広告の分析分野におけるPegasusは、インサイトを可視化することで、動画が「いかにしてターゲットに意図したメッセージを浸透させ、コンバージョンさせるか」を強力にバックアップします。


8 - 事実確認(ファクトQ&A)、エンティティおよびイベントの特定

Pegasusのログで非常に多く出現するのが、「特定の事実に特化した確認質問(Q&A)」 です。ユーザーは「そこに記述した物事が実際に起こっているか、何があるか」を客観的に裏付け・回答するようPegasusに指示します。大雑把な要約テキストを望むのではなく、ここでの目的は「事実かどうかという明確な検証」にあります: 本当にビデオの中にそれは見つかるのか、そうではないのか? そこに立っている人物は誰か? 一体そこで何かが行われたのか?

  • 多くのリクエストでは、シンプルな Yes / No による事実判定(検証) を求めています。推測や長々とした説明を排し、対象物が特定の場所や時間・行動として「含まれているかどうか」を一言で回答させ、ユーザー自身の確認コストを削減します。

車輌のワイパーが作動した(スイッチが入れられた)瞬間はありますか?

  • もう一つのアプローチは エンティティの特定と抽出 です。ビデオに映っているすべての人物名、表示されているブランドロゴ、映り込んでいるオブジェクト、または検出されたすべてのインシデントの全一覧を綺麗に整理したリスト(構造データ)として出力させます。このクリーンなデータは、データインデックスの作成、後続のシステム連携、AI学習用タグの付与などにシームレスに適用可能です。

この動画に映るすべての人を、画面に出現した正確な順番でリストアップしてください。

映像全体を通して、画面上にはっきりと視認できるブランド商品・プロダクトをすべて特定して名前を出してください。

  • さらに、「特定の出来事が、まさにどこで起こったか」という イベントスポッティング(ピンポイント検出) を要請するプロンプトです。タイムスタンプとともにある現象や規則破りなどの決定的瞬間を見つけ出すために有効です。

審判(レフェリー)がレッドカードを頭上に高々と提示した瞬間は、具体的に何分何秒ですか?

これらすべてのファクトベースの質問応用において、Pegasusはビデオを評価・確認するための 「極めて信頼のおける強力な実用レイヤー」 を形成します。動画分析ワークフローにありがちな不確かさを、確固たるデータ・証拠へと転じて、ビデオタグ付けやインフラ業務の正確性を桁違いに高めます。


9 - 解釈型Q&A(文脈理解)、因果関係および「意図」の推論

さらにプロンプトには、動画全体の表面的な情報にとどまらず、「なぜそのような動きになっているのか、なぜそれが起きたか」という複雑な状況判断、背景、因果関係を説明させる 高度な質問も含まれています。ここでは単純に見えている事象を並べるだけでは不十分で、ユーザーは状況に応じた「動機の推測」、「原因と結果の構造分析」、または「クオリティ(質)に対する評価」を求めています。Pegasusは単なる自動的な「動画サマライザー」であるだけでなく、「映像コンテクストの高度な翻訳者、理解者」 として活用されています。

  • 最もよく活用されるシーンの1つが 因果関係の分析(フォレンジック・追査) です。交通事故や物損事故のアクシデントにおいて、責任や起因がどちら側にあるか、どのような経緯でそれが発生したかを、ビデオ全体のフレーム情報から論理立てて説明させます。

このドライブレコーダー動画が捉えたトラブルで、一体何が起こったのか、そしてどの当事者に過失や引き金があるかを、論拠をもとに解説してください。

  • また、高度なパフォーマンス比較や定性評価 も好まれています。アスリートのフォームの比較、競技上の動作、選手同士の細かい物理的または心理的なインタラクション(交錯)といった、映像の中の微細なヒント同士の意味を複雑に演算・連結する推論が必要です。

黒いグローブをはめた選手は、相手のボクサーよりも顔の位置や頭部のディフェンス(ヘッドムーブメント)が優れていましたか?

これらのケーススタディすべてにおいて、Pegasusは単に見えたものを答えるのではなく、一見では見過ごしそうな 「意図、行動による起因、およびその影響」を正確に解釈 するように求められます。この解釈能力は、医療やスポーツのコーチング、アクシデントの紛争解決にいたるまで、人が何かを「意思決定」する、あらゆるプロセスを強力にアシストします。


10 - スポーツ分析(パフォーマンス・スタッツ解析)

スポーツのドメイン(用途)でも、Pegasusは 「動画から試合全体のスタッツ(成績)や、分析可能なインシデントログを切り出すアシスタント」 としてフル活用されています。試合全体を何度もリピートして凝視することなく、ユーザーは戦術を動かしているキープレイ、特定のパスワーク、特定のファウルといった箇所だけを一瞬で可視化して整理できます。この能力は、ダイジェストの制作、コーチングのための戦術分析、将来有望なアスリートのスカウティング、ファン向けSNSの速報性といったあらゆるシーンに適合します。

  • 競技ごとの ハイライト・イベント自動ログのプロンプト です。スコアリング(得点)、ファウル、または試合全体の展開を変えたプレイ(得点チャンス等)のすべてを、タイムスタンプをタグ付けして一覧化します。試合を長く見る時間がなくても、どのような試合展開だったかの流れが一瞬で把握できるようになります。

ロサンゼルス・レイカーズが得点したすべてのシーンを、対応するタイムスタンプと、攻撃時におけるオフェンス・パターンの簡単な戦術分析とともにリストアップしてください。

  • また、特定のプレイヤー(アスリート)だけを追いかける分析 も盛んです。該当のプレイヤーがボールを持った瞬間だけをダイジェストで確認したり、前回の試合と今回の試合でのプレイスタイルの進捗・貢献の違いをトラッキングしたりでき、これはコーチ、監督、解説者にとって無くてはならない情報源になっています。

背番号23番の選手が試合中にボールにタッチしたすべての瞬間を切り出し、各タッチごとに何が起こったかの詳細を描写してください。

  • さらに一歩進んだプロンプトでは、「守備側のローテーションのズレの特定」、「シュートセレクトは最適だったか」、「チームコンセプト(戦略)の構造的な偏り」などの 戦術的インサイト を求められます。これらの見落としそうな動きが高度にデータとして視覚・構造化されることで、スポーツにおけるPegasusの役割はただの観賞支援を超え、プロの戦術的意思決定の頼れるバックボーンになっていきます。

スポーツ分析の分野でPegasusは、動画から高度な競技構造や選手のパフォーマンスを抽出する 「AIアドバイザー(オンデマンド・コーチ)」 のように動作します。選手、プロ組織、ファンの、スマートで熱量のある映像体験をどこまでも広げてくれます。


11 - 技術仕様評価、エラー検知と映像修正(QA)

ビデオを分析するニーズは、ストーリーの面白さやアクションの分析だけにとどまりません。映像の 設計品質や、制作時の仕様・レギュレーションへの適合性という高い品質目標(品質保証、QA) などを監視したいワークフローもあります。このタスクでPegasusは、プロンプトで指示されたチェックシート、デザイン規約などの仕様を確実にクリアしているかという視点をビデオに対して適用・チェックします。ポスプロの早期段階でヒューマンエラーや表示事故を発見することで、何倍ものコストがかかりかねない映像の再レンダリングや作り直しのリスクを削減します。

  • 1つ目は、「規定の採点チェックリストやルーブリック(評価基準)に基づくチェック」 です。教育のチュートリアル動画や研修動画が、指定された学習カリキュラム・チェック基準を完全に踏襲しているかのレビューと調整に活用されます。

提供された採点基準(評価ガイドライン)に照らし合わせて、この教育チュートリアルビデオを評価してください。必要に応じてガイドラインの採点を修正し、ビデオの実際の解説内容とスコアがズレのないようにマッピングを連動させてください。

  • また、ビジュアルにおける画面要素の破綻の自動警告(レイアウトレビュー) も実施されます。画面上のボタンレイアウトや地図表示の歪み、グラフィック上の文字重なり(テキストオーバーラップ)、解像度の引き伸ばしなどをPegasusに見つけ出させ、それら問題に対する改善案(フィードバック)まで一気に回答させます。

グラフィック要素の縮尺やアスペクト比が、表示されている実物の比率を歪めてしまっていないか評価してください。画面内で文字が重なって表示されている箇所をマークし、どのように修正すべきかの改善提案を教えてください。

  • もう一つのアプローチが、講義やプレゼンで教師が「特定のキーワード(専門用語)を言った回数」を自動カウントするような 定量分析や頻度レビュー です。ビデオという非構造の塊を「数、学習効率、語彙表現」といった数値化されたスコア(データ構造)へと抽出し直します。

講師が講義の中で「光合成」( photosynthesis )という単語を何回使用したかカウントし、出現回数とその頻度チャート(グラフの基データ)を出力してください。

Pegasusをこのような「技術評価や動画QA」に利用することで、作成したコンテンツクオリティへの懸念や編集時の設定ミスを劇的にスマートに改善・検証可能になり、プロジェクト全体に比類なき効率化を担保します。


多様なタスク分析から見えた洞察:一問一答を超え、「協調パートナー」としてのAIへ

これら特定された11の主要タスクカテゴリーは、単にユーザーがPegasusに命令している幅の広さだけでなく、「驚くほど洗練された指示の深さ」をも明確に証明しています。一見するとシンプルな指示に思えるビデオ処理リクエストでも、その奥を読み解くと、1つのプロンプトの中に 「異なる目的やアプローチが幾重にもブレンドされた、ハイブリッドなワークフロー」 が存在していることがわかります。

ユーザーは、「要約をする、情報を抽出する、出現回数をカウントする、因果関係を比較する、そして文体を書き連ねる」といったアクションをすべて1回のセッションの中で複合的に組み合わせているのです。これらは「人間がただAIに対して、用意された答えを聞くだけの受動的なツール」としてではなく、「動画のメタ構造を解釈し、整理・キュレーションし、新たな形へと自立的に昇華(トランスフォーム)するための強力なコ・パイロット(協調型パートナー)」 としてPegasusを位置づけている何よりの証拠です。


ビデオコンテクストの対話で観察される 3 つの顕著な特性


1 - 指示が強固に「タイムライン(時間)」と紐づいている

ユーザーが求めるフォーマット定義や抽出の「証拠(エビデンス)」の範囲は、常にビデオの特定のフレームの並びに結びついています。たとえば、「5分おきに発生するアクティビティをまとめて要約する」という指示を出した場合、AIエンジン側にはチャプターの変わり目(バウンダリー)の精緻な自動検出、時系列セグメントのマージ・統合といった極めて高度なロジックが暗黙的に求められることになります。これら「時間の制約」は、単一の静止画や一般的なテキストプログラミングだけでは指示することが極めて困難な、動画特有の最もコアな要素の1つです。

システム設計への教訓・実装: ユーザーの自然言語指示を、映像のカット、シーン、配列レベルにマッピングした「実行可能な時系列プラン」へと自動的に翻訳可能であること。境界線のブレ検知、複雑な結合ルールの自動制御、そして動画の前後関係における状態管理(ステートトラッキング)を自律的に行える必要があります。


2 - 「編集用フォーマット」として即戦力となる構造が期待されている

多くのインプットでは、「大枠の要約」「各チャプターへの分解」「標準タイムコードのアライメント」「ハイライト切り出しの推奨箇所」などの指示が同時に含まれます。このため、出力結果は、人間がただ読んで終わるものだけでなく、例えば「EDL」「XML編集用ファイル」「CSVデータテーブル」「JSONプレイリスト」といった映像編集ソフトやコンテンツ管理システムに直接インジスト(連携)可能な 編集者フレンドリーなデータ構造 として出力されることが日常的に想定されています。

システム設計への教訓・実装: 開始インデックス(Start)、終了(End)、ラベル情報、判定確信度、映像のフレームレート(FPS)といった、そのままタイムラインに取り込める国際標準化されたタイムコードや配列をベースに、直ちに編集アプリケーションなどのポスプロ工程で活用できるクリーンな形式の出力に対応しなければなりません。


3 - クリップレベルで自立的なエージェント思考(エージェンティック推論)が必要とされる

ユーザーの命令が「多段階にわたる難問」であるケースが増加するにつれて、より厳格なタイムスタンプの割り出し、文字検出(OCR)スニペット、話者ごとの細切れ分析、といった多層的な処理負荷が要求されるようになっています。これらは「一回処理モデルを通しただけ」での出力では到底担保できません。これを完璧に成功させるには、時間軸や取得したエビデンスを元に、プランを自ら再評価・セルフレビューを行って調整・フィードバックを組み立てて繰り返しやり直す、アプローチの改善が必要不可欠になります。

システム設計への教訓・実装: ワークフローに「出力内容を自己検証・レビューするフィードバックループ」を取り入れること。AIエージェント自体が、動画分析工程を自己の視座で計画(Plan)・検証し、不確定なタイムコードや低い自信値のエリアが検出された場合は、自律的にタイムラインを拡大・再走査してテキスト表現・認識率をブラッシュアップする仕組みが不可欠です。


TwelveLabs はどのように複雑な動画ワークフローを支援しているか

TwelveLabsの製品スイートは、動画対話で出現している高度なニーズを全方面からサポートするために最初から設計されています。Marengo は、映像、音響、表示テキスト、およびその内容の意味変化をリアルタイムかつ高精度にベクタライズする、最先端の「マルチモーダル・セマンティクス・エンベディング」を提供し、高精度なシーン検索、類似オブジェクト検知、ピンポイントコンテンツ検索を可能にします。一方で Pegasus は、映像をテキスト言語として深く理解して出力する対話生成タスクにフォーカスを絞り、要約、緻密なストーリー、エビデンスに基づくタイムコードの書き出し、そして背景にある意図の解説を可能にしています。

これら2つの基盤モデルは相互に強力に連携し、ユーザーの「映像を自由に使いこなすスマートなエージェントAIの頭脳」として最も重要な推進力を提供します。映像ショット/シーン自動検出、イベント境界の識別、特定オブジェクトのトラッキング&リンク、時間的な推論チューニング、自信度分析(キャリブレーション)、そして人間とのフィードバックループなどの要素と高度に統合されることで、ユーザーはただ答えを受け取るだけでなく、大規模な映像資産(ストレージ)をこれまでにない精度で構造化し、任意のビジネススケールに耐えうる複雑な自動化ワークフローを今すぐ簡単に創り出すことができます。

これらの高度なモデル体験を、AIエージェントやLLM(大規模言語モデル)のプラグイン、開発中アシスタントとして簡単に呼び出して組み込めるように、TwelveLabsは MCP (Model Context Protocol) サーバー も提供開始しました。MCPは、ツール間で外部データやAIモデル、および連携プロトコルへのインターフェースを世界共通フォーマットの仕様で統一するためのオープン規格です。弊社のMCPサーバーをご利用いただくことで、社内でお使いのエージェントアシスタントが、手作業による煩雑なAPIの記述をすることなく、動画内の検索、高度な要約、イベント出力、機密データのセーフティ監査ポリシーなどのすべてをフルスピードで活用可能にする、最高に強力な橋渡し(架け橋)になります。


まとめと重要なテイクアウェイ

11の主要なタスク分類、そして4大利用意図の分析を通して、Pegasusが単なる「静的な機能」としてではなく、高度な映像プロダクションにおける「全体の複雑なワークフローと結合するパートナー」として利用されている実態が浮き彫りになりました。ユーザーは、要約、分割、インデント、エビデンス評価をブレンドして目的を洗練させています。これらが示唆するのは、「映像AIが、ただ1回の入力でどれだけ良い要約を返せるか」の評価にとどまらず、「その後に続くワークフロー全体をどれほどスムーズに協調して自動化を推進できるか」こそが、真の映像インテリジェンスの価値を測る基準であるということです。

TwelveLabsはこのビジョンのあるべき未来のために、すべての製品を開拓しています。Marengoで圧倒的な検索(Retrieval)とフィルタリングを叶え、Pegasusにより時間軸や各種データと結びついた高度な推論(Reasoning)を行い、更にはMCPサーバーによって、これらの先進機能を世界中のAIエージェント、アプリケーションと瞬時に接続し、タイムライン全体への直感的な操作や、映画制作などの現場で即座に活躍するデータ出力、最高水準のアウトプット品質をお約束します。

今年2月、私たちは Pegasus をリリースしました 学術的な研究レベルにとどまる多くのAIシステムとは異なり、Pegasusは、極めて細かい時間的推論から数秒〜数時間におよぶコンテンツのハンドリングにいたるまで、現実世界におけるビデオの理解と分析の実用的な課題に対応するように設計されています。

リリース以来、大規模なビデオデータセットを管理するエンタープライズ企業から、個人創作や独自のプロジェクトを追求するクリエイターまで、幅広い層に導入されてきました。その多様なユースケースは、私たちの当初の想定をはるかに超え、日常の業務やワークフローにおけるビデオインテリジェンスのあり方を大きく広げています。

今回、この進化の軌跡を探るべくユーザープロンプトの分析を行い、Pegasusがビデオ理解においてどのように人間とAIの協調(コラボレーション)を再定義しているかを明らかにしました。

本レポートでは、以下の内容を公開します:

  1. 9,000件以上のユニークなプロンプトの分析から、ユーザーがPegasusをどのようなビデオタスクに活用しているのか、その4つのワークフロー意図と11のタスクパターンを明らかにします。

  2. どのようなプロンプトパターンによって、複雑でタイムラインを意識した、そのまま実用に足る高度な動画編集ワークフローを構築しているかを示し、それを支えるためにシステム側に求められる機能と方向性を提唱します。


Pegasusに求められるタスクはどれほど多様化しているか?

ユーザーは、映画や広告、スポーツ、教育、そして安全衛生管理にいたるまで、実にあらゆるドメインでPegasusを駆使しています。この幅広い活用事例は、Pegasusが特定の業界や固定のワークフローに縛られることなく、非常に多様なユーザーのニーズに柔軟に寄り添い、応用されていることを裏付けています。

この広がりをより深く理解するため、人々がどのようにPegasusと対話しているのか、その行動パターンを特定するための 「定性・定量複合アプローチ(混合研究法)」 によるデータ分析を実施しました。

  1. プロンプトのデコード: LLMを用いたアプローチにより、複雑なユーザープロンプトの根底にある本来の「意図」と「構造」を抽出しました。

  2. 類似性の検出(マッピング): 各プロンプトを 「セマンティック・エンベディンク(意味論的ベクトル表現)」 に変換し、プロンプト同士が意味としてどれほど近いかを可視化する独自のデジタル指紋を生成しました。

  3. プロンプトのクラスタリング(グループ化): 機械学習のクラスタリング技術を適用して意味のあるセグメントを抽出し、その結果を人間が高度に解釈可能かつ明快な分類になるまで繰り返しチューニングを行いました。

  4. 人間によるレビューと高度化: 最後に、私たちのエキスパートチームがこれらのクラスターを手動で精査。Pegasusが「現実世界で実際にどう使われているか」を完全に反映した実用的なタクソノミー(分類体系)を構築しました。

今回の分析では、2025年6月のPegasusのプロンプトログを抽出・分析の対象としました。ユーザーの利用状況には大きなばらつきがあり、単にリクエストの総件数だけで測ろうとするとデータに偏りが生じるため、リクエストボリュームではなく個々の 「プロンプトの内容(プロンプトレベル)」 に着目しました。表記揺れなどの完全一致による重複排除を行い、セマンティック類似度(意味の類似性)のしきい値を「0.90」に設定して厳密なノイズ調整を行った結果、最終的な分析対象となる 「ユニークなプロンプト」 のデータセットが得られました。

この厳選されたデータセットを基盤として、ユーザーの間で繰り返し発生しているタスクのパターンと、その背景にある真の利用意図の特定を進めました。

生ログの抽出から、クラスター化されたタスクカテゴリと利用意図の特定にいたるまでの、Pegasus用プロンプトのデータ処理および分析パイプライン。


Pegasusを活用する 11 の主要なタスクパターン

この包括的なプロンプト分析の結果、動画のワークフローにおいてユーザーがPegasusに要求している 「11のタスクカテゴリ」 を特定することができました。これらは大きく 「4つの包括的な意図(4つのメタドメイン)」 に分類されます。ユーザーが動画を理解・整理し、安全性を担保し、クリエイティブに変換し、そしてその動画がもたらす効果を測定するために、いかに効果的にPegasusを役立てているかが分かります。

Pegasusの各タスクが動画のワークフロー上にどのように分布しているかを示す、意図に基づく4つの象限。ユーザーは、「要約」「ナラティブの構築」「セグメンテーション」を通じてビデオの内容を理解し、「コンテンツチェック」「文字起こし」「技術評価」によってその安全性と正確性を担保し、「クリエイティブで文体的な再編集」によって付加価値を追加し、マーケティングや解釈分析といった「分析タスク」を通じてその影響力やパフォーマンスを測定しています。


1 - ビデオサマリー(動画要約)

最も典型的なユースケースの1つが、動画要約です。「動画をフルで再生することなく、その内容を瞬時に把握する」 ために用いられます。ユーザーはこれにより時間と労力を大幅に削減しながら、核となるメッセージや要点を確実にキャッチアップした書き出しログ(記録)を作成できます。そして、この「動画を要約する」という1つのカテゴリの中だけでも、ユーザーによって多種多様なフォーマットや要求が存在します:

  • 多くのユーザーは、全体の主要なシーンやストーリー展開をハイレベルに要約し、動画全体の大きな流れを素早く追いたいというプロンプトを入力します。

  • 一方で、表面的なサマリーに留まらず、「登場人物の隠された意図」「映画に散りばめられたメタファー(暗喩)」「動画全体が訴える内省的なメッセージ」など、より深い文脈や背景の意味(インサイト)の推論をPegasusに要求するケースも顕著に見られます。

この動画のコンテンツを分析してください。私の制作しているキャラクターの1人についてのパートです。

タイムスタンプと、そこに込められた道徳的な教訓への考察を交えて、200ワードのサマリーを作成してください。

何度も繰り返し現れるこの男性は、何を暗示しているのですか?

  • さらに、「アクション(行動)」「ロケーション(場所)」「感情のトーン(雰囲気)」といった特定の目的にフィットした、カテゴリ別の高度なテーブル形式の出力を求めるユーザーもいます。

行動(Activity)、場所(Location)、イベントタイプ(Event Type)、主要コンテンツ、および感情のトーン(Emotional Tone)に焦点を当てて、この動画を要約してください。

これらの傾向から、Pegasusの動画要約機能は、単に時間を節約するためのツールではなく、「動画の内容と深いレベルでアクセスするための新たな対話型インターフェース」 として機能しています。Pegasusが生成する多様な要約によって、ユーザーは直感的に深い洞察を得て、自身の目的に応じてコンテクストを再構築しています。


2 - ナラティブ構築(ストーリーテラー)

要約を超えて、 多くのユーザーがPegasusを 「ビデオから詳細な物語(ナラティブ)を構築し、それを発展させる」 手段として活用しています。これらのプロンプトは、動画の中で繰り広げられるアクションを、まるで映画のスクリプトや小説の1ページを読んでいるかのような、シームレスで没入感のあるストーリーとして語り直すことに主眼を置いています。

  • たとえば、動画の一部分をPegasusに分析させ、シーン全体のペース配分や描写のディテールを高度に補完しながら、単純な説明録ではない、より起伏のあるまとまったストーリーテキストに拡張させるリクエストなどです。

映画の現在のシーンを分析したうえで、以降の描写を継ぎ目なく拡張してください。結果が極めて首尾一貫した、流れるような物語(ナラティブ)になるようにし、展開とイベントが自然に描写されることに集中してください。


3 - セグメンテーションとハイライト(チャプター化)

構造化された映像制作やアーカイブのワークフローにおいて、 Pegasusは 「動画を意味のある区切りに細分化し、ハイライトシーンを特定して切り出す」 目的で広く使用されています。ユーザーは動画を1本の長く切れない「点」として扱うのではなく、個別のチャプターへ分割したり、最もエンゲージメントの高い瞬間を見つけたり、特定のショットタイプを特定して並べ替えたりしたいと考えています。これにより、長尺動画の遷移をスムーズに行い、魅力的なハイライト集を作成したり、配信や編集プロセスにスムーズに統合したりすることが容易になります。

「セグメンテーションとハイライト」のユースケースを示す画面コンセプト案。1つの動画が、どのようにチャプター構造とそれに対応する概要テキストに自動分割されるかを示しています。※図は機能説明用のモックアップであり、実際の実装インターフェースとは異なる場合があります。

  • 一部のプロンプトは チャプター作成 に焦点を当てています。長尺ビデオをソーシャルメディアなどでそのまま独立して発信できるようなショート動画用のセクションへと分割、または特定の時系列に沿った一目でわかるチャプタータイムラインテーブルへとリスト化する手法です。

この動画を各チャプターに分解し、それぞれのチャプターに対して、タイトル、タイムスタンプの範囲、および100〜150文字以内の箇条書きの要約を記載したリストを作成してください。

  • また、視覚的に最も美しく強烈な印象を与える瞬間や、感情を大きく動かす瞬間をピンポイントで切り出す ハイライト抽出 を求める声もあります。これらはYouTubeのサムネイル、映画のプレビュー予告編、あるいは数秒間で視聴者の心を掴む必要があるSNSマーケティング素材の選定などで威力を発揮します。

あなたはサムネイル画像の最適化を専門とする、プロの映像アナリストです。この動画を分析し、タイムスタンプおよびそこに映るビジュアルの詳細情報とともに、サムネイルにふさわしい決定的な瞬間を3〜4個抽出してください。

  • さらに、映像のカット割、トランジション(シーンの切り替え)、カメラのズーム状態、スクリーン上の要素を時系列で網羅的に記録する ショット・シーンタイプの特定 を目的としたプロンプトも存在します。このミリ秒単位の極めて高い精度は、プロの動画制作、ポスプロ編集、または映像品質評価チェック(QA)に直結します。

極限の精度でこの映像を分析してください。すべての映像カット、ズーム、そして画角の遷移を特定し、タイムスタンプ、フレーム(ショット)タイプ、ズームの状態、およびその時に画面に映っている構成要素を網羅した詳細なログを出力してください。

セグメンテーションとハイライトの抽出機能により、Pegasusは長大なビデオを 「編集しやすく、扱いやすい構造化されたアセット(部品)」 へと変換します。ユーザーはもう必要なシーンを探すために数時間も早送り・巻き戻しを繰り返す必要はありません。一瞬で、求める価値のある場面にジャンプできます。


4 - コンテンツ・セーフティチェック(安全・コンプライアンス監査)

安全性と信頼性が最優先される企業ワークフローにおいて、 Pegasusは 「動画内のポリシー違反や不適切なシーンを検知するセーフティ・フィルター」 として重要な役割を果たしています。人力に頼るリスク監視から脱却し、企業やブランドイメージの毀損、および法令違反のリスクとなり得る危険な場面をPegasusが自動でスキャニングして検知します。不適切な箇所を早期段階で検出・ブロックすることで、コンプライアンス侵害のリスクを未然に防ぎ、コンテンツの健全性とブランドの安全を守ります。

  • 一般的なプロンプトには、刃物や火器といった 危険物や暴力的・違法なコンテンツ の自動検知があります。これらの検出結果は、レビューワーがすぐにエスカレーション判断を行えるよう、詳細な文脈説明とともに、発生した正確なタイムスタンプ情報を含んだ状態で出力されます。

画面に拳銃やナイフなどの武器が映っている箇所をすべて検出してください。

該当箇所のタイムスタンプと、その周囲で何が起こっているか、状況の説明を添えてください。

  • 他にも、工場、建築現場などの職場、あるいは交通ルールといった、特定のコンプライアンスや 安全ポリシーの適用違反 のチェックにも活用されています。とりわけ、ヘルメットや安全ベスト、自動車のシートベルトといった防具や義務化された保護具を未着用で走行・移動しているシーンを自動監視するリクエストなどが挙げられます。

二輪車が移動中に、運転者または同乗者がヘルメットを着用していないシーンを検出してください。このポリシー違反が起こっているすべてのタイムスタンプを示してください。

  • 最後に、Pegasusは 露出(アダルトシーン等)やグロテスクな暴力描写のフィルタリング といった用途でも重宝されています。この要件は、指定箇所をトリミング・除外して一般視聴者向けのセーフバージョン動画を作るワークフロー、あるいは放送規制対応のためにすべての問題箇所をエビデンス付きでリストアップする、編集・校正双方の用途で利用されています。

肌の露出(ヌード)が含まれるすべてのセグメントを検出してください。タイムスタンプと、それが部分的な露出か全面的な露出かを明記してください。

こうした一連のセーフティ検証を自動化することで、Pegasusはビデオを扱うあらゆる業種における、信頼性の高い 「安全な配信とコンプライアンスのガーディアン(防壁)」 の役割を担っています。


5 - 文字起こしとオンスクリーンテキスト(OCR)抽出

Pegasusは、動画内の 「話し言葉(音声のダイアログ)」から「画面に映っている文字情報(テロップや背景)」にいたるまで、あらゆるテキスト情報を完全に書き下す 用途で極めて多くのユーザーに好まれています。テキスト化によって動画内のすべての瞬間を一言一句漏らさずに検索(インデックス化)できるようになり、ビデオファイルをまるで普通のテキストドキュメントのように瞬時に処理・引用可能になります。

  • 多くの書き出しプロンプトでは、タイムコード、発話者のラベリング、さらには話し言葉における「あの」「ええと」といったケバ取り前の 「フル文字起こし(逐語起こし)」 を求めています。この極めて正確なデータ抽出工程は、法的機関による証跡記録や、学術・リサーチ研究、アクセシビリティ対応字幕といったミッションクリティカルな場面で必要とされています。

このビデオの正確な逐語文字起こし( verbatim transcription )を作成してください。

30秒ごとに明確なタイムスタンプを挿入し、話者の交代を明記し、言い淀みやフィラーワード(ケバ)もそのまま残してください。

  • また、看板、メニューの価格、ウェブサイトのURL、SNSハンドル、画面下部に数秒しか流れない法的注記(ディスクレイマー)など、動画の背景やバナーにある 「画面上のテキスト(視覚文字の検出)」 に特化したユースケースも数多く見られます。これは主に、ブランド広告の監視、競合企業の販売プロモーション内容の自動精査、動画から情報を取得するデータエントリの自動化などで利用されています。

この広告に表示されているすべての画面上のテキストを抽出してください。
以下を特に注意して探してください:

  • ウェブサイトのURL

  • 電話番号

  • 価格表示やプロモーションコード(割引コード)

  • 実店舗のアドレスやロケーション情報

  • ハッシュタグ、SNSのユーザー名(ハンドル名)
    画面に表示されているものをそのまま「すべて」書き出し、出現したタイムスタンプを横に記載してください。

音声テキストと視覚テキストの双方を 検索可能で柔軟な構造化テキスト(アセット) に変換することで、Pegasusは多種多様なダウンストリーム処理のハブになり得ます。これには、自動多言語字幕の作成やアーカイブの検索性はもちろん、法規チェックや自動意思決定エンジンとしての運用などが含まれます。


6 - クリエイティブで文体豊かな「ビデオ書き起こし」

クリエイティブ(表現)の領域においては、 Pegasusは単に要約するだけでなく、「動画の内容を取り出し、それをまったく特定のトーン、魅力的な語り口、または任意のファイルフォーマットへと再編集して出力させる」 ために採用されています。このタスクの最大の目的は、動画自体の情報を捻じ曲げることなく、提供するチャネルや狙いたいオーディエンス層に完璧にマッチする文体に仕上げ直すことです。たとえば、1本の動画にある同じ出来事を、マーケティング広告向けには「エネルギッシュで心を躍らせる言葉」に仕立て、社内の事故報告向けには「淡々とした客観的な事実報告」に、そしてソーシャルアカウント向けには「極めてキャッチーでユーモアを含んだショート文」に瞬時に書き換えることが可能になります。

「クリエイティブかつ文体的なビデオ説明」のユースケースコンセプト。動画データを読み取り、ユーザーが指定した特定のスタイル(トーン)に瞬時にリライトする流れを示しています。この例では、同じ防犯カメラの映像が、ユーザーの指示によって「サスペンスドラマやミステリー小説の緊迫したスクリプト」へと変化しています。※図は機能説明用の概念図であり、実際のPegasusのUIデザインとは異なる場合があります。

  • 特に数多いのが トーン・マナー(語り口)のコントロール を目的としたプロンプトです。客観的な調査報告書のようなフォーマルな筆致から、YouTubeでそのまま喋って使えるようなフレンドリーで親近感のあるトーンにいたるまで、出力の「話し手としてのキャラクター」を厳密に指示します。

事件の捜査調査報告書のようなトーンで、100文字以内で要約してください。

人気YouTuberの語り口調にしてください。タイムスタンプも交えて。

  • 少し角度を変えて、エンターテインメント性やユーモアを追加する プロンプトも見られます。視聴者の関心を惹きつけつつ、動画の骨組みを面白おかしく理解してもらうのに効果的です。

このビデオ全体を、スタンドアップコメディの小話のように30字で要約してください。

最悪な1日を過ごした辛口なコメディアンが、この動画を酷評している(Roast)スタイルで教えてください。

  • 最も利用が急増しているのが、数文字で目を引く フック(キャッチコピー)の作成 です。1秒で指を止めさせ、詳細を読ませるための工夫です。

Instagramのカード型画像に挿入する、わずか1〜2行での紹介テキスト。

Twitter/X(280文字以内の投稿)にフィットする要約を書いてください。

テキストをベースとした「スタイル(文体)変換」を実行するとき、Pegasusは単なる自動サマライズの仕組みを超えて、あなたの隣に寄り添う 「動画専門の凄腕コピーライター」 のような振る舞いを見せます。


7 - マーケティング・広告・トレンド分析

マーケティングや広告業界において、 Pegasusは 「動画がどれほど視聴者を動かす説得力(パースエージョン)を持っているかという視点に基づいた評価」 に活用されています。マーケターやメディアエージェンシーは、単に「何が映っているか」に留まらず、広告としてクリエイティブがどれほど有効で、ターゲットに刺さっているかというパフォーマンス視点を知るために、Pegasusに分析を実行させます。広告クリエイターは、これにより、メッセージの明確さ、ブランドへのエンゲージメント、コンバージョン最大化に向けた改善点を特定できます。

  • まずは クリエイティブおよび構成の改善提案(アドバイス) です。編集のリズム、セリフ、クリエイティブ全体のディレクションなどを、プロンプトで指定した特定のアウトプット役(メンター等)の立場に立ちきって分析・評価するよう指令を出します。

インフルエンサーマーケティングのエグゼクティブとしての役割に徹して、この動画に対し、編集方法、全体の構成・台本、プロモーションの品質などの視点から、改善すべきエリアと具体的なアドバイスを提案してください。

  • また、フックとメッセージエンゲージメント分析へのアプローチ も顕著です。視聴を開始した瞬間の関心引き寄せ力、中心となるブランドメッセージの分かりやすさ、視聴者の心に訴える情緒的トリガー(感情移入要素)を深く点検します。これらの知見から、どの表現が視聴率を上げているのか(あるいは下げているのか)を学習し、そのノウハウを次の映像キャンペーンに再利用します。

オープニング3秒間のアテンション(注意喚起)の強さと解りやすさをレビューしてください。

視聴者にアクションを促す、別の「Call-to-Action」(CTAフレーズ)のバリエーションを幾つか提示してください。

マーケティングおよび広告の分析分野におけるPegasusは、インサイトを可視化することで、動画が「いかにしてターゲットに意図したメッセージを浸透させ、コンバージョンさせるか」を強力にバックアップします。


8 - 事実確認(ファクトQ&A)、エンティティおよびイベントの特定

Pegasusのログで非常に多く出現するのが、「特定の事実に特化した確認質問(Q&A)」 です。ユーザーは「そこに記述した物事が実際に起こっているか、何があるか」を客観的に裏付け・回答するようPegasusに指示します。大雑把な要約テキストを望むのではなく、ここでの目的は「事実かどうかという明確な検証」にあります: 本当にビデオの中にそれは見つかるのか、そうではないのか? そこに立っている人物は誰か? 一体そこで何かが行われたのか?

  • 多くのリクエストでは、シンプルな Yes / No による事実判定(検証) を求めています。推測や長々とした説明を排し、対象物が特定の場所や時間・行動として「含まれているかどうか」を一言で回答させ、ユーザー自身の確認コストを削減します。

車輌のワイパーが作動した(スイッチが入れられた)瞬間はありますか?

  • もう一つのアプローチは エンティティの特定と抽出 です。ビデオに映っているすべての人物名、表示されているブランドロゴ、映り込んでいるオブジェクト、または検出されたすべてのインシデントの全一覧を綺麗に整理したリスト(構造データ)として出力させます。このクリーンなデータは、データインデックスの作成、後続のシステム連携、AI学習用タグの付与などにシームレスに適用可能です。

この動画に映るすべての人を、画面に出現した正確な順番でリストアップしてください。

映像全体を通して、画面上にはっきりと視認できるブランド商品・プロダクトをすべて特定して名前を出してください。

  • さらに、「特定の出来事が、まさにどこで起こったか」という イベントスポッティング(ピンポイント検出) を要請するプロンプトです。タイムスタンプとともにある現象や規則破りなどの決定的瞬間を見つけ出すために有効です。

審判(レフェリー)がレッドカードを頭上に高々と提示した瞬間は、具体的に何分何秒ですか?

これらすべてのファクトベースの質問応用において、Pegasusはビデオを評価・確認するための 「極めて信頼のおける強力な実用レイヤー」 を形成します。動画分析ワークフローにありがちな不確かさを、確固たるデータ・証拠へと転じて、ビデオタグ付けやインフラ業務の正確性を桁違いに高めます。


9 - 解釈型Q&A(文脈理解)、因果関係および「意図」の推論

さらにプロンプトには、動画全体の表面的な情報にとどまらず、「なぜそのような動きになっているのか、なぜそれが起きたか」という複雑な状況判断、背景、因果関係を説明させる 高度な質問も含まれています。ここでは単純に見えている事象を並べるだけでは不十分で、ユーザーは状況に応じた「動機の推測」、「原因と結果の構造分析」、または「クオリティ(質)に対する評価」を求めています。Pegasusは単なる自動的な「動画サマライザー」であるだけでなく、「映像コンテクストの高度な翻訳者、理解者」 として活用されています。

  • 最もよく活用されるシーンの1つが 因果関係の分析(フォレンジック・追査) です。交通事故や物損事故のアクシデントにおいて、責任や起因がどちら側にあるか、どのような経緯でそれが発生したかを、ビデオ全体のフレーム情報から論理立てて説明させます。

このドライブレコーダー動画が捉えたトラブルで、一体何が起こったのか、そしてどの当事者に過失や引き金があるかを、論拠をもとに解説してください。

  • また、高度なパフォーマンス比較や定性評価 も好まれています。アスリートのフォームの比較、競技上の動作、選手同士の細かい物理的または心理的なインタラクション(交錯)といった、映像の中の微細なヒント同士の意味を複雑に演算・連結する推論が必要です。

黒いグローブをはめた選手は、相手のボクサーよりも顔の位置や頭部のディフェンス(ヘッドムーブメント)が優れていましたか?

これらのケーススタディすべてにおいて、Pegasusは単に見えたものを答えるのではなく、一見では見過ごしそうな 「意図、行動による起因、およびその影響」を正確に解釈 するように求められます。この解釈能力は、医療やスポーツのコーチング、アクシデントの紛争解決にいたるまで、人が何かを「意思決定」する、あらゆるプロセスを強力にアシストします。


10 - スポーツ分析(パフォーマンス・スタッツ解析)

スポーツのドメイン(用途)でも、Pegasusは 「動画から試合全体のスタッツ(成績)や、分析可能なインシデントログを切り出すアシスタント」 としてフル活用されています。試合全体を何度もリピートして凝視することなく、ユーザーは戦術を動かしているキープレイ、特定のパスワーク、特定のファウルといった箇所だけを一瞬で可視化して整理できます。この能力は、ダイジェストの制作、コーチングのための戦術分析、将来有望なアスリートのスカウティング、ファン向けSNSの速報性といったあらゆるシーンに適合します。

  • 競技ごとの ハイライト・イベント自動ログのプロンプト です。スコアリング(得点)、ファウル、または試合全体の展開を変えたプレイ(得点チャンス等)のすべてを、タイムスタンプをタグ付けして一覧化します。試合を長く見る時間がなくても、どのような試合展開だったかの流れが一瞬で把握できるようになります。

ロサンゼルス・レイカーズが得点したすべてのシーンを、対応するタイムスタンプと、攻撃時におけるオフェンス・パターンの簡単な戦術分析とともにリストアップしてください。

  • また、特定のプレイヤー(アスリート)だけを追いかける分析 も盛んです。該当のプレイヤーがボールを持った瞬間だけをダイジェストで確認したり、前回の試合と今回の試合でのプレイスタイルの進捗・貢献の違いをトラッキングしたりでき、これはコーチ、監督、解説者にとって無くてはならない情報源になっています。

背番号23番の選手が試合中にボールにタッチしたすべての瞬間を切り出し、各タッチごとに何が起こったかの詳細を描写してください。

  • さらに一歩進んだプロンプトでは、「守備側のローテーションのズレの特定」、「シュートセレクトは最適だったか」、「チームコンセプト(戦略)の構造的な偏り」などの 戦術的インサイト を求められます。これらの見落としそうな動きが高度にデータとして視覚・構造化されることで、スポーツにおけるPegasusの役割はただの観賞支援を超え、プロの戦術的意思決定の頼れるバックボーンになっていきます。

スポーツ分析の分野でPegasusは、動画から高度な競技構造や選手のパフォーマンスを抽出する 「AIアドバイザー(オンデマンド・コーチ)」 のように動作します。選手、プロ組織、ファンの、スマートで熱量のある映像体験をどこまでも広げてくれます。


11 - 技術仕様評価、エラー検知と映像修正(QA)

ビデオを分析するニーズは、ストーリーの面白さやアクションの分析だけにとどまりません。映像の 設計品質や、制作時の仕様・レギュレーションへの適合性という高い品質目標(品質保証、QA) などを監視したいワークフローもあります。このタスクでPegasusは、プロンプトで指示されたチェックシート、デザイン規約などの仕様を確実にクリアしているかという視点をビデオに対して適用・チェックします。ポスプロの早期段階でヒューマンエラーや表示事故を発見することで、何倍ものコストがかかりかねない映像の再レンダリングや作り直しのリスクを削減します。

  • 1つ目は、「規定の採点チェックリストやルーブリック(評価基準)に基づくチェック」 です。教育のチュートリアル動画や研修動画が、指定された学習カリキュラム・チェック基準を完全に踏襲しているかのレビューと調整に活用されます。

提供された採点基準(評価ガイドライン)に照らし合わせて、この教育チュートリアルビデオを評価してください。必要に応じてガイドラインの採点を修正し、ビデオの実際の解説内容とスコアがズレのないようにマッピングを連動させてください。

  • また、ビジュアルにおける画面要素の破綻の自動警告(レイアウトレビュー) も実施されます。画面上のボタンレイアウトや地図表示の歪み、グラフィック上の文字重なり(テキストオーバーラップ)、解像度の引き伸ばしなどをPegasusに見つけ出させ、それら問題に対する改善案(フィードバック)まで一気に回答させます。

グラフィック要素の縮尺やアスペクト比が、表示されている実物の比率を歪めてしまっていないか評価してください。画面内で文字が重なって表示されている箇所をマークし、どのように修正すべきかの改善提案を教えてください。

  • もう一つのアプローチが、講義やプレゼンで教師が「特定のキーワード(専門用語)を言った回数」を自動カウントするような 定量分析や頻度レビュー です。ビデオという非構造の塊を「数、学習効率、語彙表現」といった数値化されたスコア(データ構造)へと抽出し直します。

講師が講義の中で「光合成」( photosynthesis )という単語を何回使用したかカウントし、出現回数とその頻度チャート(グラフの基データ)を出力してください。

Pegasusをこのような「技術評価や動画QA」に利用することで、作成したコンテンツクオリティへの懸念や編集時の設定ミスを劇的にスマートに改善・検証可能になり、プロジェクト全体に比類なき効率化を担保します。


多様なタスク分析から見えた洞察:一問一答を超え、「協調パートナー」としてのAIへ

これら特定された11の主要タスクカテゴリーは、単にユーザーがPegasusに命令している幅の広さだけでなく、「驚くほど洗練された指示の深さ」をも明確に証明しています。一見するとシンプルな指示に思えるビデオ処理リクエストでも、その奥を読み解くと、1つのプロンプトの中に 「異なる目的やアプローチが幾重にもブレンドされた、ハイブリッドなワークフロー」 が存在していることがわかります。

ユーザーは、「要約をする、情報を抽出する、出現回数をカウントする、因果関係を比較する、そして文体を書き連ねる」といったアクションをすべて1回のセッションの中で複合的に組み合わせているのです。これらは「人間がただAIに対して、用意された答えを聞くだけの受動的なツール」としてではなく、「動画のメタ構造を解釈し、整理・キュレーションし、新たな形へと自立的に昇華(トランスフォーム)するための強力なコ・パイロット(協調型パートナー)」 としてPegasusを位置づけている何よりの証拠です。


ビデオコンテクストの対話で観察される 3 つの顕著な特性


1 - 指示が強固に「タイムライン(時間)」と紐づいている

ユーザーが求めるフォーマット定義や抽出の「証拠(エビデンス)」の範囲は、常にビデオの特定のフレームの並びに結びついています。たとえば、「5分おきに発生するアクティビティをまとめて要約する」という指示を出した場合、AIエンジン側にはチャプターの変わり目(バウンダリー)の精緻な自動検出、時系列セグメントのマージ・統合といった極めて高度なロジックが暗黙的に求められることになります。これら「時間の制約」は、単一の静止画や一般的なテキストプログラミングだけでは指示することが極めて困難な、動画特有の最もコアな要素の1つです。

システム設計への教訓・実装: ユーザーの自然言語指示を、映像のカット、シーン、配列レベルにマッピングした「実行可能な時系列プラン」へと自動的に翻訳可能であること。境界線のブレ検知、複雑な結合ルールの自動制御、そして動画の前後関係における状態管理(ステートトラッキング)を自律的に行える必要があります。


2 - 「編集用フォーマット」として即戦力となる構造が期待されている

多くのインプットでは、「大枠の要約」「各チャプターへの分解」「標準タイムコードのアライメント」「ハイライト切り出しの推奨箇所」などの指示が同時に含まれます。このため、出力結果は、人間がただ読んで終わるものだけでなく、例えば「EDL」「XML編集用ファイル」「CSVデータテーブル」「JSONプレイリスト」といった映像編集ソフトやコンテンツ管理システムに直接インジスト(連携)可能な 編集者フレンドリーなデータ構造 として出力されることが日常的に想定されています。

システム設計への教訓・実装: 開始インデックス(Start)、終了(End)、ラベル情報、判定確信度、映像のフレームレート(FPS)といった、そのままタイムラインに取り込める国際標準化されたタイムコードや配列をベースに、直ちに編集アプリケーションなどのポスプロ工程で活用できるクリーンな形式の出力に対応しなければなりません。


3 - クリップレベルで自立的なエージェント思考(エージェンティック推論)が必要とされる

ユーザーの命令が「多段階にわたる難問」であるケースが増加するにつれて、より厳格なタイムスタンプの割り出し、文字検出(OCR)スニペット、話者ごとの細切れ分析、といった多層的な処理負荷が要求されるようになっています。これらは「一回処理モデルを通しただけ」での出力では到底担保できません。これを完璧に成功させるには、時間軸や取得したエビデンスを元に、プランを自ら再評価・セルフレビューを行って調整・フィードバックを組み立てて繰り返しやり直す、アプローチの改善が必要不可欠になります。

システム設計への教訓・実装: ワークフローに「出力内容を自己検証・レビューするフィードバックループ」を取り入れること。AIエージェント自体が、動画分析工程を自己の視座で計画(Plan)・検証し、不確定なタイムコードや低い自信値のエリアが検出された場合は、自律的にタイムラインを拡大・再走査してテキスト表現・認識率をブラッシュアップする仕組みが不可欠です。


TwelveLabs はどのように複雑な動画ワークフローを支援しているか

TwelveLabsの製品スイートは、動画対話で出現している高度なニーズを全方面からサポートするために最初から設計されています。Marengo は、映像、音響、表示テキスト、およびその内容の意味変化をリアルタイムかつ高精度にベクタライズする、最先端の「マルチモーダル・セマンティクス・エンベディング」を提供し、高精度なシーン検索、類似オブジェクト検知、ピンポイントコンテンツ検索を可能にします。一方で Pegasus は、映像をテキスト言語として深く理解して出力する対話生成タスクにフォーカスを絞り、要約、緻密なストーリー、エビデンスに基づくタイムコードの書き出し、そして背景にある意図の解説を可能にしています。

これら2つの基盤モデルは相互に強力に連携し、ユーザーの「映像を自由に使いこなすスマートなエージェントAIの頭脳」として最も重要な推進力を提供します。映像ショット/シーン自動検出、イベント境界の識別、特定オブジェクトのトラッキング&リンク、時間的な推論チューニング、自信度分析(キャリブレーション)、そして人間とのフィードバックループなどの要素と高度に統合されることで、ユーザーはただ答えを受け取るだけでなく、大規模な映像資産(ストレージ)をこれまでにない精度で構造化し、任意のビジネススケールに耐えうる複雑な自動化ワークフローを今すぐ簡単に創り出すことができます。

これらの高度なモデル体験を、AIエージェントやLLM(大規模言語モデル)のプラグイン、開発中アシスタントとして簡単に呼び出して組み込めるように、TwelveLabsは MCP (Model Context Protocol) サーバー も提供開始しました。MCPは、ツール間で外部データやAIモデル、および連携プロトコルへのインターフェースを世界共通フォーマットの仕様で統一するためのオープン規格です。弊社のMCPサーバーをご利用いただくことで、社内でお使いのエージェントアシスタントが、手作業による煩雑なAPIの記述をすることなく、動画内の検索、高度な要約、イベント出力、機密データのセーフティ監査ポリシーなどのすべてをフルスピードで活用可能にする、最高に強力な橋渡し(架け橋)になります。


まとめと重要なテイクアウェイ

11の主要なタスク分類、そして4大利用意図の分析を通して、Pegasusが単なる「静的な機能」としてではなく、高度な映像プロダクションにおける「全体の複雑なワークフローと結合するパートナー」として利用されている実態が浮き彫りになりました。ユーザーは、要約、分割、インデント、エビデンス評価をブレンドして目的を洗練させています。これらが示唆するのは、「映像AIが、ただ1回の入力でどれだけ良い要約を返せるか」の評価にとどまらず、「その後に続くワークフロー全体をどれほどスムーズに協調して自動化を推進できるか」こそが、真の映像インテリジェンスの価値を測る基準であるということです。

TwelveLabsはこのビジョンのあるべき未来のために、すべての製品を開拓しています。Marengoで圧倒的な検索(Retrieval)とフィルタリングを叶え、Pegasusにより時間軸や各種データと結びついた高度な推論(Reasoning)を行い、更にはMCPサーバーによって、これらの先進機能を世界中のAIエージェント、アプリケーションと瞬時に接続し、タイムライン全体への直感的な操作や、映画制作などの現場で即座に活躍するデータ出力、最高水準のアウトプット品質をお約束します。

今年2月、私たちは Pegasus をリリースしました 学術的な研究レベルにとどまる多くのAIシステムとは異なり、Pegasusは、極めて細かい時間的推論から数秒〜数時間におよぶコンテンツのハンドリングにいたるまで、現実世界におけるビデオの理解と分析の実用的な課題に対応するように設計されています。

リリース以来、大規模なビデオデータセットを管理するエンタープライズ企業から、個人創作や独自のプロジェクトを追求するクリエイターまで、幅広い層に導入されてきました。その多様なユースケースは、私たちの当初の想定をはるかに超え、日常の業務やワークフローにおけるビデオインテリジェンスのあり方を大きく広げています。

今回、この進化の軌跡を探るべくユーザープロンプトの分析を行い、Pegasusがビデオ理解においてどのように人間とAIの協調(コラボレーション)を再定義しているかを明らかにしました。

本レポートでは、以下の内容を公開します:

  1. 9,000件以上のユニークなプロンプトの分析から、ユーザーがPegasusをどのようなビデオタスクに活用しているのか、その4つのワークフロー意図と11のタスクパターンを明らかにします。

  2. どのようなプロンプトパターンによって、複雑でタイムラインを意識した、そのまま実用に足る高度な動画編集ワークフローを構築しているかを示し、それを支えるためにシステム側に求められる機能と方向性を提唱します。


Pegasusに求められるタスクはどれほど多様化しているか?

ユーザーは、映画や広告、スポーツ、教育、そして安全衛生管理にいたるまで、実にあらゆるドメインでPegasusを駆使しています。この幅広い活用事例は、Pegasusが特定の業界や固定のワークフローに縛られることなく、非常に多様なユーザーのニーズに柔軟に寄り添い、応用されていることを裏付けています。

この広がりをより深く理解するため、人々がどのようにPegasusと対話しているのか、その行動パターンを特定するための 「定性・定量複合アプローチ(混合研究法)」 によるデータ分析を実施しました。

  1. プロンプトのデコード: LLMを用いたアプローチにより、複雑なユーザープロンプトの根底にある本来の「意図」と「構造」を抽出しました。

  2. 類似性の検出(マッピング): 各プロンプトを 「セマンティック・エンベディンク(意味論的ベクトル表現)」 に変換し、プロンプト同士が意味としてどれほど近いかを可視化する独自のデジタル指紋を生成しました。

  3. プロンプトのクラスタリング(グループ化): 機械学習のクラスタリング技術を適用して意味のあるセグメントを抽出し、その結果を人間が高度に解釈可能かつ明快な分類になるまで繰り返しチューニングを行いました。

  4. 人間によるレビューと高度化: 最後に、私たちのエキスパートチームがこれらのクラスターを手動で精査。Pegasusが「現実世界で実際にどう使われているか」を完全に反映した実用的なタクソノミー(分類体系)を構築しました。

今回の分析では、2025年6月のPegasusのプロンプトログを抽出・分析の対象としました。ユーザーの利用状況には大きなばらつきがあり、単にリクエストの総件数だけで測ろうとするとデータに偏りが生じるため、リクエストボリュームではなく個々の 「プロンプトの内容(プロンプトレベル)」 に着目しました。表記揺れなどの完全一致による重複排除を行い、セマンティック類似度(意味の類似性)のしきい値を「0.90」に設定して厳密なノイズ調整を行った結果、最終的な分析対象となる 「ユニークなプロンプト」 のデータセットが得られました。

この厳選されたデータセットを基盤として、ユーザーの間で繰り返し発生しているタスクのパターンと、その背景にある真の利用意図の特定を進めました。

生ログの抽出から、クラスター化されたタスクカテゴリと利用意図の特定にいたるまでの、Pegasus用プロンプトのデータ処理および分析パイプライン。


Pegasusを活用する 11 の主要なタスクパターン

この包括的なプロンプト分析の結果、動画のワークフローにおいてユーザーがPegasusに要求している 「11のタスクカテゴリ」 を特定することができました。これらは大きく 「4つの包括的な意図(4つのメタドメイン)」 に分類されます。ユーザーが動画を理解・整理し、安全性を担保し、クリエイティブに変換し、そしてその動画がもたらす効果を測定するために、いかに効果的にPegasusを役立てているかが分かります。

Pegasusの各タスクが動画のワークフロー上にどのように分布しているかを示す、意図に基づく4つの象限。ユーザーは、「要約」「ナラティブの構築」「セグメンテーション」を通じてビデオの内容を理解し、「コンテンツチェック」「文字起こし」「技術評価」によってその安全性と正確性を担保し、「クリエイティブで文体的な再編集」によって付加価値を追加し、マーケティングや解釈分析といった「分析タスク」を通じてその影響力やパフォーマンスを測定しています。


1 - ビデオサマリー(動画要約)

最も典型的なユースケースの1つが、動画要約です。「動画をフルで再生することなく、その内容を瞬時に把握する」 ために用いられます。ユーザーはこれにより時間と労力を大幅に削減しながら、核となるメッセージや要点を確実にキャッチアップした書き出しログ(記録)を作成できます。そして、この「動画を要約する」という1つのカテゴリの中だけでも、ユーザーによって多種多様なフォーマットや要求が存在します:

  • 多くのユーザーは、全体の主要なシーンやストーリー展開をハイレベルに要約し、動画全体の大きな流れを素早く追いたいというプロンプトを入力します。

  • 一方で、表面的なサマリーに留まらず、「登場人物の隠された意図」「映画に散りばめられたメタファー(暗喩)」「動画全体が訴える内省的なメッセージ」など、より深い文脈や背景の意味(インサイト)の推論をPegasusに要求するケースも顕著に見られます。

この動画のコンテンツを分析してください。私の制作しているキャラクターの1人についてのパートです。

タイムスタンプと、そこに込められた道徳的な教訓への考察を交えて、200ワードのサマリーを作成してください。

何度も繰り返し現れるこの男性は、何を暗示しているのですか?

  • さらに、「アクション(行動)」「ロケーション(場所)」「感情のトーン(雰囲気)」といった特定の目的にフィットした、カテゴリ別の高度なテーブル形式の出力を求めるユーザーもいます。

行動(Activity)、場所(Location)、イベントタイプ(Event Type)、主要コンテンツ、および感情のトーン(Emotional Tone)に焦点を当てて、この動画を要約してください。

これらの傾向から、Pegasusの動画要約機能は、単に時間を節約するためのツールではなく、「動画の内容と深いレベルでアクセスするための新たな対話型インターフェース」 として機能しています。Pegasusが生成する多様な要約によって、ユーザーは直感的に深い洞察を得て、自身の目的に応じてコンテクストを再構築しています。


2 - ナラティブ構築(ストーリーテラー)

要約を超えて、 多くのユーザーがPegasusを 「ビデオから詳細な物語(ナラティブ)を構築し、それを発展させる」 手段として活用しています。これらのプロンプトは、動画の中で繰り広げられるアクションを、まるで映画のスクリプトや小説の1ページを読んでいるかのような、シームレスで没入感のあるストーリーとして語り直すことに主眼を置いています。

  • たとえば、動画の一部分をPegasusに分析させ、シーン全体のペース配分や描写のディテールを高度に補完しながら、単純な説明録ではない、より起伏のあるまとまったストーリーテキストに拡張させるリクエストなどです。

映画の現在のシーンを分析したうえで、以降の描写を継ぎ目なく拡張してください。結果が極めて首尾一貫した、流れるような物語(ナラティブ)になるようにし、展開とイベントが自然に描写されることに集中してください。


3 - セグメンテーションとハイライト(チャプター化)

構造化された映像制作やアーカイブのワークフローにおいて、 Pegasusは 「動画を意味のある区切りに細分化し、ハイライトシーンを特定して切り出す」 目的で広く使用されています。ユーザーは動画を1本の長く切れない「点」として扱うのではなく、個別のチャプターへ分割したり、最もエンゲージメントの高い瞬間を見つけたり、特定のショットタイプを特定して並べ替えたりしたいと考えています。これにより、長尺動画の遷移をスムーズに行い、魅力的なハイライト集を作成したり、配信や編集プロセスにスムーズに統合したりすることが容易になります。

「セグメンテーションとハイライト」のユースケースを示す画面コンセプト案。1つの動画が、どのようにチャプター構造とそれに対応する概要テキストに自動分割されるかを示しています。※図は機能説明用のモックアップであり、実際の実装インターフェースとは異なる場合があります。

  • 一部のプロンプトは チャプター作成 に焦点を当てています。長尺ビデオをソーシャルメディアなどでそのまま独立して発信できるようなショート動画用のセクションへと分割、または特定の時系列に沿った一目でわかるチャプタータイムラインテーブルへとリスト化する手法です。

この動画を各チャプターに分解し、それぞれのチャプターに対して、タイトル、タイムスタンプの範囲、および100〜150文字以内の箇条書きの要約を記載したリストを作成してください。

  • また、視覚的に最も美しく強烈な印象を与える瞬間や、感情を大きく動かす瞬間をピンポイントで切り出す ハイライト抽出 を求める声もあります。これらはYouTubeのサムネイル、映画のプレビュー予告編、あるいは数秒間で視聴者の心を掴む必要があるSNSマーケティング素材の選定などで威力を発揮します。

あなたはサムネイル画像の最適化を専門とする、プロの映像アナリストです。この動画を分析し、タイムスタンプおよびそこに映るビジュアルの詳細情報とともに、サムネイルにふさわしい決定的な瞬間を3〜4個抽出してください。

  • さらに、映像のカット割、トランジション(シーンの切り替え)、カメラのズーム状態、スクリーン上の要素を時系列で網羅的に記録する ショット・シーンタイプの特定 を目的としたプロンプトも存在します。このミリ秒単位の極めて高い精度は、プロの動画制作、ポスプロ編集、または映像品質評価チェック(QA)に直結します。

極限の精度でこの映像を分析してください。すべての映像カット、ズーム、そして画角の遷移を特定し、タイムスタンプ、フレーム(ショット)タイプ、ズームの状態、およびその時に画面に映っている構成要素を網羅した詳細なログを出力してください。

セグメンテーションとハイライトの抽出機能により、Pegasusは長大なビデオを 「編集しやすく、扱いやすい構造化されたアセット(部品)」 へと変換します。ユーザーはもう必要なシーンを探すために数時間も早送り・巻き戻しを繰り返す必要はありません。一瞬で、求める価値のある場面にジャンプできます。


4 - コンテンツ・セーフティチェック(安全・コンプライアンス監査)

安全性と信頼性が最優先される企業ワークフローにおいて、 Pegasusは 「動画内のポリシー違反や不適切なシーンを検知するセーフティ・フィルター」 として重要な役割を果たしています。人力に頼るリスク監視から脱却し、企業やブランドイメージの毀損、および法令違反のリスクとなり得る危険な場面をPegasusが自動でスキャニングして検知します。不適切な箇所を早期段階で検出・ブロックすることで、コンプライアンス侵害のリスクを未然に防ぎ、コンテンツの健全性とブランドの安全を守ります。

  • 一般的なプロンプトには、刃物や火器といった 危険物や暴力的・違法なコンテンツ の自動検知があります。これらの検出結果は、レビューワーがすぐにエスカレーション判断を行えるよう、詳細な文脈説明とともに、発生した正確なタイムスタンプ情報を含んだ状態で出力されます。

画面に拳銃やナイフなどの武器が映っている箇所をすべて検出してください。

該当箇所のタイムスタンプと、その周囲で何が起こっているか、状況の説明を添えてください。

  • 他にも、工場、建築現場などの職場、あるいは交通ルールといった、特定のコンプライアンスや 安全ポリシーの適用違反 のチェックにも活用されています。とりわけ、ヘルメットや安全ベスト、自動車のシートベルトといった防具や義務化された保護具を未着用で走行・移動しているシーンを自動監視するリクエストなどが挙げられます。

二輪車が移動中に、運転者または同乗者がヘルメットを着用していないシーンを検出してください。このポリシー違反が起こっているすべてのタイムスタンプを示してください。

  • 最後に、Pegasusは 露出(アダルトシーン等)やグロテスクな暴力描写のフィルタリング といった用途でも重宝されています。この要件は、指定箇所をトリミング・除外して一般視聴者向けのセーフバージョン動画を作るワークフロー、あるいは放送規制対応のためにすべての問題箇所をエビデンス付きでリストアップする、編集・校正双方の用途で利用されています。

肌の露出(ヌード)が含まれるすべてのセグメントを検出してください。タイムスタンプと、それが部分的な露出か全面的な露出かを明記してください。

こうした一連のセーフティ検証を自動化することで、Pegasusはビデオを扱うあらゆる業種における、信頼性の高い 「安全な配信とコンプライアンスのガーディアン(防壁)」 の役割を担っています。


5 - 文字起こしとオンスクリーンテキスト(OCR)抽出

Pegasusは、動画内の 「話し言葉(音声のダイアログ)」から「画面に映っている文字情報(テロップや背景)」にいたるまで、あらゆるテキスト情報を完全に書き下す 用途で極めて多くのユーザーに好まれています。テキスト化によって動画内のすべての瞬間を一言一句漏らさずに検索(インデックス化)できるようになり、ビデオファイルをまるで普通のテキストドキュメントのように瞬時に処理・引用可能になります。

  • 多くの書き出しプロンプトでは、タイムコード、発話者のラベリング、さらには話し言葉における「あの」「ええと」といったケバ取り前の 「フル文字起こし(逐語起こし)」 を求めています。この極めて正確なデータ抽出工程は、法的機関による証跡記録や、学術・リサーチ研究、アクセシビリティ対応字幕といったミッションクリティカルな場面で必要とされています。

このビデオの正確な逐語文字起こし( verbatim transcription )を作成してください。

30秒ごとに明確なタイムスタンプを挿入し、話者の交代を明記し、言い淀みやフィラーワード(ケバ)もそのまま残してください。

  • また、看板、メニューの価格、ウェブサイトのURL、SNSハンドル、画面下部に数秒しか流れない法的注記(ディスクレイマー)など、動画の背景やバナーにある 「画面上のテキスト(視覚文字の検出)」 に特化したユースケースも数多く見られます。これは主に、ブランド広告の監視、競合企業の販売プロモーション内容の自動精査、動画から情報を取得するデータエントリの自動化などで利用されています。

この広告に表示されているすべての画面上のテキストを抽出してください。
以下を特に注意して探してください:

  • ウェブサイトのURL

  • 電話番号

  • 価格表示やプロモーションコード(割引コード)

  • 実店舗のアドレスやロケーション情報

  • ハッシュタグ、SNSのユーザー名(ハンドル名)
    画面に表示されているものをそのまま「すべて」書き出し、出現したタイムスタンプを横に記載してください。

音声テキストと視覚テキストの双方を 検索可能で柔軟な構造化テキスト(アセット) に変換することで、Pegasusは多種多様なダウンストリーム処理のハブになり得ます。これには、自動多言語字幕の作成やアーカイブの検索性はもちろん、法規チェックや自動意思決定エンジンとしての運用などが含まれます。


6 - クリエイティブで文体豊かな「ビデオ書き起こし」

クリエイティブ(表現)の領域においては、 Pegasusは単に要約するだけでなく、「動画の内容を取り出し、それをまったく特定のトーン、魅力的な語り口、または任意のファイルフォーマットへと再編集して出力させる」 ために採用されています。このタスクの最大の目的は、動画自体の情報を捻じ曲げることなく、提供するチャネルや狙いたいオーディエンス層に完璧にマッチする文体に仕上げ直すことです。たとえば、1本の動画にある同じ出来事を、マーケティング広告向けには「エネルギッシュで心を躍らせる言葉」に仕立て、社内の事故報告向けには「淡々とした客観的な事実報告」に、そしてソーシャルアカウント向けには「極めてキャッチーでユーモアを含んだショート文」に瞬時に書き換えることが可能になります。

「クリエイティブかつ文体的なビデオ説明」のユースケースコンセプト。動画データを読み取り、ユーザーが指定した特定のスタイル(トーン)に瞬時にリライトする流れを示しています。この例では、同じ防犯カメラの映像が、ユーザーの指示によって「サスペンスドラマやミステリー小説の緊迫したスクリプト」へと変化しています。※図は機能説明用の概念図であり、実際のPegasusのUIデザインとは異なる場合があります。

  • 特に数多いのが トーン・マナー(語り口)のコントロール を目的としたプロンプトです。客観的な調査報告書のようなフォーマルな筆致から、YouTubeでそのまま喋って使えるようなフレンドリーで親近感のあるトーンにいたるまで、出力の「話し手としてのキャラクター」を厳密に指示します。

事件の捜査調査報告書のようなトーンで、100文字以内で要約してください。

人気YouTuberの語り口調にしてください。タイムスタンプも交えて。

  • 少し角度を変えて、エンターテインメント性やユーモアを追加する プロンプトも見られます。視聴者の関心を惹きつけつつ、動画の骨組みを面白おかしく理解してもらうのに効果的です。

このビデオ全体を、スタンドアップコメディの小話のように30字で要約してください。

最悪な1日を過ごした辛口なコメディアンが、この動画を酷評している(Roast)スタイルで教えてください。

  • 最も利用が急増しているのが、数文字で目を引く フック(キャッチコピー)の作成 です。1秒で指を止めさせ、詳細を読ませるための工夫です。

Instagramのカード型画像に挿入する、わずか1〜2行での紹介テキスト。

Twitter/X(280文字以内の投稿)にフィットする要約を書いてください。

テキストをベースとした「スタイル(文体)変換」を実行するとき、Pegasusは単なる自動サマライズの仕組みを超えて、あなたの隣に寄り添う 「動画専門の凄腕コピーライター」 のような振る舞いを見せます。


7 - マーケティング・広告・トレンド分析

マーケティングや広告業界において、 Pegasusは 「動画がどれほど視聴者を動かす説得力(パースエージョン)を持っているかという視点に基づいた評価」 に活用されています。マーケターやメディアエージェンシーは、単に「何が映っているか」に留まらず、広告としてクリエイティブがどれほど有効で、ターゲットに刺さっているかというパフォーマンス視点を知るために、Pegasusに分析を実行させます。広告クリエイターは、これにより、メッセージの明確さ、ブランドへのエンゲージメント、コンバージョン最大化に向けた改善点を特定できます。

  • まずは クリエイティブおよび構成の改善提案(アドバイス) です。編集のリズム、セリフ、クリエイティブ全体のディレクションなどを、プロンプトで指定した特定のアウトプット役(メンター等)の立場に立ちきって分析・評価するよう指令を出します。

インフルエンサーマーケティングのエグゼクティブとしての役割に徹して、この動画に対し、編集方法、全体の構成・台本、プロモーションの品質などの視点から、改善すべきエリアと具体的なアドバイスを提案してください。

  • また、フックとメッセージエンゲージメント分析へのアプローチ も顕著です。視聴を開始した瞬間の関心引き寄せ力、中心となるブランドメッセージの分かりやすさ、視聴者の心に訴える情緒的トリガー(感情移入要素)を深く点検します。これらの知見から、どの表現が視聴率を上げているのか(あるいは下げているのか)を学習し、そのノウハウを次の映像キャンペーンに再利用します。

オープニング3秒間のアテンション(注意喚起)の強さと解りやすさをレビューしてください。

視聴者にアクションを促す、別の「Call-to-Action」(CTAフレーズ)のバリエーションを幾つか提示してください。

マーケティングおよび広告の分析分野におけるPegasusは、インサイトを可視化することで、動画が「いかにしてターゲットに意図したメッセージを浸透させ、コンバージョンさせるか」を強力にバックアップします。


8 - 事実確認(ファクトQ&A)、エンティティおよびイベントの特定

Pegasusのログで非常に多く出現するのが、「特定の事実に特化した確認質問(Q&A)」 です。ユーザーは「そこに記述した物事が実際に起こっているか、何があるか」を客観的に裏付け・回答するようPegasusに指示します。大雑把な要約テキストを望むのではなく、ここでの目的は「事実かどうかという明確な検証」にあります: 本当にビデオの中にそれは見つかるのか、そうではないのか? そこに立っている人物は誰か? 一体そこで何かが行われたのか?

  • 多くのリクエストでは、シンプルな Yes / No による事実判定(検証) を求めています。推測や長々とした説明を排し、対象物が特定の場所や時間・行動として「含まれているかどうか」を一言で回答させ、ユーザー自身の確認コストを削減します。

車輌のワイパーが作動した(スイッチが入れられた)瞬間はありますか?

  • もう一つのアプローチは エンティティの特定と抽出 です。ビデオに映っているすべての人物名、表示されているブランドロゴ、映り込んでいるオブジェクト、または検出されたすべてのインシデントの全一覧を綺麗に整理したリスト(構造データ)として出力させます。このクリーンなデータは、データインデックスの作成、後続のシステム連携、AI学習用タグの付与などにシームレスに適用可能です。

この動画に映るすべての人を、画面に出現した正確な順番でリストアップしてください。

映像全体を通して、画面上にはっきりと視認できるブランド商品・プロダクトをすべて特定して名前を出してください。

  • さらに、「特定の出来事が、まさにどこで起こったか」という イベントスポッティング(ピンポイント検出) を要請するプロンプトです。タイムスタンプとともにある現象や規則破りなどの決定的瞬間を見つけ出すために有効です。

審判(レフェリー)がレッドカードを頭上に高々と提示した瞬間は、具体的に何分何秒ですか?

これらすべてのファクトベースの質問応用において、Pegasusはビデオを評価・確認するための 「極めて信頼のおける強力な実用レイヤー」 を形成します。動画分析ワークフローにありがちな不確かさを、確固たるデータ・証拠へと転じて、ビデオタグ付けやインフラ業務の正確性を桁違いに高めます。


9 - 解釈型Q&A(文脈理解)、因果関係および「意図」の推論

さらにプロンプトには、動画全体の表面的な情報にとどまらず、「なぜそのような動きになっているのか、なぜそれが起きたか」という複雑な状況判断、背景、因果関係を説明させる 高度な質問も含まれています。ここでは単純に見えている事象を並べるだけでは不十分で、ユーザーは状況に応じた「動機の推測」、「原因と結果の構造分析」、または「クオリティ(質)に対する評価」を求めています。Pegasusは単なる自動的な「動画サマライザー」であるだけでなく、「映像コンテクストの高度な翻訳者、理解者」 として活用されています。

  • 最もよく活用されるシーンの1つが 因果関係の分析(フォレンジック・追査) です。交通事故や物損事故のアクシデントにおいて、責任や起因がどちら側にあるか、どのような経緯でそれが発生したかを、ビデオ全体のフレーム情報から論理立てて説明させます。

このドライブレコーダー動画が捉えたトラブルで、一体何が起こったのか、そしてどの当事者に過失や引き金があるかを、論拠をもとに解説してください。

  • また、高度なパフォーマンス比較や定性評価 も好まれています。アスリートのフォームの比較、競技上の動作、選手同士の細かい物理的または心理的なインタラクション(交錯)といった、映像の中の微細なヒント同士の意味を複雑に演算・連結する推論が必要です。

黒いグローブをはめた選手は、相手のボクサーよりも顔の位置や頭部のディフェンス(ヘッドムーブメント)が優れていましたか?

これらのケーススタディすべてにおいて、Pegasusは単に見えたものを答えるのではなく、一見では見過ごしそうな 「意図、行動による起因、およびその影響」を正確に解釈 するように求められます。この解釈能力は、医療やスポーツのコーチング、アクシデントの紛争解決にいたるまで、人が何かを「意思決定」する、あらゆるプロセスを強力にアシストします。


10 - スポーツ分析(パフォーマンス・スタッツ解析)

スポーツのドメイン(用途)でも、Pegasusは 「動画から試合全体のスタッツ(成績)や、分析可能なインシデントログを切り出すアシスタント」 としてフル活用されています。試合全体を何度もリピートして凝視することなく、ユーザーは戦術を動かしているキープレイ、特定のパスワーク、特定のファウルといった箇所だけを一瞬で可視化して整理できます。この能力は、ダイジェストの制作、コーチングのための戦術分析、将来有望なアスリートのスカウティング、ファン向けSNSの速報性といったあらゆるシーンに適合します。

  • 競技ごとの ハイライト・イベント自動ログのプロンプト です。スコアリング(得点)、ファウル、または試合全体の展開を変えたプレイ(得点チャンス等)のすべてを、タイムスタンプをタグ付けして一覧化します。試合を長く見る時間がなくても、どのような試合展開だったかの流れが一瞬で把握できるようになります。

ロサンゼルス・レイカーズが得点したすべてのシーンを、対応するタイムスタンプと、攻撃時におけるオフェンス・パターンの簡単な戦術分析とともにリストアップしてください。

  • また、特定のプレイヤー(アスリート)だけを追いかける分析 も盛んです。該当のプレイヤーがボールを持った瞬間だけをダイジェストで確認したり、前回の試合と今回の試合でのプレイスタイルの進捗・貢献の違いをトラッキングしたりでき、これはコーチ、監督、解説者にとって無くてはならない情報源になっています。

背番号23番の選手が試合中にボールにタッチしたすべての瞬間を切り出し、各タッチごとに何が起こったかの詳細を描写してください。

  • さらに一歩進んだプロンプトでは、「守備側のローテーションのズレの特定」、「シュートセレクトは最適だったか」、「チームコンセプト(戦略)の構造的な偏り」などの 戦術的インサイト を求められます。これらの見落としそうな動きが高度にデータとして視覚・構造化されることで、スポーツにおけるPegasusの役割はただの観賞支援を超え、プロの戦術的意思決定の頼れるバックボーンになっていきます。

スポーツ分析の分野でPegasusは、動画から高度な競技構造や選手のパフォーマンスを抽出する 「AIアドバイザー(オンデマンド・コーチ)」 のように動作します。選手、プロ組織、ファンの、スマートで熱量のある映像体験をどこまでも広げてくれます。


11 - 技術仕様評価、エラー検知と映像修正(QA)

ビデオを分析するニーズは、ストーリーの面白さやアクションの分析だけにとどまりません。映像の 設計品質や、制作時の仕様・レギュレーションへの適合性という高い品質目標(品質保証、QA) などを監視したいワークフローもあります。このタスクでPegasusは、プロンプトで指示されたチェックシート、デザイン規約などの仕様を確実にクリアしているかという視点をビデオに対して適用・チェックします。ポスプロの早期段階でヒューマンエラーや表示事故を発見することで、何倍ものコストがかかりかねない映像の再レンダリングや作り直しのリスクを削減します。

  • 1つ目は、「規定の採点チェックリストやルーブリック(評価基準)に基づくチェック」 です。教育のチュートリアル動画や研修動画が、指定された学習カリキュラム・チェック基準を完全に踏襲しているかのレビューと調整に活用されます。

提供された採点基準(評価ガイドライン)に照らし合わせて、この教育チュートリアルビデオを評価してください。必要に応じてガイドラインの採点を修正し、ビデオの実際の解説内容とスコアがズレのないようにマッピングを連動させてください。

  • また、ビジュアルにおける画面要素の破綻の自動警告(レイアウトレビュー) も実施されます。画面上のボタンレイアウトや地図表示の歪み、グラフィック上の文字重なり(テキストオーバーラップ)、解像度の引き伸ばしなどをPegasusに見つけ出させ、それら問題に対する改善案(フィードバック)まで一気に回答させます。

グラフィック要素の縮尺やアスペクト比が、表示されている実物の比率を歪めてしまっていないか評価してください。画面内で文字が重なって表示されている箇所をマークし、どのように修正すべきかの改善提案を教えてください。

  • もう一つのアプローチが、講義やプレゼンで教師が「特定のキーワード(専門用語)を言った回数」を自動カウントするような 定量分析や頻度レビュー です。ビデオという非構造の塊を「数、学習効率、語彙表現」といった数値化されたスコア(データ構造)へと抽出し直します。

講師が講義の中で「光合成」( photosynthesis )という単語を何回使用したかカウントし、出現回数とその頻度チャート(グラフの基データ)を出力してください。

Pegasusをこのような「技術評価や動画QA」に利用することで、作成したコンテンツクオリティへの懸念や編集時の設定ミスを劇的にスマートに改善・検証可能になり、プロジェクト全体に比類なき効率化を担保します。


多様なタスク分析から見えた洞察:一問一答を超え、「協調パートナー」としてのAIへ

これら特定された11の主要タスクカテゴリーは、単にユーザーがPegasusに命令している幅の広さだけでなく、「驚くほど洗練された指示の深さ」をも明確に証明しています。一見するとシンプルな指示に思えるビデオ処理リクエストでも、その奥を読み解くと、1つのプロンプトの中に 「異なる目的やアプローチが幾重にもブレンドされた、ハイブリッドなワークフロー」 が存在していることがわかります。

ユーザーは、「要約をする、情報を抽出する、出現回数をカウントする、因果関係を比較する、そして文体を書き連ねる」といったアクションをすべて1回のセッションの中で複合的に組み合わせているのです。これらは「人間がただAIに対して、用意された答えを聞くだけの受動的なツール」としてではなく、「動画のメタ構造を解釈し、整理・キュレーションし、新たな形へと自立的に昇華(トランスフォーム)するための強力なコ・パイロット(協調型パートナー)」 としてPegasusを位置づけている何よりの証拠です。


ビデオコンテクストの対話で観察される 3 つの顕著な特性


1 - 指示が強固に「タイムライン(時間)」と紐づいている

ユーザーが求めるフォーマット定義や抽出の「証拠(エビデンス)」の範囲は、常にビデオの特定のフレームの並びに結びついています。たとえば、「5分おきに発生するアクティビティをまとめて要約する」という指示を出した場合、AIエンジン側にはチャプターの変わり目(バウンダリー)の精緻な自動検出、時系列セグメントのマージ・統合といった極めて高度なロジックが暗黙的に求められることになります。これら「時間の制約」は、単一の静止画や一般的なテキストプログラミングだけでは指示することが極めて困難な、動画特有の最もコアな要素の1つです。

システム設計への教訓・実装: ユーザーの自然言語指示を、映像のカット、シーン、配列レベルにマッピングした「実行可能な時系列プラン」へと自動的に翻訳可能であること。境界線のブレ検知、複雑な結合ルールの自動制御、そして動画の前後関係における状態管理(ステートトラッキング)を自律的に行える必要があります。


2 - 「編集用フォーマット」として即戦力となる構造が期待されている

多くのインプットでは、「大枠の要約」「各チャプターへの分解」「標準タイムコードのアライメント」「ハイライト切り出しの推奨箇所」などの指示が同時に含まれます。このため、出力結果は、人間がただ読んで終わるものだけでなく、例えば「EDL」「XML編集用ファイル」「CSVデータテーブル」「JSONプレイリスト」といった映像編集ソフトやコンテンツ管理システムに直接インジスト(連携)可能な 編集者フレンドリーなデータ構造 として出力されることが日常的に想定されています。

システム設計への教訓・実装: 開始インデックス(Start)、終了(End)、ラベル情報、判定確信度、映像のフレームレート(FPS)といった、そのままタイムラインに取り込める国際標準化されたタイムコードや配列をベースに、直ちに編集アプリケーションなどのポスプロ工程で活用できるクリーンな形式の出力に対応しなければなりません。


3 - クリップレベルで自立的なエージェント思考(エージェンティック推論)が必要とされる

ユーザーの命令が「多段階にわたる難問」であるケースが増加するにつれて、より厳格なタイムスタンプの割り出し、文字検出(OCR)スニペット、話者ごとの細切れ分析、といった多層的な処理負荷が要求されるようになっています。これらは「一回処理モデルを通しただけ」での出力では到底担保できません。これを完璧に成功させるには、時間軸や取得したエビデンスを元に、プランを自ら再評価・セルフレビューを行って調整・フィードバックを組み立てて繰り返しやり直す、アプローチの改善が必要不可欠になります。

システム設計への教訓・実装: ワークフローに「出力内容を自己検証・レビューするフィードバックループ」を取り入れること。AIエージェント自体が、動画分析工程を自己の視座で計画(Plan)・検証し、不確定なタイムコードや低い自信値のエリアが検出された場合は、自律的にタイムラインを拡大・再走査してテキスト表現・認識率をブラッシュアップする仕組みが不可欠です。


TwelveLabs はどのように複雑な動画ワークフローを支援しているか

TwelveLabsの製品スイートは、動画対話で出現している高度なニーズを全方面からサポートするために最初から設計されています。Marengo は、映像、音響、表示テキスト、およびその内容の意味変化をリアルタイムかつ高精度にベクタライズする、最先端の「マルチモーダル・セマンティクス・エンベディング」を提供し、高精度なシーン検索、類似オブジェクト検知、ピンポイントコンテンツ検索を可能にします。一方で Pegasus は、映像をテキスト言語として深く理解して出力する対話生成タスクにフォーカスを絞り、要約、緻密なストーリー、エビデンスに基づくタイムコードの書き出し、そして背景にある意図の解説を可能にしています。

これら2つの基盤モデルは相互に強力に連携し、ユーザーの「映像を自由に使いこなすスマートなエージェントAIの頭脳」として最も重要な推進力を提供します。映像ショット/シーン自動検出、イベント境界の識別、特定オブジェクトのトラッキング&リンク、時間的な推論チューニング、自信度分析(キャリブレーション)、そして人間とのフィードバックループなどの要素と高度に統合されることで、ユーザーはただ答えを受け取るだけでなく、大規模な映像資産(ストレージ)をこれまでにない精度で構造化し、任意のビジネススケールに耐えうる複雑な自動化ワークフローを今すぐ簡単に創り出すことができます。

これらの高度なモデル体験を、AIエージェントやLLM(大規模言語モデル)のプラグイン、開発中アシスタントとして簡単に呼び出して組み込めるように、TwelveLabsは MCP (Model Context Protocol) サーバー も提供開始しました。MCPは、ツール間で外部データやAIモデル、および連携プロトコルへのインターフェースを世界共通フォーマットの仕様で統一するためのオープン規格です。弊社のMCPサーバーをご利用いただくことで、社内でお使いのエージェントアシスタントが、手作業による煩雑なAPIの記述をすることなく、動画内の検索、高度な要約、イベント出力、機密データのセーフティ監査ポリシーなどのすべてをフルスピードで活用可能にする、最高に強力な橋渡し(架け橋)になります。


まとめと重要なテイクアウェイ

11の主要なタスク分類、そして4大利用意図の分析を通して、Pegasusが単なる「静的な機能」としてではなく、高度な映像プロダクションにおける「全体の複雑なワークフローと結合するパートナー」として利用されている実態が浮き彫りになりました。ユーザーは、要約、分割、インデント、エビデンス評価をブレンドして目的を洗練させています。これらが示唆するのは、「映像AIが、ただ1回の入力でどれだけ良い要約を返せるか」の評価にとどまらず、「その後に続くワークフロー全体をどれほどスムーズに協調して自動化を推進できるか」こそが、真の映像インテリジェンスの価値を測る基準であるということです。

TwelveLabsはこのビジョンのあるべき未来のために、すべての製品を開拓しています。Marengoで圧倒的な検索(Retrieval)とフィルタリングを叶え、Pegasusにより時間軸や各種データと結びついた高度な推論(Reasoning)を行い、更にはMCPサーバーによって、これらの先進機能を世界中のAIエージェント、アプリケーションと瞬時に接続し、タイムライン全体への直感的な操作や、映画制作などの現場で即座に活躍するデータ出力、最高水準のアウトプット品質をお約束します。