PEGASUS 1.5
生の動画を構造化データに変換。
2時間
エンドツーエンドで完全な時間的コンテキストを保持できる最大動画再生時間。
12
入力プロンプトと生成される出力の両方でサポートされている言語。
0
インデックス前処理ステップ。URL、アセット、またはbase64を送信するだけで、テキストが返されます。
JSON
編集ソフトやパイプラインにそのまま組み込める、構造化されたセグメンテーション出力。
動画ネイティブな認識・推論・オーケストレーション
回答にはタイムスタンプが付与されます。
Pegasusは「動画の真ん中あたり」ではなく、正確なタイムスタンプで回答します。モデル自体にきめ細かな時間的推論が組み込まれています。
細かい部分まで読み解く。
オンスクリーンテキスト。ユニフォームの背番号。ホワイトボード。レシート。Pegasusは音声トラックと一緒にフレームを解析するため、要約にはスライドの内容も含まれます。
生の動画から構造化されたJSONへ。
話者の交代、ブランドロゴの登場、シーンの切り替えなどのセグメントを定義し、必要なフィールドを選択するだけで、Pegasusがタイムスタンプ付きのJSONを返します。
画像を参照して質問する。
ロゴ、顔、製品などの参照画像をドロップするだけで、Pegasusがそれを視覚的コンテキストとして認識し、活用します。
サインアップから最初の結果を得るまで、わずか5分。
静止画ではなく、動画のために構築。
機能
PEGASUS 1.5
Gemini 3.1 PRO
GPT-5.5
1回の呼び出しあたりの最大動画時間
120分
90分
指定なし(オムニモーダル、公開されている動画の長さ制限なし)
構造化セグメンテーション出力
JSONネイティブ、スキーマ条件付き
構造化出力をサポート。ネイティブな時間的セグメンテーションはなし
構造化出力をサポート。ネイティブな時間的セグメンテーションはなし
マルチモーダルプロンプティング (画像とテキスト)
対応(構造化されたセグメント出力内)
対応(OCRはGemini 3.xの主要機能)
対応(オムニモーダルOCRサポート)
定義ごとのタイムウィンドウ
対応
汎用フロンティアモデル
汎用オムニモーダルモデル







