PEGASUS 1.5

生の動画を構造化データに変換。

話者の交代、ブランドの出現、プレイ、ポリシー違反などの重要なイベントを定義し、1回のAPI呼び出しでタイムコード付きのJSONを返す、動画からテキストへの生成モデルです。

話者の交代、ブランドの出現、プレイ、ポリシー違反などの重要なイベントを定義し、1回のAPI呼び出しでタイムコード付きのJSONを返す、動画からテキストへの生成モデルです。

2時間

エンドツーエンドで完全な時間的コンテキストを保持できる最大動画再生時間。

12

入力プロンプトと生成される出力の両方でサポートされている言語。

0

インデックス前処理ステップ。URL、アセット、またはbase64を送信するだけで、テキストが返されます。

JSON

編集ソフトやパイプラインにそのまま組み込める、構造化されたセグメンテーション出力。

動画ネイティブな認識・推論・オーケストレーション

LLMはテキストを計算可能にしました。Twelve Labsはその概念を動画・画像・音声へと拡張し、発見から分析、そしてアクションへとつなげます。

LLMはテキストを計算可能にしました。Twelve Labsはその概念を動画・画像・音声へと拡張し、発見から分析、そしてアクションへとつなげます。

回答にはタイムスタンプが付与されます。

Pegasusは「動画の真ん中あたり」ではなく、正確なタイムスタンプで回答します。モデル自体にきめ細かな時間的推論が組み込まれています。

細かい部分まで読み解く。

オンスクリーンテキスト。ユニフォームの背番号。ホワイトボード。レシート。Pegasusは音声トラックと一緒にフレームを解析するため、要約にはスライドの内容も含まれます。

生の動画から構造化されたJSONへ。

話者の交代、ブランドロゴの登場、シーンの切り替えなどのセグメントを定義し、必要なフィールドを選択するだけで、Pegasusがタイムスタンプ付きのJSONを返します。

画像を参照して質問する。

ロゴ、顔、製品などの参照画像をドロップするだけで、Pegasusがそれを視覚的コンテキストとして認識し、活用します。

サインアップから最初の結果を得るまで、わずか5分。

同じモデル、プロンプト、JSON出力。チームに最適なインターフェースを選択してください。

同じモデル、プロンプト、JSON出力。チームに最適なインターフェースを選択してください。

Python
Node.js
1import requests
2 
3# Step 2: Define the API URL and the specific endpoint
4API_URL = "https://api.twelvelabs.io/v1.3"
5INDEXES_URL = f"{API_URL}/indexes"
6 
7# Step 3: Create the necessary headers for authentication
8headers = {
9 "x-api-key": "<YOUR_API_KEY>"
10}
11 
12# Step 4: Prepare the data payload for your API request
13INDEX_NAME = "<YOUR_INDEX_NAME>"
14data = {
15 "models": [
16 {
17 "model_name": "marengo3.0",
18 "model_options": ["visual", "audio"]
19 }
20 ]
21}

クイックスタート

最初の動画をインデックス化し、5分以内に検索を実行できます。

サンプルアプリ

プロダクション向けリポジトリ:動画検索、動画RAG、ハイライト生成、コンプライアンススキャナー。

MCPサーバ

Claude、Cursor、または任意のMCPクライアントを動画インデックスに接続します。

SDKとAPI

Python、Node、REST。完全なリファレンス、型付きレスポンス、ストリーミングに対応。

クイックスタート

最初の動画をインデックス化し、5分以内に検索を実行できます。

サンプルアプリ

プロダクション向けリポジトリ:動画検索、動画RAG、ハイライト生成、コンプライアンススキャナー。

MCPサーバ

Claude、Cursor、または任意のMCPクライアントを動画インデックスに接続します。

SDKとAPI

Python、Node、REST。完全なリファレンス、型付きレスポンス、ストリーミングに対応。

静止画ではなく、動画のために構築。

一般的な汎用マルチモーダルLLMは、動画から静止画をサンプリングしてキャプションを作成することで動画を処理します。一方、Pegasusは動画全体を処理し、すべてのフレーム、モダリティ、そして一瞬一瞬を捉えます。

一般的な汎用マルチモーダルLLMは、動画から静止画をサンプリングしてキャプションを作成することで動画を処理します。一方、Pegasusは動画全体を処理し、すべてのフレーム、モダリティ、そして一瞬一瞬を捉えます。

7,200s

Pegasusが1つのプロンプトで処理できる連続動画時間 —— 丸2時間分。

Practical max video length handled in a single call.

Practical max video length handled in a single call.

機能

PEGASUS 1.5

Gemini 3.1 PRO

GPT-5.5

1回の呼び出しあたりの最大動画時間

120分

90分

指定なし(オムニモーダル、公開されている動画の長さ制限なし)

構造化セグメンテーション出力

JSONネイティブ、スキーマ条件付き

構造化出力をサポート。ネイティブな時間的セグメンテーションはなし

構造化出力をサポート。ネイティブな時間的セグメンテーションはなし

マルチモーダルプロンプティング (画像とテキスト)

対応(構造化されたセグメント出力内)

対応(OCRはGemini 3.xの主要機能)

対応(オムニモーダルOCRサポート)

定義ごとのタイムウィンドウ

対応

汎用フロンティアモデル

汎用オムニモーダルモデル