商品

Pegasus 1.2: スケーラブルなアプリケーション向けの業界レベルのビデオ言語モデル

エイデン・リー、レオ・キム、キアン・キム、ダン・キム、サム・チェ、サニー・グエン、ジェームズ・レ

Twelve Labsは、最大1時間の動画をサポートする動画言語モデル「Pegasus 1.2」をリリースします。本モデルは、VideoMME-Longベンチマークにおいて最先端の精度を誇り、GPT-4oやGemini 1.5 Proよりも短い最初のトークン出力時間(Time-to-first-token)を実現しているほか、埋め込みストレージの価格は動画1時間あたり月額0.09ドルに設定されています。

Twelve Labsは、最大1時間の動画をサポートする動画言語モデル「Pegasus 1.2」をリリースします。本モデルは、VideoMME-Longベンチマークにおいて最先端の精度を誇り、GPT-4oやGemini 1.5 Proよりも短い最初のトークン出力時間(Time-to-first-token)を実現しているほか、埋め込みストレージの価格は動画1時間あたり月額0.09ドルに設定されています。

この記事の内容

No headings found on page

ニュースレターに登録する

ニュースレターに登録する

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

AIを活用してビデオを検索、分析、探索します。

2025/02/10

7分

記事へのリンクをコピー

1 - はじめに

多くの学術的な環境とは異なり、実世界のビデオアプリケーションは次の2つのユニークな課題に直面しています。

  1. 実世界のビデオの長さは、数秒から数時間におよびます

  2. 正確な時間的理解が求められます

これらの商業的な需要に対応するため、本日私たちは、産業用ビデオ言語モデルにおける大きな飛躍となる最新の成果「Pegasus 1.2」を発表します。Pegasus 1.2は、長尺ビデオの理解において最先端の性能を達成しています。私たちのモデルは、クラス最高の精度を維持しながら最大1時間のビデオをサポートすると同時に、低遅延と競争力のある価格設定も維持しています。さらに、当社の埋め込みストレージがビデオをインテリジェントにキャッシュするため、同じビデオに対する繰り返しの問い合わせをさらに高速かつ安価に行うことができます。

このように、Pegasus 1.2は、そのフォーカスされたインテリジェントなシステム設計を通じてビジネス価値を提供する最先端のツールとして、本番環境レベルのビデオ処理パイプラインが最も必要とする部分において、まさに優れた能力を発揮します。



2 - 長尺ビデオを扱うクラス最高のビデオ言語モデル





実世界の商用環境においては長尺ビデオの処理が不可欠である一方、重要な懸念事項の一つが処理時間であり、それに伴う価値創出までの時間の長期化です。入力ビデオが長くなると、標準的なビデオ処理・推論システムは急激にボトルネックに陥り、桁違いに多いフレーム数を処理する必要が生じ、商用利用や普及にはほぼ実用的ではなくなります。さらに、商業的期待を背負ったそのようなシステムは、入力されたクエリやプロンプトに対して正確な回答を提供しつつ、同時に極めて長い時間軸全体にわたって推論を行うというタスクを課されます。





遅延時間:Pegasus 1.2の速度を評価するために、3分から60分までの長さのビデオを用いて、他のフロンティアモデルAPI(GPT-4oおよびGemini 1.5 Pro)との対比でファーストトークン生成時間(TTFT)を測定しました。ビデオ中心のモデルアーキテクチャと最適化された推論システムを活用しているPegasus 1.2は、最大15分のビデオに対して一貫したTTFT遅延を実現し、30分から60分の長尺コンテンツに対しては優れたレスポンス時間を発揮しています。





性能:30分以上のビデオを含むVideo-MMEデータセットのサブセット(VideoMME-Long)を使用し、同じフロンティアモデルAPI群に対してPegasus 1.2の性能を評価しました。Pegasus 1.2は、他のすべての主要APIを上回る、新たな最先端の性能を示しています。





価格設定:Pegasus 1.2は、高額な料金設定なしで、商業用ビデオ処理のためのクラス最高の性能を提供します。すべてを行おうとするのではなく、長尺ビデオと正確な時間的理解において秀でることに焦点を当ててきました。この絞り込んだアプローチにより、最適化されたシステムを構築することが可能となり、競争力のある価格帯で優れたパフォーマンスを提供することができます。

さらに、当社のシステムは、多額の費用をかけることなく繰り返しのビデオからテキストへの生成をサポートするように設計されています。ビデオをインデックス化すると、Pegasus 1.2はリッチなビデオ埋め込みを生成し、その後のAPI呼び出しのために当社のデータベースに保存します。これにより、ユーザーは非常に低いコストで継続的に無限に生成を行い続けることができます。たとえば、GoogleのGemini 1.5 Proのキャッシュ価格は、ストレージ1時間あたり100万トークンにつき4.5ドル(これはおよそ1時間のビデオに対するトークン数に相当します)です。一方、当社の埋め込みストレージは1ビデオ時間あたり月額わずか0.09ドルであり、驚異的な36,000倍のコスト削減を実現しています。当社の設計は、膨大なビデオアーカイブをお持ちで、それらすべてを経済的に理解する必要があるお客様においてはるかに適しています。



3 - 実世界でのアプリケーション

実世界の多くの長尺ビデオアプリケーションでは、優れた時間的理解が求められます。ビデオが長くなるにつれて、情報はコンテンツ全体にシーケンシャルに分散され、コンテキストを構成します。Pegasus 1.2は、優れた時間的理解を示し、タイムスタンプに基づいて回答を特定し根拠づけることができます。

たとえば、典型的なシナリオとして、ユーザーはサッカーの試合ビデオから特定のイベントやアクションのタイムスタンプを見つけたい場合があります。

質問1:動画のどの時点で、最初に得点が表示されましたか?

Pegasus 1.2の回答

ビデオで最初の得点シーンが表示されるのは00:56で、サンフランシスコ・49ersが33ヤードのフィールドゴールを成功させた場面です。

GPT-4oの回答

最初の得点はビデオの7:44に表示され、サンフランシスコ・49ersがフィールドゴールを決めてスコアを3-0にしました。

Gemini 1.5 Proの回答

得点は[00:00:02]に初めて表示され、サンフランシスコ・49ersとバッファロー・ビルズの雪の中のフットボールの試合です。



質問2:最初のタッチダウンが発生するまでにどれくらいかかりますか?

Pegasus 1.2の回答

最初のタッチダウンは、ビデオ開始後およそ1分54秒で発生します。

GPT-4oの回答

最初のタッチダウンは第4クォーターのおよそ12:31に発生するため、ゲームのその時点まで最初のタッチダウンが決まらなかったことになります。

Gemini 1.5 Proの回答

最初のタッチダウンは[00:00:59–00:02:06]で発生します。

両方の質問において、Pegasus 1.2はターゲットとなるイベントやアクションの正確なタイムスタンプを見つけ、その極めて優れた時間的理解能力を示しています。

以下は、Pegasus 1.2が支援できるその他の業界のユースケースです。



ユースケース1:マーケティング・ブランド・製品分析

細分化された視覚的要素(ブランド/製品名、画面に表示されている専門のアーティスト)を理解し、詳細な感情分析を行い、ユーザーの指示に従います。

プロンプト:

あなたは、ソーシャルメディアのインフルエンサーが美容製品を紹介する動画チュートリアルを分析しています。動画には、インフルエンサーがさまざまな製品を使用し、解説する複数のセグメントが含まれています。動画に基づいて、動画に登場するすべての美容製品のリストを表示された順に抽出してください。各製品について、以下を指定します。

  • ブランド名:ブランドまたはメーカーの名前。

  • 製品名:動画内で言及されている、またはパッケージに表示されている特定の製品名。

  • 感情分析:製品に対するインフルエンサーの感情(例:ポジティブ、ニュートラル、またはネガティブ)を評価します。

  • その感情を示す、使用された主要なフレーズや表現を提示してください。

  • 視覚的または声のトーンの手がかり(例:笑顔、声の興奮、もどかしさ)を書き留めます。

総合的な感情:動画チュートリアル全体の一般的な感情を要約し、トーンが主にポジティブ、ニュートラル、ネガティブのいずれであったかを示し、インフルエンサーの行動と発言に基づいてその理由を説明してください。

出力:

動画チュートリアルに基づくと、取り上げられている美容製品は以下の通りです。

  • ブランド名: Fenty Beauty by Rihanna

  • 製品名: プロ フィルタ アンプリファイイング アイシャドウ プライマー(Pro Filter Amplifying Eyeshadow Primer)

  • 感情分析: ポジティブ

  • 主要フレーズ/表現: 「このアイプライマーの素晴らしいところは、つけていることを感じさせない軽さです」「ヨレず、軽く、色あせず、一日中持ちます」「アイシャドウの色をしっかりと密着させるのを大いに助けてくれるので、より長持ちするようになります」

  • 視覚的/声のトーンの手がかり: メイクアップアーティストのヘクター・エスピナル(Hector Espinal)は笑顔で、プライマーを塗りながら熱心な様子を見せています。彼は興奮と満足感を持って話しています。

総合的な感情: 動画チュートリアル全体の感情は主にポジティブです。これは、メイクアップアーティストの熱意のある表情や、プライマーを表現するために使用された肯定的なフレーズから明らかです。製品に対するアーティストの興奮と満足感は、ポジティブな感情を示す明確な指標です。



ユースケース2:メタデータ生成

ビデオ内のオブジェクト、人物、アクション、イベント、およびそれらの関係性を理解し、適切なクラスとメタデータを割り当て、英語以外のコンテンツをも解釈できるようにすることで、企業がアーカイブ全体のビデオコンテンツを効果的に管理できるようにします。

プロンプト

この動画のコンテンツに基づいて、企業のオントロジーとナレッジグラフを構築してください。ナレッジグラフ視覚化ツールで使用できるクラス、エンティティ、および関係性を含むjsonファイルを出力してください。

出力

{
  "classes": [
    "Show",
    "Host",
    "Judge",
    "Contestant",
    "DanceStyle",
    "Performance",
    "AudienceReaction",
    "Score"
  ],
  "entities": [
    {
      "class": "Show",
      "id": "DanseAvecLesStars",
      "attributes": {
        "name": "Danse avec les Stars",
        "season": "10",
        "stageSetup": ["large staircase", "bar area", "central dance floor"],
        "visualEffects": ["dynamic lighting", "special effects", "smoke machines", "confetti cannons"]
      }
    },
    {
      "class": "Host",
      "id": "CamilleCombal",
      "attributes": {
        "name": "Camille Combal",
        "role": "Main Host"
      }
    },
    {
      "class": "Host",
      "id": "KarineFerri",
      "attributes": {
        "name": "Karine Ferri",
        "role": "Co-host"
      }
    },
    {
      "class": "Judge",
      "id": "PatrickDupond",
      "attributes": {
        "name": "Patrick Dupond",
        "role": "Judge"
      }
    },
    {
      "class": "Judge",
      "id": "ChrisMarques",
      "attributes": {
        "name": "Chris Marques",
        "role": "Judge"
      }
    },
    {
      "class": "Judge",
      "id": "JeanMarcGenereux",
      "attributes": {
        "name": "Jean-Marc Généreux",
        "role": "Judge"
      }
    },
    {
      "class": "Judge",
      "id": "DenitsaIkonomova",
      "attributes": {
        "name": "Denitsa Ikonomova",
        "role": "Judge"
      }
    },
    {
      "class": "Contestant",
      "id": "IrisMittenaere",
      "attributes": {
        "name": "Iris Mittenaere",
        "profession": "Miss Universe",
        "partner": "Anthony Colette"
      }
    },
    {
      "class": "Contestant",
      "id": "AnthonyColette",
      "attributes": {
        "name": "Anthony Colette",
        "profession": "Professional Dancer",
        "partner": "Iris Mittenaere"
      }
    },
    {
      "class": "DanceStyle",
      "id": "Salsa",
      "attributes": {
        "name": "Salsa"
      }
    },
    {
      "class": "DanceStyle",
      "id": "ChaCha",
      "attributes": {
        "name": "Cha-Cha"
      }
    },
    {
      "class": "DanceStyle",
      "id": "Contemporary",
      "attributes": {
        "name": "Contemporary"
      }
    },
    {
      "class": "DanceStyle",
      "id": "Tango",
      "attributes": {
        "name": "Tango"
      }
    },
    {
      "class": "Performance",
      "id": "Performance1",
      "attributes": {
        "danceStyles": ["Salsa", "Cha-Cha", "Contemporary"],
        "performers": ["Iris Mittenaere", "Anthony Colette"],
        "audienceReaction": "enthusiastic applause",
        "judgesFeedback": ["positive", "constructive criticism"]
      }
    },
    {
      "class": "AudienceReaction",
      "id": "Reaction1",
      "attributes": {
        "type": "cheering",
        "intensity": "high"
      }
    },
    {
      "class": "Score",
      "id": "Score1",
      "attributes": {
        "PatrickDupond": 6,
        "ChrisMarques": 6,
        "JeanMarcGenereux": 5,
        "DenitsaIkonomova": 6,
        "total": 25
      }
    }
  ],
  "relationships": [
    {
      "source": "DanseAvecLesStars",
      "target": "CamilleCombal",
      "type": "hasHost"
    },
    {
      "source": "DanseAvecLesStars",
      "target": "KarineFerri",
      "type": "hasHost"
    },
    {
      "source": "DanseAvecLesStars",
      "target": "PatrickDupond",
      "type": "hasJudge"
    },
    {
      "source": "DanseAvecLesStars",
      "target": "ChrisMarques",
      "type": "hasJudge"
    },
    {
      "source": "DanseAvecLesStars",
      "target": "JeanMarcGenereux",
      "type": "hasJudge"
    },
    {
      "source": "DanseAvecLesStars",
      "target": "DenitsaIkonomova",
      "type": "hasJudge"
    },
    {
      "source": "IrisMittenaere",
      "target": "AnthonyColette",
      "type": "hasPartner"
    },
    {
      "source": "Performance1",
      "target": "IrisMittenaere",
      "type": "performedBy"
    },
    {
      "source": "Performance1",
      "target": "AnthonyColette",
      "type": "performedBy"
    },
    {
      "source": "Performance1",
      "target": "Salsa",
      "type": "includesDanceStyle"
    },
    {
      "source": "Performance1",
      "target": "ChaCha",
      "type": "includesDanceStyle"
    },
    {
      "source": "Performance1",
      "target": "Contemporary",
      "type": "includesDanceStyle"
    },
    {
      "source": "Performance1",
      "target": "AudienceReaction1",
      "type": "receivedReaction"
    },
    {
      "source": "Performance1",
      "target": "Score1",
      "type": "receivedScore"
    }
  ]
}



ユースケース3:クリエイティブの最適化とコンテンツのローカライズ

タイムスタンプを使用した推論機能により、ユーザーは特定の基準、市場、またはデモグラフィック(層)に合わせてビデオを適応させることができます。

プロンプト

広告を子供向けに魅力的にするための編集を提案してください。タイムスタンプごとに細分化し、必要に応じてナレーションも含めてください。

出力

Amazon Goの広告を子供たちにとってより魅力的なものにするために、タイムスタンプごとに細分化し、必要に応じてナレーションの提案を含めた編集案を以下に示します。

[0秒 (00:00) - 11秒 (00:11)]

  • ビジュアル編集: 子供たちの注意を引くために、食品(例:踊るピーナッツバターの瓶)の楽しげなアニメーションを追加します。

  • ナレーション: 「Amazon Goの魔法の世界へようこそ!ショッピングが遊び場のように楽しくなっちゃうよ!」

[12秒 (00:12) - 21秒 (00:21)]

  • ビジュアル編集: 「知ってた?このチーズは、美味しいグリルドチーズサンドイッチを作るのにぴったりなんだよ!」といった、カラフルなグラフィックや食品に関する楽しい豆知識を盛り込みます。

  • ナレーション: 「お気に入りのキャラクターと一緒に通路を探検しよう!新しいスナックやおやつを見つけてね!」

[22秒 (00:22) - 29秒 (00:29)]

  • ビジュアル編集: 店内で顧客を案内するキャラクター(例:親しみやすいロボット)のアニメーションを追加します。

  • ナレーション: 「ロボットのお友達についていって、一番美味しいおやつを見つけてもらおう!」

[30秒 (00:30) - 36秒 (00:36)]

  • ビジュアル編集: 楽しくてアニメーション化されたインターフェースを備えたアプリを子供が使っている様子を表示します。

  • ナレーション: 「みんなもパパやママのお買い物を手伝えるよ!タップして進むだけ!」

[37秒 (00:37) - 45秒 (00:45)]

  • ビジュアル編集: 楽しげな効果音とともに、子供たちが食品を楽しんでいる様子のモンタージュを挿入します。

  • ナレーション: 「Amazon Goの楽しさを味わおう!一口ごとにハッピーが広がるよ!」

[46秒 (00:46) - 57秒 (00:57)]

  • ビジュアル編集: 遊び心のあるフォントと色で、楽しいアニメーションのアイテムリストを追加します。

  • ナレーション: 「お気に入りをチェックして、便利でとっても楽しいお買い物リストを作ろう!」

[58秒 (00:58) - 71秒 (01:11)]

  • ビジュアル編集: 明るい色とインタラクティブな要素を取り入れた、子供に優しいバージョンの店舗を表示します。

  • ナレーション: 「Amazon Goのキッズコーナーへようこそ!訪れるたびに冒険が待っているよ!」

[72秒 (01:12) - 80秒 (01:20)]

  • ビジュアル編集: 子供や家族がショッピング体験を楽しんでいるモンタージュを表示します。

  • ナレーション: 「Amazon Goで家族みんなで楽しもう!お出かけがいつでもファミリーアドベンチャーになるよ!」

[81秒 (01:21) - 89秒 (01:29)]

  • ビジュアル編集: 楽しいアニメーションが含まれた、子供に優しいアプリインターフェースのバージョンを表示します。

  • ナレーション: 「みんなもお買い物の手伝いができるよ!タップして進むだけ!」

[90秒 (01:30) - 96秒 (01:36)]

  • ビジュアル編集: 店舗の外観の周りに、楽しげなアニメーションやグラフィックを追加します。

  • ナレーション: 「Amazon Goの魔法の世界へようこそ!ショッピングが遊び場のように楽しくなっちゃうよ!」

これらの編集では、遊び心のある要素、カラフルなグラフィック、楽しいナレーションを取り入れることで、子供たちにとってより魅力的で引き込まれる広告に仕上げています。



ユースケース4:スポーツ分析

スポーツにおけるタイムスタンプの理解により、ファン、コーチ、スポーツチームの選手がデータを分析し、スポーツイベントから洞察を抽出して、ファンのエンゲージメント、選手の指導、パフォーマンスレポートなどのダウンストリームのワークフローを強化することができます。

プロンプト

動画のコンテンツに従って、以下のタスクを実行してください。

  • ゴールデンステート・ウォリアーズのファンとしての視点で、チームが何に優れていたかを強調した要約を作成してください。

  • 動画のどの時点で、ゲームが終了しましたか?

  • 最終スコアは何ですか?

出力

ゴールデンステート・ウォリアーズファンとしての要約:

ゴールデンステート・ウォリアーズは試合を通じて素晴らしいパフォーマンスを見せ、特にオフェンスの連携。背番号30番のステフィン・カリーは、一貫した3ポイントシュートで傑出した活躍を見せ、チームのリードを広げる極めて重要なシュートを決め続けました。背番号3番のジョーダン・プールも、ドリブルと得点力で大きく貢献し、チームのオフェンシブな火力をさらに高めました。ウォリアーズの効果的なパスとチームワークはいくつかのプレーで明らかであり、正確なボールムーブメントを通じて得点機会を作り出していました。さらにディフェンス面でもその努力は顕著で、重要なブロックやスティールによってボストン・セルティックスが点差を縮めるのを防ぎました。全体として、チャンスを確実にものにし、リードを維持しながら、セルティックスの追い上げに的確に対応したウォリアーズは、一丸となって強力でまとまりのある素晴らしいパフォーマンスを見せてくれました。

ゲーム終了時間:

試合は動画の578秒(09:38)時点で終了しました。

最終スコア:

動画に表示された最終スコアは103-90で、ゴールデンステート・ウォリアーズの勝利となりました。



4. モデルの概要と限界





アーキテクチャ:

Pegasus 1.2は、包括的なビデオ理解に最適化されたエンコーダ・デコーダアーキテクチャを採用しており、ビデオエンコーダ、ビデオトークナイザ、および大規模言語モデルという3つの主要コンポーネントを特徴としています。このアーキテクチャにより、計算効率を維持しながら、視覚情報とテキスト情報の両方の高度な処理を可能にします。

これらのコンポーネントが統合されることで、粒度の細かい詳細情報と長期的なコンテキスト情報の両方を処理できる、まとまりのあるシステムが構築されます。私たちのアーキテクチャは、考え抜かれた設計の選択肢と、マルチモーダル処理における根本的な課題に対する革新的なソリューションによって、コンパクトなモデルでも高度なビデオ理解を達成できることを示しています。

限界:

安全性とバイアス:Pegasus 1.2は安全機構を設けて設計されていますが、他のAIモデルと同様に、適切な監視と規制がなければ、有害または不適切と見なされる可能性のあるコンテンツを生成するリスクが存在します。ビデオ基盤モデルに関する倫理および安全対策に対する当社の理解は進行中。テストを継続しフィードバックを収集するにつれ、詳細な評価および倫理レポートが提供される予定です。

ハルシネーション(もっともらしい誤情報):Pegasus 1.2は、時折不正確な出力を生成することがあります。ハルシネーションを低減するためにPegasus 1.1から改善を行ってきましたが、特に高い精度が求められ、事実の正確性が極めて重要となるタスクにおいては、ユーザーはこの制限に留意する必要があります。



謝辞

このリリースは、サイエンス、エンジニアリング、プロダクト、ビジネスデベロップメント、オペレーションなど、複数の機能グループにわたる合同のチームワークの成果です。Twelve Labs Researchのサイエンス部門に所属するPegasusチームが共同で執筆しました。



リソース

  1. サインアップして当社のAPIとプレイグラウンドでお試しいただくためのリンク

  2. APIドキュメントへのリンク

  3. 他のユーザーや開発者とつながるための、当社のDiscordコミュニティへのリンク

1 - はじめに

多くの学術的な環境とは異なり、実世界のビデオアプリケーションは次の2つのユニークな課題に直面しています。

  1. 実世界のビデオの長さは、数秒から数時間におよびます

  2. 正確な時間的理解が求められます

これらの商業的な需要に対応するため、本日私たちは、産業用ビデオ言語モデルにおける大きな飛躍となる最新の成果「Pegasus 1.2」を発表します。Pegasus 1.2は、長尺ビデオの理解において最先端の性能を達成しています。私たちのモデルは、クラス最高の精度を維持しながら最大1時間のビデオをサポートすると同時に、低遅延と競争力のある価格設定も維持しています。さらに、当社の埋め込みストレージがビデオをインテリジェントにキャッシュするため、同じビデオに対する繰り返しの問い合わせをさらに高速かつ安価に行うことができます。

このように、Pegasus 1.2は、そのフォーカスされたインテリジェントなシステム設計を通じてビジネス価値を提供する最先端のツールとして、本番環境レベルのビデオ処理パイプラインが最も必要とする部分において、まさに優れた能力を発揮します。



2 - 長尺ビデオを扱うクラス最高のビデオ言語モデル





実世界の商用環境においては長尺ビデオの処理が不可欠である一方、重要な懸念事項の一つが処理時間であり、それに伴う価値創出までの時間の長期化です。入力ビデオが長くなると、標準的なビデオ処理・推論システムは急激にボトルネックに陥り、桁違いに多いフレーム数を処理する必要が生じ、商用利用や普及にはほぼ実用的ではなくなります。さらに、商業的期待を背負ったそのようなシステムは、入力されたクエリやプロンプトに対して正確な回答を提供しつつ、同時に極めて長い時間軸全体にわたって推論を行うというタスクを課されます。





遅延時間:Pegasus 1.2の速度を評価するために、3分から60分までの長さのビデオを用いて、他のフロンティアモデルAPI(GPT-4oおよびGemini 1.5 Pro)との対比でファーストトークン生成時間(TTFT)を測定しました。ビデオ中心のモデルアーキテクチャと最適化された推論システムを活用しているPegasus 1.2は、最大15分のビデオに対して一貫したTTFT遅延を実現し、30分から60分の長尺コンテンツに対しては優れたレスポンス時間を発揮しています。





性能:30分以上のビデオを含むVideo-MMEデータセットのサブセット(VideoMME-Long)を使用し、同じフロンティアモデルAPI群に対してPegasus 1.2の性能を評価しました。Pegasus 1.2は、他のすべての主要APIを上回る、新たな最先端の性能を示しています。





価格設定:Pegasus 1.2は、高額な料金設定なしで、商業用ビデオ処理のためのクラス最高の性能を提供します。すべてを行おうとするのではなく、長尺ビデオと正確な時間的理解において秀でることに焦点を当ててきました。この絞り込んだアプローチにより、最適化されたシステムを構築することが可能となり、競争力のある価格帯で優れたパフォーマンスを提供することができます。

さらに、当社のシステムは、多額の費用をかけることなく繰り返しのビデオからテキストへの生成をサポートするように設計されています。ビデオをインデックス化すると、Pegasus 1.2はリッチなビデオ埋め込みを生成し、その後のAPI呼び出しのために当社のデータベースに保存します。これにより、ユーザーは非常に低いコストで継続的に無限に生成を行い続けることができます。たとえば、GoogleのGemini 1.5 Proのキャッシュ価格は、ストレージ1時間あたり100万トークンにつき4.5ドル(これはおよそ1時間のビデオに対するトークン数に相当します)です。一方、当社の埋め込みストレージは1ビデオ時間あたり月額わずか0.09ドルであり、驚異的な36,000倍のコスト削減を実現しています。当社の設計は、膨大なビデオアーカイブをお持ちで、それらすべてを経済的に理解する必要があるお客様においてはるかに適しています。



3 - 実世界でのアプリケーション

実世界の多くの長尺ビデオアプリケーションでは、優れた時間的理解が求められます。ビデオが長くなるにつれて、情報はコンテンツ全体にシーケンシャルに分散され、コンテキストを構成します。Pegasus 1.2は、優れた時間的理解を示し、タイムスタンプに基づいて回答を特定し根拠づけることができます。

たとえば、典型的なシナリオとして、ユーザーはサッカーの試合ビデオから特定のイベントやアクションのタイムスタンプを見つけたい場合があります。

質問1:動画のどの時点で、最初に得点が表示されましたか?

Pegasus 1.2の回答

ビデオで最初の得点シーンが表示されるのは00:56で、サンフランシスコ・49ersが33ヤードのフィールドゴールを成功させた場面です。

GPT-4oの回答

最初の得点はビデオの7:44に表示され、サンフランシスコ・49ersがフィールドゴールを決めてスコアを3-0にしました。

Gemini 1.5 Proの回答

得点は[00:00:02]に初めて表示され、サンフランシスコ・49ersとバッファロー・ビルズの雪の中のフットボールの試合です。



質問2:最初のタッチダウンが発生するまでにどれくらいかかりますか?

Pegasus 1.2の回答

最初のタッチダウンは、ビデオ開始後およそ1分54秒で発生します。

GPT-4oの回答

最初のタッチダウンは第4クォーターのおよそ12:31に発生するため、ゲームのその時点まで最初のタッチダウンが決まらなかったことになります。

Gemini 1.5 Proの回答

最初のタッチダウンは[00:00:59–00:02:06]で発生します。

両方の質問において、Pegasus 1.2はターゲットとなるイベントやアクションの正確なタイムスタンプを見つけ、その極めて優れた時間的理解能力を示しています。

以下は、Pegasus 1.2が支援できるその他の業界のユースケースです。



ユースケース1:マーケティング・ブランド・製品分析

細分化された視覚的要素(ブランド/製品名、画面に表示されている専門のアーティスト)を理解し、詳細な感情分析を行い、ユーザーの指示に従います。

プロンプト:

あなたは、ソーシャルメディアのインフルエンサーが美容製品を紹介する動画チュートリアルを分析しています。動画には、インフルエンサーがさまざまな製品を使用し、解説する複数のセグメントが含まれています。動画に基づいて、動画に登場するすべての美容製品のリストを表示された順に抽出してください。各製品について、以下を指定します。

  • ブランド名:ブランドまたはメーカーの名前。

  • 製品名:動画内で言及されている、またはパッケージに表示されている特定の製品名。

  • 感情分析:製品に対するインフルエンサーの感情(例:ポジティブ、ニュートラル、またはネガティブ)を評価します。

  • その感情を示す、使用された主要なフレーズや表現を提示してください。

  • 視覚的または声のトーンの手がかり(例:笑顔、声の興奮、もどかしさ)を書き留めます。

総合的な感情:動画チュートリアル全体の一般的な感情を要約し、トーンが主にポジティブ、ニュートラル、ネガティブのいずれであったかを示し、インフルエンサーの行動と発言に基づいてその理由を説明してください。

出力:

動画チュートリアルに基づくと、取り上げられている美容製品は以下の通りです。

  • ブランド名: Fenty Beauty by Rihanna

  • 製品名: プロ フィルタ アンプリファイイング アイシャドウ プライマー(Pro Filter Amplifying Eyeshadow Primer)

  • 感情分析: ポジティブ

  • 主要フレーズ/表現: 「このアイプライマーの素晴らしいところは、つけていることを感じさせない軽さです」「ヨレず、軽く、色あせず、一日中持ちます」「アイシャドウの色をしっかりと密着させるのを大いに助けてくれるので、より長持ちするようになります」

  • 視覚的/声のトーンの手がかり: メイクアップアーティストのヘクター・エスピナル(Hector Espinal)は笑顔で、プライマーを塗りながら熱心な様子を見せています。彼は興奮と満足感を持って話しています。

総合的な感情: 動画チュートリアル全体の感情は主にポジティブです。これは、メイクアップアーティストの熱意のある表情や、プライマーを表現するために使用された肯定的なフレーズから明らかです。製品に対するアーティストの興奮と満足感は、ポジティブな感情を示す明確な指標です。



ユースケース2:メタデータ生成

ビデオ内のオブジェクト、人物、アクション、イベント、およびそれらの関係性を理解し、適切なクラスとメタデータを割り当て、英語以外のコンテンツをも解釈できるようにすることで、企業がアーカイブ全体のビデオコンテンツを効果的に管理できるようにします。

プロンプト

この動画のコンテンツに基づいて、企業のオントロジーとナレッジグラフを構築してください。ナレッジグラフ視覚化ツールで使用できるクラス、エンティティ、および関係性を含むjsonファイルを出力してください。

出力

{
  "classes": [
    "Show",
    "Host",
    "Judge",
    "Contestant",
    "DanceStyle",
    "Performance",
    "AudienceReaction",
    "Score"
  ],
  "entities": [
    {
      "class": "Show",
      "id": "DanseAvecLesStars",
      "attributes": {
        "name": "Danse avec les Stars",
        "season": "10",
        "stageSetup": ["large staircase", "bar area", "central dance floor"],
        "visualEffects": ["dynamic lighting", "special effects", "smoke machines", "confetti cannons"]
      }
    },
    {
      "class": "Host",
      "id": "CamilleCombal",
      "attributes": {
        "name": "Camille Combal",
        "role": "Main Host"
      }
    },
    {
      "class": "Host",
      "id": "KarineFerri",
      "attributes": {
        "name": "Karine Ferri",
        "role": "Co-host"
      }
    },
    {
      "class": "Judge",
      "id": "PatrickDupond",
      "attributes": {
        "name": "Patrick Dupond",
        "role": "Judge"
      }
    },
    {
      "class": "Judge",
      "id": "ChrisMarques",
      "attributes": {
        "name": "Chris Marques",
        "role": "Judge"
      }
    },
    {
      "class": "Judge",
      "id": "JeanMarcGenereux",
      "attributes": {
        "name": "Jean-Marc Généreux",
        "role": "Judge"
      }
    },
    {
      "class": "Judge",
      "id": "DenitsaIkonomova",
      "attributes": {
        "name": "Denitsa Ikonomova",
        "role": "Judge"
      }
    },
    {
      "class": "Contestant",
      "id": "IrisMittenaere",
      "attributes": {
        "name": "Iris Mittenaere",
        "profession": "Miss Universe",
        "partner": "Anthony Colette"
      }
    },
    {
      "class": "Contestant",
      "id": "AnthonyColette",
      "attributes": {
        "name": "Anthony Colette",
        "profession": "Professional Dancer",
        "partner": "Iris Mittenaere"
      }
    },
    {
      "class": "DanceStyle",
      "id": "Salsa",
      "attributes": {
        "name": "Salsa"
      }
    },
    {
      "class": "DanceStyle",
      "id": "ChaCha",
      "attributes": {
        "name": "Cha-Cha"
      }
    },
    {
      "class": "DanceStyle",
      "id": "Contemporary",
      "attributes": {
        "name": "Contemporary"
      }
    },
    {
      "class": "DanceStyle",
      "id": "Tango",
      "attributes": {
        "name": "Tango"
      }
    },
    {
      "class": "Performance",
      "id": "Performance1",
      "attributes": {
        "danceStyles": ["Salsa", "Cha-Cha", "Contemporary"],
        "performers": ["Iris Mittenaere", "Anthony Colette"],
        "audienceReaction": "enthusiastic applause",
        "judgesFeedback": ["positive", "constructive criticism"]
      }
    },
    {
      "class": "AudienceReaction",
      "id": "Reaction1",
      "attributes": {
        "type": "cheering",
        "intensity": "high"
      }
    },
    {
      "class": "Score",
      "id": "Score1",
      "attributes": {
        "PatrickDupond": 6,
        "ChrisMarques": 6,
        "JeanMarcGenereux": 5,
        "DenitsaIkonomova": 6,
        "total": 25
      }
    }
  ],
  "relationships": [
    {
      "source": "DanseAvecLesStars",
      "target": "CamilleCombal",
      "type": "hasHost"
    },
    {
      "source": "DanseAvecLesStars",
      "target": "KarineFerri",
      "type": "hasHost"
    },
    {
      "source": "DanseAvecLesStars",
      "target": "PatrickDupond",
      "type": "hasJudge"
    },
    {
      "source": "DanseAvecLesStars",
      "target": "ChrisMarques",
      "type": "hasJudge"
    },
    {
      "source": "DanseAvecLesStars",
      "target": "JeanMarcGenereux",
      "type": "hasJudge"
    },
    {
      "source": "DanseAvecLesStars",
      "target": "DenitsaIkonomova",
      "type": "hasJudge"
    },
    {
      "source": "IrisMittenaere",
      "target": "AnthonyColette",
      "type": "hasPartner"
    },
    {
      "source": "Performance1",
      "target": "IrisMittenaere",
      "type": "performedBy"
    },
    {
      "source": "Performance1",
      "target": "AnthonyColette",
      "type": "performedBy"
    },
    {
      "source": "Performance1",
      "target": "Salsa",
      "type": "includesDanceStyle"
    },
    {
      "source": "Performance1",
      "target": "ChaCha",
      "type": "includesDanceStyle"
    },
    {
      "source": "Performance1",
      "target": "Contemporary",
      "type": "includesDanceStyle"
    },
    {
      "source": "Performance1",
      "target": "AudienceReaction1",
      "type": "receivedReaction"
    },
    {
      "source": "Performance1",
      "target": "Score1",
      "type": "receivedScore"
    }
  ]
}



ユースケース3:クリエイティブの最適化とコンテンツのローカライズ

タイムスタンプを使用した推論機能により、ユーザーは特定の基準、市場、またはデモグラフィック(層)に合わせてビデオを適応させることができます。

プロンプト

広告を子供向けに魅力的にするための編集を提案してください。タイムスタンプごとに細分化し、必要に応じてナレーションも含めてください。

出力

Amazon Goの広告を子供たちにとってより魅力的なものにするために、タイムスタンプごとに細分化し、必要に応じてナレーションの提案を含めた編集案を以下に示します。

[0秒 (00:00) - 11秒 (00:11)]

  • ビジュアル編集: 子供たちの注意を引くために、食品(例:踊るピーナッツバターの瓶)の楽しげなアニメーションを追加します。

  • ナレーション: 「Amazon Goの魔法の世界へようこそ!ショッピングが遊び場のように楽しくなっちゃうよ!」

[12秒 (00:12) - 21秒 (00:21)]

  • ビジュアル編集: 「知ってた?このチーズは、美味しいグリルドチーズサンドイッチを作るのにぴったりなんだよ!」といった、カラフルなグラフィックや食品に関する楽しい豆知識を盛り込みます。

  • ナレーション: 「お気に入りのキャラクターと一緒に通路を探検しよう!新しいスナックやおやつを見つけてね!」

[22秒 (00:22) - 29秒 (00:29)]

  • ビジュアル編集: 店内で顧客を案内するキャラクター(例:親しみやすいロボット)のアニメーションを追加します。

  • ナレーション: 「ロボットのお友達についていって、一番美味しいおやつを見つけてもらおう!」

[30秒 (00:30) - 36秒 (00:36)]

  • ビジュアル編集: 楽しくてアニメーション化されたインターフェースを備えたアプリを子供が使っている様子を表示します。

  • ナレーション: 「みんなもパパやママのお買い物を手伝えるよ!タップして進むだけ!」

[37秒 (00:37) - 45秒 (00:45)]

  • ビジュアル編集: 楽しげな効果音とともに、子供たちが食品を楽しんでいる様子のモンタージュを挿入します。

  • ナレーション: 「Amazon Goの楽しさを味わおう!一口ごとにハッピーが広がるよ!」

[46秒 (00:46) - 57秒 (00:57)]

  • ビジュアル編集: 遊び心のあるフォントと色で、楽しいアニメーションのアイテムリストを追加します。

  • ナレーション: 「お気に入りをチェックして、便利でとっても楽しいお買い物リストを作ろう!」

[58秒 (00:58) - 71秒 (01:11)]

  • ビジュアル編集: 明るい色とインタラクティブな要素を取り入れた、子供に優しいバージョンの店舗を表示します。

  • ナレーション: 「Amazon Goのキッズコーナーへようこそ!訪れるたびに冒険が待っているよ!」

[72秒 (01:12) - 80秒 (01:20)]

  • ビジュアル編集: 子供や家族がショッピング体験を楽しんでいるモンタージュを表示します。

  • ナレーション: 「Amazon Goで家族みんなで楽しもう!お出かけがいつでもファミリーアドベンチャーになるよ!」

[81秒 (01:21) - 89秒 (01:29)]

  • ビジュアル編集: 楽しいアニメーションが含まれた、子供に優しいアプリインターフェースのバージョンを表示します。

  • ナレーション: 「みんなもお買い物の手伝いができるよ!タップして進むだけ!」

[90秒 (01:30) - 96秒 (01:36)]

  • ビジュアル編集: 店舗の外観の周りに、楽しげなアニメーションやグラフィックを追加します。

  • ナレーション: 「Amazon Goの魔法の世界へようこそ!ショッピングが遊び場のように楽しくなっちゃうよ!」

これらの編集では、遊び心のある要素、カラフルなグラフィック、楽しいナレーションを取り入れることで、子供たちにとってより魅力的で引き込まれる広告に仕上げています。



ユースケース4:スポーツ分析

スポーツにおけるタイムスタンプの理解により、ファン、コーチ、スポーツチームの選手がデータを分析し、スポーツイベントから洞察を抽出して、ファンのエンゲージメント、選手の指導、パフォーマンスレポートなどのダウンストリームのワークフローを強化することができます。

プロンプト

動画のコンテンツに従って、以下のタスクを実行してください。

  • ゴールデンステート・ウォリアーズのファンとしての視点で、チームが何に優れていたかを強調した要約を作成してください。

  • 動画のどの時点で、ゲームが終了しましたか?

  • 最終スコアは何ですか?

出力

ゴールデンステート・ウォリアーズファンとしての要約:

ゴールデンステート・ウォリアーズは試合を通じて素晴らしいパフォーマンスを見せ、特にオフェンスの連携。背番号30番のステフィン・カリーは、一貫した3ポイントシュートで傑出した活躍を見せ、チームのリードを広げる極めて重要なシュートを決め続けました。背番号3番のジョーダン・プールも、ドリブルと得点力で大きく貢献し、チームのオフェンシブな火力をさらに高めました。ウォリアーズの効果的なパスとチームワークはいくつかのプレーで明らかであり、正確なボールムーブメントを通じて得点機会を作り出していました。さらにディフェンス面でもその努力は顕著で、重要なブロックやスティールによってボストン・セルティックスが点差を縮めるのを防ぎました。全体として、チャンスを確実にものにし、リードを維持しながら、セルティックスの追い上げに的確に対応したウォリアーズは、一丸となって強力でまとまりのある素晴らしいパフォーマンスを見せてくれました。

ゲーム終了時間:

試合は動画の578秒(09:38)時点で終了しました。

最終スコア:

動画に表示された最終スコアは103-90で、ゴールデンステート・ウォリアーズの勝利となりました。



4. モデルの概要と限界





アーキテクチャ:

Pegasus 1.2は、包括的なビデオ理解に最適化されたエンコーダ・デコーダアーキテクチャを採用しており、ビデオエンコーダ、ビデオトークナイザ、および大規模言語モデルという3つの主要コンポーネントを特徴としています。このアーキテクチャにより、計算効率を維持しながら、視覚情報とテキスト情報の両方の高度な処理を可能にします。

これらのコンポーネントが統合されることで、粒度の細かい詳細情報と長期的なコンテキスト情報の両方を処理できる、まとまりのあるシステムが構築されます。私たちのアーキテクチャは、考え抜かれた設計の選択肢と、マルチモーダル処理における根本的な課題に対する革新的なソリューションによって、コンパクトなモデルでも高度なビデオ理解を達成できることを示しています。

限界:

安全性とバイアス:Pegasus 1.2は安全機構を設けて設計されていますが、他のAIモデルと同様に、適切な監視と規制がなければ、有害または不適切と見なされる可能性のあるコンテンツを生成するリスクが存在します。ビデオ基盤モデルに関する倫理および安全対策に対する当社の理解は進行中。テストを継続しフィードバックを収集するにつれ、詳細な評価および倫理レポートが提供される予定です。

ハルシネーション(もっともらしい誤情報):Pegasus 1.2は、時折不正確な出力を生成することがあります。ハルシネーションを低減するためにPegasus 1.1から改善を行ってきましたが、特に高い精度が求められ、事実の正確性が極めて重要となるタスクにおいては、ユーザーはこの制限に留意する必要があります。



謝辞

このリリースは、サイエンス、エンジニアリング、プロダクト、ビジネスデベロップメント、オペレーションなど、複数の機能グループにわたる合同のチームワークの成果です。Twelve Labs Researchのサイエンス部門に所属するPegasusチームが共同で執筆しました。



リソース

  1. サインアップして当社のAPIとプレイグラウンドでお試しいただくためのリンク

  2. APIドキュメントへのリンク

  3. 他のユーザーや開発者とつながるための、当社のDiscordコミュニティへのリンク

1 - はじめに

多くの学術的な環境とは異なり、実世界のビデオアプリケーションは次の2つのユニークな課題に直面しています。

  1. 実世界のビデオの長さは、数秒から数時間におよびます

  2. 正確な時間的理解が求められます

これらの商業的な需要に対応するため、本日私たちは、産業用ビデオ言語モデルにおける大きな飛躍となる最新の成果「Pegasus 1.2」を発表します。Pegasus 1.2は、長尺ビデオの理解において最先端の性能を達成しています。私たちのモデルは、クラス最高の精度を維持しながら最大1時間のビデオをサポートすると同時に、低遅延と競争力のある価格設定も維持しています。さらに、当社の埋め込みストレージがビデオをインテリジェントにキャッシュするため、同じビデオに対する繰り返しの問い合わせをさらに高速かつ安価に行うことができます。

このように、Pegasus 1.2は、そのフォーカスされたインテリジェントなシステム設計を通じてビジネス価値を提供する最先端のツールとして、本番環境レベルのビデオ処理パイプラインが最も必要とする部分において、まさに優れた能力を発揮します。



2 - 長尺ビデオを扱うクラス最高のビデオ言語モデル





実世界の商用環境においては長尺ビデオの処理が不可欠である一方、重要な懸念事項の一つが処理時間であり、それに伴う価値創出までの時間の長期化です。入力ビデオが長くなると、標準的なビデオ処理・推論システムは急激にボトルネックに陥り、桁違いに多いフレーム数を処理する必要が生じ、商用利用や普及にはほぼ実用的ではなくなります。さらに、商業的期待を背負ったそのようなシステムは、入力されたクエリやプロンプトに対して正確な回答を提供しつつ、同時に極めて長い時間軸全体にわたって推論を行うというタスクを課されます。





遅延時間:Pegasus 1.2の速度を評価するために、3分から60分までの長さのビデオを用いて、他のフロンティアモデルAPI(GPT-4oおよびGemini 1.5 Pro)との対比でファーストトークン生成時間(TTFT)を測定しました。ビデオ中心のモデルアーキテクチャと最適化された推論システムを活用しているPegasus 1.2は、最大15分のビデオに対して一貫したTTFT遅延を実現し、30分から60分の長尺コンテンツに対しては優れたレスポンス時間を発揮しています。





性能:30分以上のビデオを含むVideo-MMEデータセットのサブセット(VideoMME-Long)を使用し、同じフロンティアモデルAPI群に対してPegasus 1.2の性能を評価しました。Pegasus 1.2は、他のすべての主要APIを上回る、新たな最先端の性能を示しています。





価格設定:Pegasus 1.2は、高額な料金設定なしで、商業用ビデオ処理のためのクラス最高の性能を提供します。すべてを行おうとするのではなく、長尺ビデオと正確な時間的理解において秀でることに焦点を当ててきました。この絞り込んだアプローチにより、最適化されたシステムを構築することが可能となり、競争力のある価格帯で優れたパフォーマンスを提供することができます。

さらに、当社のシステムは、多額の費用をかけることなく繰り返しのビデオからテキストへの生成をサポートするように設計されています。ビデオをインデックス化すると、Pegasus 1.2はリッチなビデオ埋め込みを生成し、その後のAPI呼び出しのために当社のデータベースに保存します。これにより、ユーザーは非常に低いコストで継続的に無限に生成を行い続けることができます。たとえば、GoogleのGemini 1.5 Proのキャッシュ価格は、ストレージ1時間あたり100万トークンにつき4.5ドル(これはおよそ1時間のビデオに対するトークン数に相当します)です。一方、当社の埋め込みストレージは1ビデオ時間あたり月額わずか0.09ドルであり、驚異的な36,000倍のコスト削減を実現しています。当社の設計は、膨大なビデオアーカイブをお持ちで、それらすべてを経済的に理解する必要があるお客様においてはるかに適しています。



3 - 実世界でのアプリケーション

実世界の多くの長尺ビデオアプリケーションでは、優れた時間的理解が求められます。ビデオが長くなるにつれて、情報はコンテンツ全体にシーケンシャルに分散され、コンテキストを構成します。Pegasus 1.2は、優れた時間的理解を示し、タイムスタンプに基づいて回答を特定し根拠づけることができます。

たとえば、典型的なシナリオとして、ユーザーはサッカーの試合ビデオから特定のイベントやアクションのタイムスタンプを見つけたい場合があります。

質問1:動画のどの時点で、最初に得点が表示されましたか?

Pegasus 1.2の回答

ビデオで最初の得点シーンが表示されるのは00:56で、サンフランシスコ・49ersが33ヤードのフィールドゴールを成功させた場面です。

GPT-4oの回答

最初の得点はビデオの7:44に表示され、サンフランシスコ・49ersがフィールドゴールを決めてスコアを3-0にしました。

Gemini 1.5 Proの回答

得点は[00:00:02]に初めて表示され、サンフランシスコ・49ersとバッファロー・ビルズの雪の中のフットボールの試合です。



質問2:最初のタッチダウンが発生するまでにどれくらいかかりますか?

Pegasus 1.2の回答

最初のタッチダウンは、ビデオ開始後およそ1分54秒で発生します。

GPT-4oの回答

最初のタッチダウンは第4クォーターのおよそ12:31に発生するため、ゲームのその時点まで最初のタッチダウンが決まらなかったことになります。

Gemini 1.5 Proの回答

最初のタッチダウンは[00:00:59–00:02:06]で発生します。

両方の質問において、Pegasus 1.2はターゲットとなるイベントやアクションの正確なタイムスタンプを見つけ、その極めて優れた時間的理解能力を示しています。

以下は、Pegasus 1.2が支援できるその他の業界のユースケースです。



ユースケース1:マーケティング・ブランド・製品分析

細分化された視覚的要素(ブランド/製品名、画面に表示されている専門のアーティスト)を理解し、詳細な感情分析を行い、ユーザーの指示に従います。

プロンプト:

あなたは、ソーシャルメディアのインフルエンサーが美容製品を紹介する動画チュートリアルを分析しています。動画には、インフルエンサーがさまざまな製品を使用し、解説する複数のセグメントが含まれています。動画に基づいて、動画に登場するすべての美容製品のリストを表示された順に抽出してください。各製品について、以下を指定します。

  • ブランド名:ブランドまたはメーカーの名前。

  • 製品名:動画内で言及されている、またはパッケージに表示されている特定の製品名。

  • 感情分析:製品に対するインフルエンサーの感情(例:ポジティブ、ニュートラル、またはネガティブ)を評価します。

  • その感情を示す、使用された主要なフレーズや表現を提示してください。

  • 視覚的または声のトーンの手がかり(例:笑顔、声の興奮、もどかしさ)を書き留めます。

総合的な感情:動画チュートリアル全体の一般的な感情を要約し、トーンが主にポジティブ、ニュートラル、ネガティブのいずれであったかを示し、インフルエンサーの行動と発言に基づいてその理由を説明してください。

出力:

動画チュートリアルに基づくと、取り上げられている美容製品は以下の通りです。

  • ブランド名: Fenty Beauty by Rihanna

  • 製品名: プロ フィルタ アンプリファイイング アイシャドウ プライマー(Pro Filter Amplifying Eyeshadow Primer)

  • 感情分析: ポジティブ

  • 主要フレーズ/表現: 「このアイプライマーの素晴らしいところは、つけていることを感じさせない軽さです」「ヨレず、軽く、色あせず、一日中持ちます」「アイシャドウの色をしっかりと密着させるのを大いに助けてくれるので、より長持ちするようになります」

  • 視覚的/声のトーンの手がかり: メイクアップアーティストのヘクター・エスピナル(Hector Espinal)は笑顔で、プライマーを塗りながら熱心な様子を見せています。彼は興奮と満足感を持って話しています。

総合的な感情: 動画チュートリアル全体の感情は主にポジティブです。これは、メイクアップアーティストの熱意のある表情や、プライマーを表現するために使用された肯定的なフレーズから明らかです。製品に対するアーティストの興奮と満足感は、ポジティブな感情を示す明確な指標です。



ユースケース2:メタデータ生成

ビデオ内のオブジェクト、人物、アクション、イベント、およびそれらの関係性を理解し、適切なクラスとメタデータを割り当て、英語以外のコンテンツをも解釈できるようにすることで、企業がアーカイブ全体のビデオコンテンツを効果的に管理できるようにします。

プロンプト

この動画のコンテンツに基づいて、企業のオントロジーとナレッジグラフを構築してください。ナレッジグラフ視覚化ツールで使用できるクラス、エンティティ、および関係性を含むjsonファイルを出力してください。

出力

{
  "classes": [
    "Show",
    "Host",
    "Judge",
    "Contestant",
    "DanceStyle",
    "Performance",
    "AudienceReaction",
    "Score"
  ],
  "entities": [
    {
      "class": "Show",
      "id": "DanseAvecLesStars",
      "attributes": {
        "name": "Danse avec les Stars",
        "season": "10",
        "stageSetup": ["large staircase", "bar area", "central dance floor"],
        "visualEffects": ["dynamic lighting", "special effects", "smoke machines", "confetti cannons"]
      }
    },
    {
      "class": "Host",
      "id": "CamilleCombal",
      "attributes": {
        "name": "Camille Combal",
        "role": "Main Host"
      }
    },
    {
      "class": "Host",
      "id": "KarineFerri",
      "attributes": {
        "name": "Karine Ferri",
        "role": "Co-host"
      }
    },
    {
      "class": "Judge",
      "id": "PatrickDupond",
      "attributes": {
        "name": "Patrick Dupond",
        "role": "Judge"
      }
    },
    {
      "class": "Judge",
      "id": "ChrisMarques",
      "attributes": {
        "name": "Chris Marques",
        "role": "Judge"
      }
    },
    {
      "class": "Judge",
      "id": "JeanMarcGenereux",
      "attributes": {
        "name": "Jean-Marc Généreux",
        "role": "Judge"
      }
    },
    {
      "class": "Judge",
      "id": "DenitsaIkonomova",
      "attributes": {
        "name": "Denitsa Ikonomova",
        "role": "Judge"
      }
    },
    {
      "class": "Contestant",
      "id": "IrisMittenaere",
      "attributes": {
        "name": "Iris Mittenaere",
        "profession": "Miss Universe",
        "partner": "Anthony Colette"
      }
    },
    {
      "class": "Contestant",
      "id": "AnthonyColette",
      "attributes": {
        "name": "Anthony Colette",
        "profession": "Professional Dancer",
        "partner": "Iris Mittenaere"
      }
    },
    {
      "class": "DanceStyle",
      "id": "Salsa",
      "attributes": {
        "name": "Salsa"
      }
    },
    {
      "class": "DanceStyle",
      "id": "ChaCha",
      "attributes": {
        "name": "Cha-Cha"
      }
    },
    {
      "class": "DanceStyle",
      "id": "Contemporary",
      "attributes": {
        "name": "Contemporary"
      }
    },
    {
      "class": "DanceStyle",
      "id": "Tango",
      "attributes": {
        "name": "Tango"
      }
    },
    {
      "class": "Performance",
      "id": "Performance1",
      "attributes": {
        "danceStyles": ["Salsa", "Cha-Cha", "Contemporary"],
        "performers": ["Iris Mittenaere", "Anthony Colette"],
        "audienceReaction": "enthusiastic applause",
        "judgesFeedback": ["positive", "constructive criticism"]
      }
    },
    {
      "class": "AudienceReaction",
      "id": "Reaction1",
      "attributes": {
        "type": "cheering",
        "intensity": "high"
      }
    },
    {
      "class": "Score",
      "id": "Score1",
      "attributes": {
        "PatrickDupond": 6,
        "ChrisMarques": 6,
        "JeanMarcGenereux": 5,
        "DenitsaIkonomova": 6,
        "total": 25
      }
    }
  ],
  "relationships": [
    {
      "source": "DanseAvecLesStars",
      "target": "CamilleCombal",
      "type": "hasHost"
    },
    {
      "source": "DanseAvecLesStars",
      "target": "KarineFerri",
      "type": "hasHost"
    },
    {
      "source": "DanseAvecLesStars",
      "target": "PatrickDupond",
      "type": "hasJudge"
    },
    {
      "source": "DanseAvecLesStars",
      "target": "ChrisMarques",
      "type": "hasJudge"
    },
    {
      "source": "DanseAvecLesStars",
      "target": "JeanMarcGenereux",
      "type": "hasJudge"
    },
    {
      "source": "DanseAvecLesStars",
      "target": "DenitsaIkonomova",
      "type": "hasJudge"
    },
    {
      "source": "IrisMittenaere",
      "target": "AnthonyColette",
      "type": "hasPartner"
    },
    {
      "source": "Performance1",
      "target": "IrisMittenaere",
      "type": "performedBy"
    },
    {
      "source": "Performance1",
      "target": "AnthonyColette",
      "type": "performedBy"
    },
    {
      "source": "Performance1",
      "target": "Salsa",
      "type": "includesDanceStyle"
    },
    {
      "source": "Performance1",
      "target": "ChaCha",
      "type": "includesDanceStyle"
    },
    {
      "source": "Performance1",
      "target": "Contemporary",
      "type": "includesDanceStyle"
    },
    {
      "source": "Performance1",
      "target": "AudienceReaction1",
      "type": "receivedReaction"
    },
    {
      "source": "Performance1",
      "target": "Score1",
      "type": "receivedScore"
    }
  ]
}



ユースケース3:クリエイティブの最適化とコンテンツのローカライズ

タイムスタンプを使用した推論機能により、ユーザーは特定の基準、市場、またはデモグラフィック(層)に合わせてビデオを適応させることができます。

プロンプト

広告を子供向けに魅力的にするための編集を提案してください。タイムスタンプごとに細分化し、必要に応じてナレーションも含めてください。

出力

Amazon Goの広告を子供たちにとってより魅力的なものにするために、タイムスタンプごとに細分化し、必要に応じてナレーションの提案を含めた編集案を以下に示します。

[0秒 (00:00) - 11秒 (00:11)]

  • ビジュアル編集: 子供たちの注意を引くために、食品(例:踊るピーナッツバターの瓶)の楽しげなアニメーションを追加します。

  • ナレーション: 「Amazon Goの魔法の世界へようこそ!ショッピングが遊び場のように楽しくなっちゃうよ!」

[12秒 (00:12) - 21秒 (00:21)]

  • ビジュアル編集: 「知ってた?このチーズは、美味しいグリルドチーズサンドイッチを作るのにぴったりなんだよ!」といった、カラフルなグラフィックや食品に関する楽しい豆知識を盛り込みます。

  • ナレーション: 「お気に入りのキャラクターと一緒に通路を探検しよう!新しいスナックやおやつを見つけてね!」

[22秒 (00:22) - 29秒 (00:29)]

  • ビジュアル編集: 店内で顧客を案内するキャラクター(例:親しみやすいロボット)のアニメーションを追加します。

  • ナレーション: 「ロボットのお友達についていって、一番美味しいおやつを見つけてもらおう!」

[30秒 (00:30) - 36秒 (00:36)]

  • ビジュアル編集: 楽しくてアニメーション化されたインターフェースを備えたアプリを子供が使っている様子を表示します。

  • ナレーション: 「みんなもパパやママのお買い物を手伝えるよ!タップして進むだけ!」

[37秒 (00:37) - 45秒 (00:45)]

  • ビジュアル編集: 楽しげな効果音とともに、子供たちが食品を楽しんでいる様子のモンタージュを挿入します。

  • ナレーション: 「Amazon Goの楽しさを味わおう!一口ごとにハッピーが広がるよ!」

[46秒 (00:46) - 57秒 (00:57)]

  • ビジュアル編集: 遊び心のあるフォントと色で、楽しいアニメーションのアイテムリストを追加します。

  • ナレーション: 「お気に入りをチェックして、便利でとっても楽しいお買い物リストを作ろう!」

[58秒 (00:58) - 71秒 (01:11)]

  • ビジュアル編集: 明るい色とインタラクティブな要素を取り入れた、子供に優しいバージョンの店舗を表示します。

  • ナレーション: 「Amazon Goのキッズコーナーへようこそ!訪れるたびに冒険が待っているよ!」

[72秒 (01:12) - 80秒 (01:20)]

  • ビジュアル編集: 子供や家族がショッピング体験を楽しんでいるモンタージュを表示します。

  • ナレーション: 「Amazon Goで家族みんなで楽しもう!お出かけがいつでもファミリーアドベンチャーになるよ!」

[81秒 (01:21) - 89秒 (01:29)]

  • ビジュアル編集: 楽しいアニメーションが含まれた、子供に優しいアプリインターフェースのバージョンを表示します。

  • ナレーション: 「みんなもお買い物の手伝いができるよ!タップして進むだけ!」

[90秒 (01:30) - 96秒 (01:36)]

  • ビジュアル編集: 店舗の外観の周りに、楽しげなアニメーションやグラフィックを追加します。

  • ナレーション: 「Amazon Goの魔法の世界へようこそ!ショッピングが遊び場のように楽しくなっちゃうよ!」

これらの編集では、遊び心のある要素、カラフルなグラフィック、楽しいナレーションを取り入れることで、子供たちにとってより魅力的で引き込まれる広告に仕上げています。



ユースケース4:スポーツ分析

スポーツにおけるタイムスタンプの理解により、ファン、コーチ、スポーツチームの選手がデータを分析し、スポーツイベントから洞察を抽出して、ファンのエンゲージメント、選手の指導、パフォーマンスレポートなどのダウンストリームのワークフローを強化することができます。

プロンプト

動画のコンテンツに従って、以下のタスクを実行してください。

  • ゴールデンステート・ウォリアーズのファンとしての視点で、チームが何に優れていたかを強調した要約を作成してください。

  • 動画のどの時点で、ゲームが終了しましたか?

  • 最終スコアは何ですか?

出力

ゴールデンステート・ウォリアーズファンとしての要約:

ゴールデンステート・ウォリアーズは試合を通じて素晴らしいパフォーマンスを見せ、特にオフェンスの連携。背番号30番のステフィン・カリーは、一貫した3ポイントシュートで傑出した活躍を見せ、チームのリードを広げる極めて重要なシュートを決め続けました。背番号3番のジョーダン・プールも、ドリブルと得点力で大きく貢献し、チームのオフェンシブな火力をさらに高めました。ウォリアーズの効果的なパスとチームワークはいくつかのプレーで明らかであり、正確なボールムーブメントを通じて得点機会を作り出していました。さらにディフェンス面でもその努力は顕著で、重要なブロックやスティールによってボストン・セルティックスが点差を縮めるのを防ぎました。全体として、チャンスを確実にものにし、リードを維持しながら、セルティックスの追い上げに的確に対応したウォリアーズは、一丸となって強力でまとまりのある素晴らしいパフォーマンスを見せてくれました。

ゲーム終了時間:

試合は動画の578秒(09:38)時点で終了しました。

最終スコア:

動画に表示された最終スコアは103-90で、ゴールデンステート・ウォリアーズの勝利となりました。



4. モデルの概要と限界





アーキテクチャ:

Pegasus 1.2は、包括的なビデオ理解に最適化されたエンコーダ・デコーダアーキテクチャを採用しており、ビデオエンコーダ、ビデオトークナイザ、および大規模言語モデルという3つの主要コンポーネントを特徴としています。このアーキテクチャにより、計算効率を維持しながら、視覚情報とテキスト情報の両方の高度な処理を可能にします。

これらのコンポーネントが統合されることで、粒度の細かい詳細情報と長期的なコンテキスト情報の両方を処理できる、まとまりのあるシステムが構築されます。私たちのアーキテクチャは、考え抜かれた設計の選択肢と、マルチモーダル処理における根本的な課題に対する革新的なソリューションによって、コンパクトなモデルでも高度なビデオ理解を達成できることを示しています。

限界:

安全性とバイアス:Pegasus 1.2は安全機構を設けて設計されていますが、他のAIモデルと同様に、適切な監視と規制がなければ、有害または不適切と見なされる可能性のあるコンテンツを生成するリスクが存在します。ビデオ基盤モデルに関する倫理および安全対策に対する当社の理解は進行中。テストを継続しフィードバックを収集するにつれ、詳細な評価および倫理レポートが提供される予定です。

ハルシネーション(もっともらしい誤情報):Pegasus 1.2は、時折不正確な出力を生成することがあります。ハルシネーションを低減するためにPegasus 1.1から改善を行ってきましたが、特に高い精度が求められ、事実の正確性が極めて重要となるタスクにおいては、ユーザーはこの制限に留意する必要があります。



謝辞

このリリースは、サイエンス、エンジニアリング、プロダクト、ビジネスデベロップメント、オペレーションなど、複数の機能グループにわたる合同のチームワークの成果です。Twelve Labs Researchのサイエンス部門に所属するPegasusチームが共同で執筆しました。



リソース

  1. サインアップして当社のAPIとプレイグラウンドでお試しいただくためのリンク

  2. APIドキュメントへのリンク

  3. 他のユーザーや開発者とつながるための、当社のDiscordコミュニティへのリンク