商品

Pegasus 1 Beta: ビデオ言語モデリングにおける新たな基準の確立

Twelve LabsはPegasus-1のオープンベータ版をリリースします。これは、170億のパラメータ、動画処理解像度の15倍の向上、そして改善されたトレーニング技術を備えたアルファ版からのアップグレードであり、Gemini Pro 1.5などのモデルに対抗し、動画質問回答、要約、および対話のベンチマークにおいて最先端の結果を提供します。

Twelve LabsはPegasus-1のオープンベータ版をリリースします。これは、170億のパラメータ、動画処理解像度の15倍の向上、そして改善されたトレーニング技術を備えたアルファ版からのアップグレードであり、Gemini Pro 1.5などのモデルに対抗し、動画質問回答、要約、および対話のベンチマークにおいて最先端の結果を提供します。

この記事の内容

No headings found on page

ニュースレターに登録する

ニュースレターに登録する

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

AIを活用してビデオを検索、分析、探索します。

2024/03/12

10分

記事へのリンクをコピー

arXiVHuggingFaceに公開されているPegasus-1の技術レポートをご覧ください!

1 - はじめに

Twelve Labsの目標は、革新的なマルチモーダルAIモデルの作成を通じて、ビデオ理解を進化させることです。以前の投稿「Video-to-TextとPegasus-1 (80B)の紹介」では、Pegasus-1のアルファ版を紹介しました。この基盤モデルは、ビデオ入力から説明的なテキストを生成できます。本日、Pegasus-1のオープンベータ版のリリースを発表できることを嬉しく思います。

Pegasus-1は、複雑なビデオコンテンツを理解し表現するように設計されており、マルチメディアとの対話や分析の方法を変革します。約170億のパラメータを持つこのモデルは、マルチモーダルAIにおける重要な進歩です。ビデオ入力から非常に高い精度と詳細さで言語を処理し、生成することができます。

このアップデートでは、アルファ版リリース以降にPegasus-1に加えられた機能向上について説明します。これには、データ品質、ビデオ処理、およびトレーニング方法の改善が含まれます。また、主要な商用モデルやオープンソースモデルに対するベンチマーク結果も共有し、ビデオの要約、質問応答、対話においてPegasus-1が優れた性能を発揮することを示します。定量的な指標だけでなく、世界知識の向上や詳細な視覚情報のキャプチャ能力を通じて、Pegasus-1は定性的にも改善されています。

2 - モデルの概要

__wf_reserved_inherit

簡単な振り返りとして、Pegasus-1はビデオコンテンツと言語のギャップを埋めるために設計されたマルチモーダル基盤モデルであり、マシンがビデオ入力に基づいてテキストを解釈し、生成できるようにします。Pegasus-1のアーキテクチャは、主に3つのコンポーネントで構成されています。

  1. ビデオエンコーダーモデルは、ビデオ入力を処理して、ビデオフレームと音声認識(ASR)データの両方から豊富な埋め込みを生成します。これらの埋め込みは、ビデオコンテンツの視覚的および聴覚的な本質を捉える密な表現です。

  2. ビデオと言語のアライメントモデルは、ビデオの埋め込みを対応する言語の埋め込みにマッピングし、ビデオとテキストの表現が整合する共有スペースを作成します。このアライメントは、ビデオで何が見えているかと、それを説明する言語との対応関係をモデルが理解するために不可欠です。

  3. 大規模言語モデル(LLM)デコーダーは、アライメントされた埋め込みとユーザープロンプトを受け取り、一貫性がありコンテキストに適したテキスト出力を生成します。この出力は、説明的な要約から、ビデオコンテンツに関する特定の質問への回答まで多岐にわたります。

アルファ版と比較して、Pegasus-1のオープンベータ版は約170億のパラメータを誇り、ビデオデータに基づいてテキストを解釈・生成するための、コンパクトながらも強力なツールとなっています。

3 - 主な改善点

アルファ版からオープンベータ版への移行に伴い、より正確で詳細なビデオと言語の理解を提供するために、モデルに継続的な改良と強化を加えています。これらの機能向上は、高品質なデータ、最適化されたビデオ処理、そして洗練されたトレーニング技術という3つの重要な要因によってもたらされています。

3.1 - データの改善

これまでの研究結果と同様に、私たちはキャプションの品質と粒度が、単なるデータ量よりもモデルのパフォーマンスに重要な影響を与えることを見出しました。たとえば、10万組の高品質なビデオとテキストのペアでトレーニングされたPegasus-1は、低品質なキャプションを含むはるかに大規模なデータセット(1,000万以上)でトレーニングされた同じアーキテクチャよりも、容易に優れた性能を示します。

この実験的なエビデンスを念頭に置き、私たちは前述の1,000万以上のビデオに対して高品質なビデオキャプションを作成するための、効率的なデータアノテーションパイプラインを設計しました。このように膨大な量の高品質なビデオとテキストのペアでトレーニングを行うことで、Pegasusは他のモデルには見られない基本的なビデオ理解能力を獲得しています。

3.2 - ビデオ処理の改善

空間解像度と時間解像度の両方を最適化するため、ビデオ処理パイプラインを大幅に変更しました。1フレームあたりのパッチ数を10倍に増やし(空間的)、フレーム数を1.5倍に増やした(時間的)結果、ビデオ全体のパッチ総数は15倍になりました。この強化により、Pegasus-1は1フレームあたりにより多くの情報を捉えて伝えることができます。

Pegasus-1は、特に質問応答のデータセットでの定性的および定量的な分析で実証されているように、ビデオ全体ののストーリーと文脈を、より一貫性を持って把握できるようになりました。

3.3 - トレーニングの改善

Pegasus-1は、マルチモーダル基盤モデルとして、複数のステージにわたって大規模なマルチモーダルデータセットでトレーニングされます。しかし、複数ステージのトレーニングは、一般的に「破滅的忘却」と呼ばれる現象に悩まされます。これは、モデルが新しい情報を学習した際に、それまでにトレーニングされていた古い情報を急速に忘れてしまう現象です。この問題は、モダリティを超えて順次トレーニングを行うマルチモーダルモデルにおいて、より深刻なものとなります。

これに対処するため、私たちは複数のステージを含む戦略的なトレーニング計画を採用しています。各ステージは、新しい知識の獲得と、以前に学習した情報の保持のバランスをとるよう、綿密に設計されています。このアプローチの鍵は、モデルパラメータの選択的な部分更新(アンフリーズ)と、トレーニングプロセス全体を通じた学習率の慎重な調整にあります。

Pegasus-1のオープンベータ版は、アルファ版と比較して、細かな時間的イベントを捉える能力の向上やハルシネーションの減少といった強化された機能を備えており、その結果、多様なビデオ領域にわたる堅牢性が向上しています。また、世界知識の拡大や、単一のシーンに集中するのではなく、さまざまな瞬間を時間の順序に従ってリストアップする能力の向上も示しています。

4 - 定量的なベンチマーク結果

__wf_reserved_inherit

徹底的なベンチマーク評価において、Pegasus-1は商用モデルおよびオープンソースモデルの両方と比較されてきました。このセクションでは、さまざまなビデオと言語のモデリングタスクにおいて、Pegasus-1と競合モデルとの比較におけるパフォーマンスを解説します。

4.1 - ベースラインモデル

Pegasus-1のベンチマーク対象となったベースラインモデルは、以下の通りです。

  • Gemini Pro (1.5): 強力なビデオと言語の機能を備えることで知られるGoogle DeepMindの商用マルチモーダルモデルです。2023年11月にリリースされ、最も新しくは2024年2月にアップデートされました。ここでは最新バージョンのGemini Pro 1.5と比較しています。

  • Whisper + ChatGPT-3.5 (OpenAI): この組み合わせは、ビデオ要約に対して広く採用されている数少ないアプローチの1つです。最先端の音声テキスト変換技術と大規模言語モデルを活用することで、主にビデオの音声コンテンツから要約が生成されます。重大な欠点は、ビデオ内の貴重な視覚情報が見落とされることです。

  • ベンダーAのSummary API:音声およびビデオの要約生成で広く採用されている商用製品です。ベンダーAのSummary APIは、音声文字起こしデータと言語モデル(ASR+ChatGPT3.5に類似)のみに依存してビデオの要約を出力していると見られます。

  • Video-ChatGPT: Maazら(2023年6月)によって開発された、チャットインターフェースを持つビデオ言語モデルです。このモデルはビデオフレームを処理して、ビデオ内の視覚的イベントをキャプチャします。なお、ビデオ内の会話情報は利用していません。

  • VideoChat2: Liら(2023年11月)によって開発された、最先端のオープンソースマルチモーダルLLMです。多様なインストラクションチューニング(指示調整)データを用いた進歩的なマルチモーダルトレーニングを採用しています。

今回の比較では、LLaVAGPT-4Vのような画像ベースのビジョン・言語モデルは意図的に除外しました。これらのモデルにはネイティブなビデオ処理機能が欠けており、今回の評価タスクにおいてそれが不可欠な要件であるためです。具体的には、以下のような限界があります。

  • これらのモデルの多くは単一の画像しか参照できず、ほとんどのビデオベンチマークデータセットで低いパフォーマンスしか発揮できません。

  • 一部のモデル(GPT-4Vなど)は複数の画像を同時に見ることができますが、一度に処理できるのはビデオの数フレーム(10フレーム以下)のみであり、1分を超えるほとんどのビデオを処理するには不十分です。

  • 画像ベースのモデルは、特にビデオコンテンツのダイナミックで流動的な性質を扱う際に限界を示します。入力を一貫したビデオとしてではなく、一連の画像として処理する場合、これらを十分に捉えることができません。

  • さらに、これらのモデルがビデオを処理するのに要する時間は、実世界のアプリケーションにおいて非現実的なほど長くなります。これは、ビデオ内の展開するストーリーやアクションを理解する上で不可欠である、ビデオの時間軸を効率的に処理するメカニズムが不足しているためです。

4.2 - ビデオ質問応答(Video QA)の結果

__wf_reserved_inherit

ビデオ質問応答タスクにおいて、ActivityNet-QANExT-QAの両データセットにおけるPegasus-1のゼロショット(未知のタスクに対する)パフォーマンスは特に注目に値します。Pegasus-1は、タスク固有のトレーニングを施すことなく、多様なビデオを一般化して理解し、ビデオに関連する質問に正確に答える驚異的な能力を示しています。

4.3 - ビデオ会話の結果

__wf_reserved_inherit

Video-ChatGPTベンチマーク(QEFVCとしても知られる)の結果は、ビデオ会話の処理におけるPegasus-1の卓越した能力を浮き彫りにしています。Pegasus-1は、「正確性」、「詳細さ」、「コンテキスト」、「時間的理解」、「一貫性」を示すスコアで他をリードしています。特に、正確性で3.79、詳細さで4.29を記録し、ビデオ会話とその中で発生する文脈に対する極めて高度な理解力を示しました。

4.4 - ビデオ要約の結果

__wf_reserved_inherit

最後に、Pegasus-1はビデオの要約作成においても優れたパフォーマンスを発揮しました。MSR-VTTデータセットを用いてVideoChatGPTベンチマークのスコアリングスキーム(要約という目的上、「時間的理解」と「一貫性」は省略)に基づき、Pegasus-1と競合モデルを比較しました。上記のように、Pegasus-1はすべての指標において、ベースラインモデルを大きく上回っています。

これらのベンチマークを通じて、Pegasus-1はビデオと言語のモデリング分野において強力な競合モデルとしての地位を確立し、ビデオ理解タスクにおけるゼロショットパフォーマンスと汎化性能の新たな基準を打ち立てました。

5 - 定性的な事例

以下は、Pegasus-1の能力を示すために、さまざまな領域からランダムに選択されたサンプル事例です。

Eラーニングビデオ

生成されたタイトル

テントの組み立て:カナダ国定公園で楽しむキャンプのステップバイステップガイド

生成されたトピック

キャンプ:カナダ国定公園でのテントの設営と固定

生成されたハッシュタグ

#キャンプ、#テント、#設営、#ファイアピット、#防犯、#キャンプを学ぶ、#カナダ国定公園

生成された章

ステップ1:設営 00:00:00 - 00:00:08

キャンプサイトを選び、テントを組み立てる。

ステップ2:ファイアピットの作成 00:00:09 - 00:00:36

調理や暖をとるためのファイアピットを作る。

ステップ3:テントの組み立て 00:00:37 - 00:01:14

テントを広げて配置する。

ステップ4:固定 00:01:14 - 00:01:48

テントを地面に固定する。

ステップ5:フライシートの取り付け 00:01:49 - 00:01:54

テントにレインフライを取り付ける。

ステップ6:快適さの追求 00:01:55 - 00:02:16

テント内に寝具やその他のギアを整える。

ステップ7:テントの撤去 00:02:17 - 00:02:30

テントを解体して収納する。

ステップ8:パッキング 00:02:31 - 00:02:58

テントを折りたたんでキャリーケースに保管する。

ステップ9:プログラムの案内 00:03:00 - 00:03:06

カナダ国定公園の教育プログラムを紹介する。



広告ビデオ

カスタムプロンプトに基づく回答生成

プロンプト:この広告がどのように表情を利用してメッセージを伝えているか分析してください。

出力結果:この広告は、ブランドに関連するエレガンス、喜び、ラグジュアリーといったメッセージを効果的に伝えるために、表情を戦略的に活用しています。広告に登場するモデルたちは自信に満ちた温かい笑みを浮かべて描かれており、ブルガリのジュエリーが幸福をもたらし、身につける人の美しさを引き立てることを暗示しています。これらの表情はポジティブな印象を与え、視聴者との感情的なつながりを生み出します。

さらに、モデルたちの落ち着いていて凛とした表情は、ブランドのタイムレスで洗練された性質を反映しています。モデルの表情にフォーカスしたクローズアップショットを通じてジュエリーを紹介することで、広告は製品とそこに映し出されるポジティブな感情との結びつきを強調しています。この技術は、視聴者に憧れや欲しいという感情を呼び起こし、ブランドを高級感や優雅さと結びつけることを意図しています。

ビデオの基本的な描写から、この広告は女性がさまざまなシチュエーションでブルガリの多様なジュエリーを披露していると推測できます。ビデオは女性が木の横に立ち、ネックレスとイヤリングを身につけているシーンから始まり、幹にはブルガリのロゴが見えます。次に、彼女は別のドレスを着て、同じネックレスをつけて木立ちの並ぶドライブウェイを歩いているのが見られます。シーンは豪華な室内に移り、女性が指輪、ブレスレット、大ぶりのペンダント付きネックレスを眺めたり、身につけたりしている様子が描かれます。

ビデオにはクジャクとクジャクの羽のシーンも含まれており、これらはラグジュアリーとエレガンスを象徴していると考えられます。ビデオの終盤では、女性に別のモデルが加わり、両者ともブルガリのジュエリーを身につけています。広告は、ブルガリのロゴとともに「Wonderful Extravaganza」および「Bvlgari Rome」という文字で締めくくられ、広告に関連するブランド名とロケーションを示しています。

要約すると、この広告は表情を効果的に利用して、エレガンス、喜び、ラグジュアリーのメッセージを伝えています。ジュエリーを身につけたモデルたちの自信に満ちた温かい笑みと、顔のクローズアップショットが視聴者との感情的なつながりを生み出しています。豪華なセットやクジャクのシンボリズムなど、広告全体の視覚的要素が、ブランドのエレガンスと洗練されたイメージをさらに高めています。



映画予告編ビデオ

カスタムプロンプトに基づく回答生成

プロンプト:このビデオを小さな子供たちにお勧めしますか?

出力結果:ビデオの包括的な分析に基づくと、このビデオを小さな子供たちにお勧めすることはできません。このビデオには、幼い視聴者には適さない激しいアクションシーン、暴力、成人向けのテーマが含まれています。視覚的な情報から、このビデオはスリリングでアクション満載のストーリーを持つ映画またはテレビシリーズの予告編であることが伺えます。

ビデオは燃えるようなオレンジ色のタイトルカードで始まり、キャンドルに照らされた教会の内部のダークで雰囲気のあるシーンへと移ります。スーツを着た男性が通路を歩いており、その後に同様のスーツを着た別の男性が続いています。このシーンに続いて、女性と男性が熱烈に抱き合っており、ストーリーにロマンチックな要素があることを暗示しています。

予告編全体を通じて、アクションとサスペンスを予感させるさまざまなシチュエーションやシーンがあります。これらには、2人の男性の対峙、懐中時計を見つめながらの思索の瞬間、キャラクター間の緊迫したやり取り、夜の街を駆け抜ける高速チェイスなどが含まれます。また、爆発から立ち去る男たちの姿や、砂漠の風景も垣間見えます。これらの要素は、幼い子供にはふさわしくない過激なアクションシークエンスを示しています。

さらに、男性が銃を見つめているシーンがあり、ストーリー内で暴力や衝突が生じる可能性を示唆しています。予告編は、夕暮れ時のエッフェル塔のショットと2人の男の対峙で締めくくられ、その後「IN MARC A DANCER」というタイトルと「MARCH 24(3月24日)」という公開日が表示されます。

要約すると、このビデオには激しいアクションシーン、暴力、成人向けテーマが含まれており、小さな子供には適していません。これは、映画またはテレビシリーズのスリリングでアクション満載の予告編です。



6 - 制限事項

安全性とバイアス:Pegasus-1は安全メカニズムを備えるよう設計されていますが、他のAIモデルと同様に、適切な監視と規制なしでは、有害または不適切と見なされるコンテンツを生成するリスクが存在します。ビデオ基盤モデルに関する倫理的および安全対策への理解は現在も進められているところです。テストを継続しフィードバックを収集する中で、詳細な評価および倫理レポートを公開する予定です。

ビデオの時間制限:現在APIがサポートしているのは、長さ4秒から20分までのビデオです。この制限は計算およびメモリ上の制約によるものであり、大規模なビデオデータを扱う際の一般的な技術的課題です。結果として、モデルの機能を最大限に活用するために、ユーザーは長いビデオをより細かく分割して入力する必要がある場合があります。今後のリリースで、より長時間のビデオに対するネイティブサポートに取り組んでいきます。

ハルシネーション:Pegasus-1は、時折不正確な出力を生成することがあります。ハルシネーション(もっともらしい嘘)を減少させるためにアルファ版から改良を重ねていますが、特に高い精度が求められ、事実の正確性が極めて重要となるタスクで利用する場合には、ユーザーはこの制限に留意する必要があります。

7 - おわりに

Pegasus-1のアルファ版からベータ版への道のりは、大幅な機能の向上によって彩られてきました。トレーニングデータの品質、ビデオ処理能力、および高度なトレーニング技術における実直な改善により、ビデオコンテンツをより深く理解するだけでなく、これまで到達できなかった洗練されたレベルで会話のコンテキストに応答するモデルが誕生しました。

ベンチマーク結果が示す通り、Pegasus-1は業界の最前線に位置しており、GoogleのGemini Proのような既存の確立されたモデルを凌駕し、ビデオのQAおよびビデオ会話のフレームワークにおいて新たな基準を打ち立てています。これらの定量的な成果に加え、世界知識や詳細認識における定性的な向上は、Pegasus-1が持つ変革の可能性を示しています。

安全性に関する懸念、ビデオの長さに関する制約、時折生じるハルシネーションなど、Pegasus-1の限界も認識していますが、それらは現在進行形で研究開発が進められている領域です。私たちはビデオ理解テクノロジーの限界を押し広げることを目指し、Pegasus-1の継続的な改善に揺るぎなく取り組んでいます。

Twelve Labs チーム

これは、モデルとデータ(「core」は主要な貢献者を示します)、エンジニアリング、プロダクト、ビジネスデベロップメントを含む複数の機能グループにわたる共同チームの成果です(名はアルファベット順)。

モデル:Aiden Lee、Cooper Han、Flynn Jang (core)、Jae Lee、Jay Yi (core)、Jeff Kim、Jeremy Kim、Kyle Park、Lucas Lee、Mars Ha、Minjoon Seo、Ray Jung (core)、William Go (core)

データ:Daniel Kim (core)、Jay Suh (core)

デプロイメント:Abraham Jo、Ed Park、Hassan Kianinejad、SJ Kim、Tony Moon、Wade Jeong

プロダクト:Andrei Popescu、Esther Kim、EK Yoon、Genie Heo、Henry Choi、Jenna Kang、Kevin Han、Noah Seo、Sunny Nguyen、Ryan Won、Yeonhoo Park

ビジネス&オペレーション:Anthony Giuliani、Dave Chung、Hans Yoon、James Le、Jenny Ahn、June Lee、Maninder Saini、Meredith Sanders、Soyoung Lee、Sue Kim、Travis Couture

リソース一覧:

  1. APIの登録およびハンズオン体験のリンク

  2. APIドキュメントへのリンク

  3. 他のユーザーや開発者とつながるためのDiscordコミュニティへのリンク

研究や業務でこのモデルを使用する場合は、以下のBibTeX引用を使用し、著者としてTwelve Labsを指定してください。

@misc{pegasus-1-beta,  author = {Twelve Labs Team},  title = {Pegasus-1 Open Beta: Setting New Standards in Video-Language Modeling},  url = {https://www.twelvelabs.io/blog/pegasus-1-beta},  year = {2024}}}

arXiVHuggingFaceに公開されているPegasus-1の技術レポートをご覧ください!

1 - はじめに

Twelve Labsの目標は、革新的なマルチモーダルAIモデルの作成を通じて、ビデオ理解を進化させることです。以前の投稿「Video-to-TextとPegasus-1 (80B)の紹介」では、Pegasus-1のアルファ版を紹介しました。この基盤モデルは、ビデオ入力から説明的なテキストを生成できます。本日、Pegasus-1のオープンベータ版のリリースを発表できることを嬉しく思います。

Pegasus-1は、複雑なビデオコンテンツを理解し表現するように設計されており、マルチメディアとの対話や分析の方法を変革します。約170億のパラメータを持つこのモデルは、マルチモーダルAIにおける重要な進歩です。ビデオ入力から非常に高い精度と詳細さで言語を処理し、生成することができます。

このアップデートでは、アルファ版リリース以降にPegasus-1に加えられた機能向上について説明します。これには、データ品質、ビデオ処理、およびトレーニング方法の改善が含まれます。また、主要な商用モデルやオープンソースモデルに対するベンチマーク結果も共有し、ビデオの要約、質問応答、対話においてPegasus-1が優れた性能を発揮することを示します。定量的な指標だけでなく、世界知識の向上や詳細な視覚情報のキャプチャ能力を通じて、Pegasus-1は定性的にも改善されています。

2 - モデルの概要

__wf_reserved_inherit

簡単な振り返りとして、Pegasus-1はビデオコンテンツと言語のギャップを埋めるために設計されたマルチモーダル基盤モデルであり、マシンがビデオ入力に基づいてテキストを解釈し、生成できるようにします。Pegasus-1のアーキテクチャは、主に3つのコンポーネントで構成されています。

  1. ビデオエンコーダーモデルは、ビデオ入力を処理して、ビデオフレームと音声認識(ASR)データの両方から豊富な埋め込みを生成します。これらの埋め込みは、ビデオコンテンツの視覚的および聴覚的な本質を捉える密な表現です。

  2. ビデオと言語のアライメントモデルは、ビデオの埋め込みを対応する言語の埋め込みにマッピングし、ビデオとテキストの表現が整合する共有スペースを作成します。このアライメントは、ビデオで何が見えているかと、それを説明する言語との対応関係をモデルが理解するために不可欠です。

  3. 大規模言語モデル(LLM)デコーダーは、アライメントされた埋め込みとユーザープロンプトを受け取り、一貫性がありコンテキストに適したテキスト出力を生成します。この出力は、説明的な要約から、ビデオコンテンツに関する特定の質問への回答まで多岐にわたります。

アルファ版と比較して、Pegasus-1のオープンベータ版は約170億のパラメータを誇り、ビデオデータに基づいてテキストを解釈・生成するための、コンパクトながらも強力なツールとなっています。

3 - 主な改善点

アルファ版からオープンベータ版への移行に伴い、より正確で詳細なビデオと言語の理解を提供するために、モデルに継続的な改良と強化を加えています。これらの機能向上は、高品質なデータ、最適化されたビデオ処理、そして洗練されたトレーニング技術という3つの重要な要因によってもたらされています。

3.1 - データの改善

これまでの研究結果と同様に、私たちはキャプションの品質と粒度が、単なるデータ量よりもモデルのパフォーマンスに重要な影響を与えることを見出しました。たとえば、10万組の高品質なビデオとテキストのペアでトレーニングされたPegasus-1は、低品質なキャプションを含むはるかに大規模なデータセット(1,000万以上)でトレーニングされた同じアーキテクチャよりも、容易に優れた性能を示します。

この実験的なエビデンスを念頭に置き、私たちは前述の1,000万以上のビデオに対して高品質なビデオキャプションを作成するための、効率的なデータアノテーションパイプラインを設計しました。このように膨大な量の高品質なビデオとテキストのペアでトレーニングを行うことで、Pegasusは他のモデルには見られない基本的なビデオ理解能力を獲得しています。

3.2 - ビデオ処理の改善

空間解像度と時間解像度の両方を最適化するため、ビデオ処理パイプラインを大幅に変更しました。1フレームあたりのパッチ数を10倍に増やし(空間的)、フレーム数を1.5倍に増やした(時間的)結果、ビデオ全体のパッチ総数は15倍になりました。この強化により、Pegasus-1は1フレームあたりにより多くの情報を捉えて伝えることができます。

Pegasus-1は、特に質問応答のデータセットでの定性的および定量的な分析で実証されているように、ビデオ全体ののストーリーと文脈を、より一貫性を持って把握できるようになりました。

3.3 - トレーニングの改善

Pegasus-1は、マルチモーダル基盤モデルとして、複数のステージにわたって大規模なマルチモーダルデータセットでトレーニングされます。しかし、複数ステージのトレーニングは、一般的に「破滅的忘却」と呼ばれる現象に悩まされます。これは、モデルが新しい情報を学習した際に、それまでにトレーニングされていた古い情報を急速に忘れてしまう現象です。この問題は、モダリティを超えて順次トレーニングを行うマルチモーダルモデルにおいて、より深刻なものとなります。

これに対処するため、私たちは複数のステージを含む戦略的なトレーニング計画を採用しています。各ステージは、新しい知識の獲得と、以前に学習した情報の保持のバランスをとるよう、綿密に設計されています。このアプローチの鍵は、モデルパラメータの選択的な部分更新(アンフリーズ)と、トレーニングプロセス全体を通じた学習率の慎重な調整にあります。

Pegasus-1のオープンベータ版は、アルファ版と比較して、細かな時間的イベントを捉える能力の向上やハルシネーションの減少といった強化された機能を備えており、その結果、多様なビデオ領域にわたる堅牢性が向上しています。また、世界知識の拡大や、単一のシーンに集中するのではなく、さまざまな瞬間を時間の順序に従ってリストアップする能力の向上も示しています。

4 - 定量的なベンチマーク結果

__wf_reserved_inherit

徹底的なベンチマーク評価において、Pegasus-1は商用モデルおよびオープンソースモデルの両方と比較されてきました。このセクションでは、さまざまなビデオと言語のモデリングタスクにおいて、Pegasus-1と競合モデルとの比較におけるパフォーマンスを解説します。

4.1 - ベースラインモデル

Pegasus-1のベンチマーク対象となったベースラインモデルは、以下の通りです。

  • Gemini Pro (1.5): 強力なビデオと言語の機能を備えることで知られるGoogle DeepMindの商用マルチモーダルモデルです。2023年11月にリリースされ、最も新しくは2024年2月にアップデートされました。ここでは最新バージョンのGemini Pro 1.5と比較しています。

  • Whisper + ChatGPT-3.5 (OpenAI): この組み合わせは、ビデオ要約に対して広く採用されている数少ないアプローチの1つです。最先端の音声テキスト変換技術と大規模言語モデルを活用することで、主にビデオの音声コンテンツから要約が生成されます。重大な欠点は、ビデオ内の貴重な視覚情報が見落とされることです。

  • ベンダーAのSummary API:音声およびビデオの要約生成で広く採用されている商用製品です。ベンダーAのSummary APIは、音声文字起こしデータと言語モデル(ASR+ChatGPT3.5に類似)のみに依存してビデオの要約を出力していると見られます。

  • Video-ChatGPT: Maazら(2023年6月)によって開発された、チャットインターフェースを持つビデオ言語モデルです。このモデルはビデオフレームを処理して、ビデオ内の視覚的イベントをキャプチャします。なお、ビデオ内の会話情報は利用していません。

  • VideoChat2: Liら(2023年11月)によって開発された、最先端のオープンソースマルチモーダルLLMです。多様なインストラクションチューニング(指示調整)データを用いた進歩的なマルチモーダルトレーニングを採用しています。

今回の比較では、LLaVAGPT-4Vのような画像ベースのビジョン・言語モデルは意図的に除外しました。これらのモデルにはネイティブなビデオ処理機能が欠けており、今回の評価タスクにおいてそれが不可欠な要件であるためです。具体的には、以下のような限界があります。

  • これらのモデルの多くは単一の画像しか参照できず、ほとんどのビデオベンチマークデータセットで低いパフォーマンスしか発揮できません。

  • 一部のモデル(GPT-4Vなど)は複数の画像を同時に見ることができますが、一度に処理できるのはビデオの数フレーム(10フレーム以下)のみであり、1分を超えるほとんどのビデオを処理するには不十分です。

  • 画像ベースのモデルは、特にビデオコンテンツのダイナミックで流動的な性質を扱う際に限界を示します。入力を一貫したビデオとしてではなく、一連の画像として処理する場合、これらを十分に捉えることができません。

  • さらに、これらのモデルがビデオを処理するのに要する時間は、実世界のアプリケーションにおいて非現実的なほど長くなります。これは、ビデオ内の展開するストーリーやアクションを理解する上で不可欠である、ビデオの時間軸を効率的に処理するメカニズムが不足しているためです。

4.2 - ビデオ質問応答(Video QA)の結果

__wf_reserved_inherit

ビデオ質問応答タスクにおいて、ActivityNet-QANExT-QAの両データセットにおけるPegasus-1のゼロショット(未知のタスクに対する)パフォーマンスは特に注目に値します。Pegasus-1は、タスク固有のトレーニングを施すことなく、多様なビデオを一般化して理解し、ビデオに関連する質問に正確に答える驚異的な能力を示しています。

4.3 - ビデオ会話の結果

__wf_reserved_inherit

Video-ChatGPTベンチマーク(QEFVCとしても知られる)の結果は、ビデオ会話の処理におけるPegasus-1の卓越した能力を浮き彫りにしています。Pegasus-1は、「正確性」、「詳細さ」、「コンテキスト」、「時間的理解」、「一貫性」を示すスコアで他をリードしています。特に、正確性で3.79、詳細さで4.29を記録し、ビデオ会話とその中で発生する文脈に対する極めて高度な理解力を示しました。

4.4 - ビデオ要約の結果

__wf_reserved_inherit

最後に、Pegasus-1はビデオの要約作成においても優れたパフォーマンスを発揮しました。MSR-VTTデータセットを用いてVideoChatGPTベンチマークのスコアリングスキーム(要約という目的上、「時間的理解」と「一貫性」は省略)に基づき、Pegasus-1と競合モデルを比較しました。上記のように、Pegasus-1はすべての指標において、ベースラインモデルを大きく上回っています。

これらのベンチマークを通じて、Pegasus-1はビデオと言語のモデリング分野において強力な競合モデルとしての地位を確立し、ビデオ理解タスクにおけるゼロショットパフォーマンスと汎化性能の新たな基準を打ち立てました。

5 - 定性的な事例

以下は、Pegasus-1の能力を示すために、さまざまな領域からランダムに選択されたサンプル事例です。

Eラーニングビデオ

生成されたタイトル

テントの組み立て:カナダ国定公園で楽しむキャンプのステップバイステップガイド

生成されたトピック

キャンプ:カナダ国定公園でのテントの設営と固定

生成されたハッシュタグ

#キャンプ、#テント、#設営、#ファイアピット、#防犯、#キャンプを学ぶ、#カナダ国定公園

生成された章

ステップ1:設営 00:00:00 - 00:00:08

キャンプサイトを選び、テントを組み立てる。

ステップ2:ファイアピットの作成 00:00:09 - 00:00:36

調理や暖をとるためのファイアピットを作る。

ステップ3:テントの組み立て 00:00:37 - 00:01:14

テントを広げて配置する。

ステップ4:固定 00:01:14 - 00:01:48

テントを地面に固定する。

ステップ5:フライシートの取り付け 00:01:49 - 00:01:54

テントにレインフライを取り付ける。

ステップ6:快適さの追求 00:01:55 - 00:02:16

テント内に寝具やその他のギアを整える。

ステップ7:テントの撤去 00:02:17 - 00:02:30

テントを解体して収納する。

ステップ8:パッキング 00:02:31 - 00:02:58

テントを折りたたんでキャリーケースに保管する。

ステップ9:プログラムの案内 00:03:00 - 00:03:06

カナダ国定公園の教育プログラムを紹介する。



広告ビデオ

カスタムプロンプトに基づく回答生成

プロンプト:この広告がどのように表情を利用してメッセージを伝えているか分析してください。

出力結果:この広告は、ブランドに関連するエレガンス、喜び、ラグジュアリーといったメッセージを効果的に伝えるために、表情を戦略的に活用しています。広告に登場するモデルたちは自信に満ちた温かい笑みを浮かべて描かれており、ブルガリのジュエリーが幸福をもたらし、身につける人の美しさを引き立てることを暗示しています。これらの表情はポジティブな印象を与え、視聴者との感情的なつながりを生み出します。

さらに、モデルたちの落ち着いていて凛とした表情は、ブランドのタイムレスで洗練された性質を反映しています。モデルの表情にフォーカスしたクローズアップショットを通じてジュエリーを紹介することで、広告は製品とそこに映し出されるポジティブな感情との結びつきを強調しています。この技術は、視聴者に憧れや欲しいという感情を呼び起こし、ブランドを高級感や優雅さと結びつけることを意図しています。

ビデオの基本的な描写から、この広告は女性がさまざまなシチュエーションでブルガリの多様なジュエリーを披露していると推測できます。ビデオは女性が木の横に立ち、ネックレスとイヤリングを身につけているシーンから始まり、幹にはブルガリのロゴが見えます。次に、彼女は別のドレスを着て、同じネックレスをつけて木立ちの並ぶドライブウェイを歩いているのが見られます。シーンは豪華な室内に移り、女性が指輪、ブレスレット、大ぶりのペンダント付きネックレスを眺めたり、身につけたりしている様子が描かれます。

ビデオにはクジャクとクジャクの羽のシーンも含まれており、これらはラグジュアリーとエレガンスを象徴していると考えられます。ビデオの終盤では、女性に別のモデルが加わり、両者ともブルガリのジュエリーを身につけています。広告は、ブルガリのロゴとともに「Wonderful Extravaganza」および「Bvlgari Rome」という文字で締めくくられ、広告に関連するブランド名とロケーションを示しています。

要約すると、この広告は表情を効果的に利用して、エレガンス、喜び、ラグジュアリーのメッセージを伝えています。ジュエリーを身につけたモデルたちの自信に満ちた温かい笑みと、顔のクローズアップショットが視聴者との感情的なつながりを生み出しています。豪華なセットやクジャクのシンボリズムなど、広告全体の視覚的要素が、ブランドのエレガンスと洗練されたイメージをさらに高めています。



映画予告編ビデオ

カスタムプロンプトに基づく回答生成

プロンプト:このビデオを小さな子供たちにお勧めしますか?

出力結果:ビデオの包括的な分析に基づくと、このビデオを小さな子供たちにお勧めすることはできません。このビデオには、幼い視聴者には適さない激しいアクションシーン、暴力、成人向けのテーマが含まれています。視覚的な情報から、このビデオはスリリングでアクション満載のストーリーを持つ映画またはテレビシリーズの予告編であることが伺えます。

ビデオは燃えるようなオレンジ色のタイトルカードで始まり、キャンドルに照らされた教会の内部のダークで雰囲気のあるシーンへと移ります。スーツを着た男性が通路を歩いており、その後に同様のスーツを着た別の男性が続いています。このシーンに続いて、女性と男性が熱烈に抱き合っており、ストーリーにロマンチックな要素があることを暗示しています。

予告編全体を通じて、アクションとサスペンスを予感させるさまざまなシチュエーションやシーンがあります。これらには、2人の男性の対峙、懐中時計を見つめながらの思索の瞬間、キャラクター間の緊迫したやり取り、夜の街を駆け抜ける高速チェイスなどが含まれます。また、爆発から立ち去る男たちの姿や、砂漠の風景も垣間見えます。これらの要素は、幼い子供にはふさわしくない過激なアクションシークエンスを示しています。

さらに、男性が銃を見つめているシーンがあり、ストーリー内で暴力や衝突が生じる可能性を示唆しています。予告編は、夕暮れ時のエッフェル塔のショットと2人の男の対峙で締めくくられ、その後「IN MARC A DANCER」というタイトルと「MARCH 24(3月24日)」という公開日が表示されます。

要約すると、このビデオには激しいアクションシーン、暴力、成人向けテーマが含まれており、小さな子供には適していません。これは、映画またはテレビシリーズのスリリングでアクション満載の予告編です。



6 - 制限事項

安全性とバイアス:Pegasus-1は安全メカニズムを備えるよう設計されていますが、他のAIモデルと同様に、適切な監視と規制なしでは、有害または不適切と見なされるコンテンツを生成するリスクが存在します。ビデオ基盤モデルに関する倫理的および安全対策への理解は現在も進められているところです。テストを継続しフィードバックを収集する中で、詳細な評価および倫理レポートを公開する予定です。

ビデオの時間制限:現在APIがサポートしているのは、長さ4秒から20分までのビデオです。この制限は計算およびメモリ上の制約によるものであり、大規模なビデオデータを扱う際の一般的な技術的課題です。結果として、モデルの機能を最大限に活用するために、ユーザーは長いビデオをより細かく分割して入力する必要がある場合があります。今後のリリースで、より長時間のビデオに対するネイティブサポートに取り組んでいきます。

ハルシネーション:Pegasus-1は、時折不正確な出力を生成することがあります。ハルシネーション(もっともらしい嘘)を減少させるためにアルファ版から改良を重ねていますが、特に高い精度が求められ、事実の正確性が極めて重要となるタスクで利用する場合には、ユーザーはこの制限に留意する必要があります。

7 - おわりに

Pegasus-1のアルファ版からベータ版への道のりは、大幅な機能の向上によって彩られてきました。トレーニングデータの品質、ビデオ処理能力、および高度なトレーニング技術における実直な改善により、ビデオコンテンツをより深く理解するだけでなく、これまで到達できなかった洗練されたレベルで会話のコンテキストに応答するモデルが誕生しました。

ベンチマーク結果が示す通り、Pegasus-1は業界の最前線に位置しており、GoogleのGemini Proのような既存の確立されたモデルを凌駕し、ビデオのQAおよびビデオ会話のフレームワークにおいて新たな基準を打ち立てています。これらの定量的な成果に加え、世界知識や詳細認識における定性的な向上は、Pegasus-1が持つ変革の可能性を示しています。

安全性に関する懸念、ビデオの長さに関する制約、時折生じるハルシネーションなど、Pegasus-1の限界も認識していますが、それらは現在進行形で研究開発が進められている領域です。私たちはビデオ理解テクノロジーの限界を押し広げることを目指し、Pegasus-1の継続的な改善に揺るぎなく取り組んでいます。

Twelve Labs チーム

これは、モデルとデータ(「core」は主要な貢献者を示します)、エンジニアリング、プロダクト、ビジネスデベロップメントを含む複数の機能グループにわたる共同チームの成果です(名はアルファベット順)。

モデル:Aiden Lee、Cooper Han、Flynn Jang (core)、Jae Lee、Jay Yi (core)、Jeff Kim、Jeremy Kim、Kyle Park、Lucas Lee、Mars Ha、Minjoon Seo、Ray Jung (core)、William Go (core)

データ:Daniel Kim (core)、Jay Suh (core)

デプロイメント:Abraham Jo、Ed Park、Hassan Kianinejad、SJ Kim、Tony Moon、Wade Jeong

プロダクト:Andrei Popescu、Esther Kim、EK Yoon、Genie Heo、Henry Choi、Jenna Kang、Kevin Han、Noah Seo、Sunny Nguyen、Ryan Won、Yeonhoo Park

ビジネス&オペレーション:Anthony Giuliani、Dave Chung、Hans Yoon、James Le、Jenny Ahn、June Lee、Maninder Saini、Meredith Sanders、Soyoung Lee、Sue Kim、Travis Couture

リソース一覧:

  1. APIの登録およびハンズオン体験のリンク

  2. APIドキュメントへのリンク

  3. 他のユーザーや開発者とつながるためのDiscordコミュニティへのリンク

研究や業務でこのモデルを使用する場合は、以下のBibTeX引用を使用し、著者としてTwelve Labsを指定してください。

@misc{pegasus-1-beta,  author = {Twelve Labs Team},  title = {Pegasus-1 Open Beta: Setting New Standards in Video-Language Modeling},  url = {https://www.twelvelabs.io/blog/pegasus-1-beta},  year = {2024}}}

arXiVHuggingFaceに公開されているPegasus-1の技術レポートをご覧ください!

1 - はじめに

Twelve Labsの目標は、革新的なマルチモーダルAIモデルの作成を通じて、ビデオ理解を進化させることです。以前の投稿「Video-to-TextとPegasus-1 (80B)の紹介」では、Pegasus-1のアルファ版を紹介しました。この基盤モデルは、ビデオ入力から説明的なテキストを生成できます。本日、Pegasus-1のオープンベータ版のリリースを発表できることを嬉しく思います。

Pegasus-1は、複雑なビデオコンテンツを理解し表現するように設計されており、マルチメディアとの対話や分析の方法を変革します。約170億のパラメータを持つこのモデルは、マルチモーダルAIにおける重要な進歩です。ビデオ入力から非常に高い精度と詳細さで言語を処理し、生成することができます。

このアップデートでは、アルファ版リリース以降にPegasus-1に加えられた機能向上について説明します。これには、データ品質、ビデオ処理、およびトレーニング方法の改善が含まれます。また、主要な商用モデルやオープンソースモデルに対するベンチマーク結果も共有し、ビデオの要約、質問応答、対話においてPegasus-1が優れた性能を発揮することを示します。定量的な指標だけでなく、世界知識の向上や詳細な視覚情報のキャプチャ能力を通じて、Pegasus-1は定性的にも改善されています。

2 - モデルの概要

__wf_reserved_inherit

簡単な振り返りとして、Pegasus-1はビデオコンテンツと言語のギャップを埋めるために設計されたマルチモーダル基盤モデルであり、マシンがビデオ入力に基づいてテキストを解釈し、生成できるようにします。Pegasus-1のアーキテクチャは、主に3つのコンポーネントで構成されています。

  1. ビデオエンコーダーモデルは、ビデオ入力を処理して、ビデオフレームと音声認識(ASR)データの両方から豊富な埋め込みを生成します。これらの埋め込みは、ビデオコンテンツの視覚的および聴覚的な本質を捉える密な表現です。

  2. ビデオと言語のアライメントモデルは、ビデオの埋め込みを対応する言語の埋め込みにマッピングし、ビデオとテキストの表現が整合する共有スペースを作成します。このアライメントは、ビデオで何が見えているかと、それを説明する言語との対応関係をモデルが理解するために不可欠です。

  3. 大規模言語モデル(LLM)デコーダーは、アライメントされた埋め込みとユーザープロンプトを受け取り、一貫性がありコンテキストに適したテキスト出力を生成します。この出力は、説明的な要約から、ビデオコンテンツに関する特定の質問への回答まで多岐にわたります。

アルファ版と比較して、Pegasus-1のオープンベータ版は約170億のパラメータを誇り、ビデオデータに基づいてテキストを解釈・生成するための、コンパクトながらも強力なツールとなっています。

3 - 主な改善点

アルファ版からオープンベータ版への移行に伴い、より正確で詳細なビデオと言語の理解を提供するために、モデルに継続的な改良と強化を加えています。これらの機能向上は、高品質なデータ、最適化されたビデオ処理、そして洗練されたトレーニング技術という3つの重要な要因によってもたらされています。

3.1 - データの改善

これまでの研究結果と同様に、私たちはキャプションの品質と粒度が、単なるデータ量よりもモデルのパフォーマンスに重要な影響を与えることを見出しました。たとえば、10万組の高品質なビデオとテキストのペアでトレーニングされたPegasus-1は、低品質なキャプションを含むはるかに大規模なデータセット(1,000万以上)でトレーニングされた同じアーキテクチャよりも、容易に優れた性能を示します。

この実験的なエビデンスを念頭に置き、私たちは前述の1,000万以上のビデオに対して高品質なビデオキャプションを作成するための、効率的なデータアノテーションパイプラインを設計しました。このように膨大な量の高品質なビデオとテキストのペアでトレーニングを行うことで、Pegasusは他のモデルには見られない基本的なビデオ理解能力を獲得しています。

3.2 - ビデオ処理の改善

空間解像度と時間解像度の両方を最適化するため、ビデオ処理パイプラインを大幅に変更しました。1フレームあたりのパッチ数を10倍に増やし(空間的)、フレーム数を1.5倍に増やした(時間的)結果、ビデオ全体のパッチ総数は15倍になりました。この強化により、Pegasus-1は1フレームあたりにより多くの情報を捉えて伝えることができます。

Pegasus-1は、特に質問応答のデータセットでの定性的および定量的な分析で実証されているように、ビデオ全体ののストーリーと文脈を、より一貫性を持って把握できるようになりました。

3.3 - トレーニングの改善

Pegasus-1は、マルチモーダル基盤モデルとして、複数のステージにわたって大規模なマルチモーダルデータセットでトレーニングされます。しかし、複数ステージのトレーニングは、一般的に「破滅的忘却」と呼ばれる現象に悩まされます。これは、モデルが新しい情報を学習した際に、それまでにトレーニングされていた古い情報を急速に忘れてしまう現象です。この問題は、モダリティを超えて順次トレーニングを行うマルチモーダルモデルにおいて、より深刻なものとなります。

これに対処するため、私たちは複数のステージを含む戦略的なトレーニング計画を採用しています。各ステージは、新しい知識の獲得と、以前に学習した情報の保持のバランスをとるよう、綿密に設計されています。このアプローチの鍵は、モデルパラメータの選択的な部分更新(アンフリーズ)と、トレーニングプロセス全体を通じた学習率の慎重な調整にあります。

Pegasus-1のオープンベータ版は、アルファ版と比較して、細かな時間的イベントを捉える能力の向上やハルシネーションの減少といった強化された機能を備えており、その結果、多様なビデオ領域にわたる堅牢性が向上しています。また、世界知識の拡大や、単一のシーンに集中するのではなく、さまざまな瞬間を時間の順序に従ってリストアップする能力の向上も示しています。

4 - 定量的なベンチマーク結果

__wf_reserved_inherit

徹底的なベンチマーク評価において、Pegasus-1は商用モデルおよびオープンソースモデルの両方と比較されてきました。このセクションでは、さまざまなビデオと言語のモデリングタスクにおいて、Pegasus-1と競合モデルとの比較におけるパフォーマンスを解説します。

4.1 - ベースラインモデル

Pegasus-1のベンチマーク対象となったベースラインモデルは、以下の通りです。

  • Gemini Pro (1.5): 強力なビデオと言語の機能を備えることで知られるGoogle DeepMindの商用マルチモーダルモデルです。2023年11月にリリースされ、最も新しくは2024年2月にアップデートされました。ここでは最新バージョンのGemini Pro 1.5と比較しています。

  • Whisper + ChatGPT-3.5 (OpenAI): この組み合わせは、ビデオ要約に対して広く採用されている数少ないアプローチの1つです。最先端の音声テキスト変換技術と大規模言語モデルを活用することで、主にビデオの音声コンテンツから要約が生成されます。重大な欠点は、ビデオ内の貴重な視覚情報が見落とされることです。

  • ベンダーAのSummary API:音声およびビデオの要約生成で広く採用されている商用製品です。ベンダーAのSummary APIは、音声文字起こしデータと言語モデル(ASR+ChatGPT3.5に類似)のみに依存してビデオの要約を出力していると見られます。

  • Video-ChatGPT: Maazら(2023年6月)によって開発された、チャットインターフェースを持つビデオ言語モデルです。このモデルはビデオフレームを処理して、ビデオ内の視覚的イベントをキャプチャします。なお、ビデオ内の会話情報は利用していません。

  • VideoChat2: Liら(2023年11月)によって開発された、最先端のオープンソースマルチモーダルLLMです。多様なインストラクションチューニング(指示調整)データを用いた進歩的なマルチモーダルトレーニングを採用しています。

今回の比較では、LLaVAGPT-4Vのような画像ベースのビジョン・言語モデルは意図的に除外しました。これらのモデルにはネイティブなビデオ処理機能が欠けており、今回の評価タスクにおいてそれが不可欠な要件であるためです。具体的には、以下のような限界があります。

  • これらのモデルの多くは単一の画像しか参照できず、ほとんどのビデオベンチマークデータセットで低いパフォーマンスしか発揮できません。

  • 一部のモデル(GPT-4Vなど)は複数の画像を同時に見ることができますが、一度に処理できるのはビデオの数フレーム(10フレーム以下)のみであり、1分を超えるほとんどのビデオを処理するには不十分です。

  • 画像ベースのモデルは、特にビデオコンテンツのダイナミックで流動的な性質を扱う際に限界を示します。入力を一貫したビデオとしてではなく、一連の画像として処理する場合、これらを十分に捉えることができません。

  • さらに、これらのモデルがビデオを処理するのに要する時間は、実世界のアプリケーションにおいて非現実的なほど長くなります。これは、ビデオ内の展開するストーリーやアクションを理解する上で不可欠である、ビデオの時間軸を効率的に処理するメカニズムが不足しているためです。

4.2 - ビデオ質問応答(Video QA)の結果

__wf_reserved_inherit

ビデオ質問応答タスクにおいて、ActivityNet-QANExT-QAの両データセットにおけるPegasus-1のゼロショット(未知のタスクに対する)パフォーマンスは特に注目に値します。Pegasus-1は、タスク固有のトレーニングを施すことなく、多様なビデオを一般化して理解し、ビデオに関連する質問に正確に答える驚異的な能力を示しています。

4.3 - ビデオ会話の結果

__wf_reserved_inherit

Video-ChatGPTベンチマーク(QEFVCとしても知られる)の結果は、ビデオ会話の処理におけるPegasus-1の卓越した能力を浮き彫りにしています。Pegasus-1は、「正確性」、「詳細さ」、「コンテキスト」、「時間的理解」、「一貫性」を示すスコアで他をリードしています。特に、正確性で3.79、詳細さで4.29を記録し、ビデオ会話とその中で発生する文脈に対する極めて高度な理解力を示しました。

4.4 - ビデオ要約の結果

__wf_reserved_inherit

最後に、Pegasus-1はビデオの要約作成においても優れたパフォーマンスを発揮しました。MSR-VTTデータセットを用いてVideoChatGPTベンチマークのスコアリングスキーム(要約という目的上、「時間的理解」と「一貫性」は省略)に基づき、Pegasus-1と競合モデルを比較しました。上記のように、Pegasus-1はすべての指標において、ベースラインモデルを大きく上回っています。

これらのベンチマークを通じて、Pegasus-1はビデオと言語のモデリング分野において強力な競合モデルとしての地位を確立し、ビデオ理解タスクにおけるゼロショットパフォーマンスと汎化性能の新たな基準を打ち立てました。

5 - 定性的な事例

以下は、Pegasus-1の能力を示すために、さまざまな領域からランダムに選択されたサンプル事例です。

Eラーニングビデオ

生成されたタイトル

テントの組み立て:カナダ国定公園で楽しむキャンプのステップバイステップガイド

生成されたトピック

キャンプ:カナダ国定公園でのテントの設営と固定

生成されたハッシュタグ

#キャンプ、#テント、#設営、#ファイアピット、#防犯、#キャンプを学ぶ、#カナダ国定公園

生成された章

ステップ1:設営 00:00:00 - 00:00:08

キャンプサイトを選び、テントを組み立てる。

ステップ2:ファイアピットの作成 00:00:09 - 00:00:36

調理や暖をとるためのファイアピットを作る。

ステップ3:テントの組み立て 00:00:37 - 00:01:14

テントを広げて配置する。

ステップ4:固定 00:01:14 - 00:01:48

テントを地面に固定する。

ステップ5:フライシートの取り付け 00:01:49 - 00:01:54

テントにレインフライを取り付ける。

ステップ6:快適さの追求 00:01:55 - 00:02:16

テント内に寝具やその他のギアを整える。

ステップ7:テントの撤去 00:02:17 - 00:02:30

テントを解体して収納する。

ステップ8:パッキング 00:02:31 - 00:02:58

テントを折りたたんでキャリーケースに保管する。

ステップ9:プログラムの案内 00:03:00 - 00:03:06

カナダ国定公園の教育プログラムを紹介する。



広告ビデオ

カスタムプロンプトに基づく回答生成

プロンプト:この広告がどのように表情を利用してメッセージを伝えているか分析してください。

出力結果:この広告は、ブランドに関連するエレガンス、喜び、ラグジュアリーといったメッセージを効果的に伝えるために、表情を戦略的に活用しています。広告に登場するモデルたちは自信に満ちた温かい笑みを浮かべて描かれており、ブルガリのジュエリーが幸福をもたらし、身につける人の美しさを引き立てることを暗示しています。これらの表情はポジティブな印象を与え、視聴者との感情的なつながりを生み出します。

さらに、モデルたちの落ち着いていて凛とした表情は、ブランドのタイムレスで洗練された性質を反映しています。モデルの表情にフォーカスしたクローズアップショットを通じてジュエリーを紹介することで、広告は製品とそこに映し出されるポジティブな感情との結びつきを強調しています。この技術は、視聴者に憧れや欲しいという感情を呼び起こし、ブランドを高級感や優雅さと結びつけることを意図しています。

ビデオの基本的な描写から、この広告は女性がさまざまなシチュエーションでブルガリの多様なジュエリーを披露していると推測できます。ビデオは女性が木の横に立ち、ネックレスとイヤリングを身につけているシーンから始まり、幹にはブルガリのロゴが見えます。次に、彼女は別のドレスを着て、同じネックレスをつけて木立ちの並ぶドライブウェイを歩いているのが見られます。シーンは豪華な室内に移り、女性が指輪、ブレスレット、大ぶりのペンダント付きネックレスを眺めたり、身につけたりしている様子が描かれます。

ビデオにはクジャクとクジャクの羽のシーンも含まれており、これらはラグジュアリーとエレガンスを象徴していると考えられます。ビデオの終盤では、女性に別のモデルが加わり、両者ともブルガリのジュエリーを身につけています。広告は、ブルガリのロゴとともに「Wonderful Extravaganza」および「Bvlgari Rome」という文字で締めくくられ、広告に関連するブランド名とロケーションを示しています。

要約すると、この広告は表情を効果的に利用して、エレガンス、喜び、ラグジュアリーのメッセージを伝えています。ジュエリーを身につけたモデルたちの自信に満ちた温かい笑みと、顔のクローズアップショットが視聴者との感情的なつながりを生み出しています。豪華なセットやクジャクのシンボリズムなど、広告全体の視覚的要素が、ブランドのエレガンスと洗練されたイメージをさらに高めています。



映画予告編ビデオ

カスタムプロンプトに基づく回答生成

プロンプト:このビデオを小さな子供たちにお勧めしますか?

出力結果:ビデオの包括的な分析に基づくと、このビデオを小さな子供たちにお勧めすることはできません。このビデオには、幼い視聴者には適さない激しいアクションシーン、暴力、成人向けのテーマが含まれています。視覚的な情報から、このビデオはスリリングでアクション満載のストーリーを持つ映画またはテレビシリーズの予告編であることが伺えます。

ビデオは燃えるようなオレンジ色のタイトルカードで始まり、キャンドルに照らされた教会の内部のダークで雰囲気のあるシーンへと移ります。スーツを着た男性が通路を歩いており、その後に同様のスーツを着た別の男性が続いています。このシーンに続いて、女性と男性が熱烈に抱き合っており、ストーリーにロマンチックな要素があることを暗示しています。

予告編全体を通じて、アクションとサスペンスを予感させるさまざまなシチュエーションやシーンがあります。これらには、2人の男性の対峙、懐中時計を見つめながらの思索の瞬間、キャラクター間の緊迫したやり取り、夜の街を駆け抜ける高速チェイスなどが含まれます。また、爆発から立ち去る男たちの姿や、砂漠の風景も垣間見えます。これらの要素は、幼い子供にはふさわしくない過激なアクションシークエンスを示しています。

さらに、男性が銃を見つめているシーンがあり、ストーリー内で暴力や衝突が生じる可能性を示唆しています。予告編は、夕暮れ時のエッフェル塔のショットと2人の男の対峙で締めくくられ、その後「IN MARC A DANCER」というタイトルと「MARCH 24(3月24日)」という公開日が表示されます。

要約すると、このビデオには激しいアクションシーン、暴力、成人向けテーマが含まれており、小さな子供には適していません。これは、映画またはテレビシリーズのスリリングでアクション満載の予告編です。



6 - 制限事項

安全性とバイアス:Pegasus-1は安全メカニズムを備えるよう設計されていますが、他のAIモデルと同様に、適切な監視と規制なしでは、有害または不適切と見なされるコンテンツを生成するリスクが存在します。ビデオ基盤モデルに関する倫理的および安全対策への理解は現在も進められているところです。テストを継続しフィードバックを収集する中で、詳細な評価および倫理レポートを公開する予定です。

ビデオの時間制限:現在APIがサポートしているのは、長さ4秒から20分までのビデオです。この制限は計算およびメモリ上の制約によるものであり、大規模なビデオデータを扱う際の一般的な技術的課題です。結果として、モデルの機能を最大限に活用するために、ユーザーは長いビデオをより細かく分割して入力する必要がある場合があります。今後のリリースで、より長時間のビデオに対するネイティブサポートに取り組んでいきます。

ハルシネーション:Pegasus-1は、時折不正確な出力を生成することがあります。ハルシネーション(もっともらしい嘘)を減少させるためにアルファ版から改良を重ねていますが、特に高い精度が求められ、事実の正確性が極めて重要となるタスクで利用する場合には、ユーザーはこの制限に留意する必要があります。

7 - おわりに

Pegasus-1のアルファ版からベータ版への道のりは、大幅な機能の向上によって彩られてきました。トレーニングデータの品質、ビデオ処理能力、および高度なトレーニング技術における実直な改善により、ビデオコンテンツをより深く理解するだけでなく、これまで到達できなかった洗練されたレベルで会話のコンテキストに応答するモデルが誕生しました。

ベンチマーク結果が示す通り、Pegasus-1は業界の最前線に位置しており、GoogleのGemini Proのような既存の確立されたモデルを凌駕し、ビデオのQAおよびビデオ会話のフレームワークにおいて新たな基準を打ち立てています。これらの定量的な成果に加え、世界知識や詳細認識における定性的な向上は、Pegasus-1が持つ変革の可能性を示しています。

安全性に関する懸念、ビデオの長さに関する制約、時折生じるハルシネーションなど、Pegasus-1の限界も認識していますが、それらは現在進行形で研究開発が進められている領域です。私たちはビデオ理解テクノロジーの限界を押し広げることを目指し、Pegasus-1の継続的な改善に揺るぎなく取り組んでいます。

Twelve Labs チーム

これは、モデルとデータ(「core」は主要な貢献者を示します)、エンジニアリング、プロダクト、ビジネスデベロップメントを含む複数の機能グループにわたる共同チームの成果です(名はアルファベット順)。

モデル:Aiden Lee、Cooper Han、Flynn Jang (core)、Jae Lee、Jay Yi (core)、Jeff Kim、Jeremy Kim、Kyle Park、Lucas Lee、Mars Ha、Minjoon Seo、Ray Jung (core)、William Go (core)

データ:Daniel Kim (core)、Jay Suh (core)

デプロイメント:Abraham Jo、Ed Park、Hassan Kianinejad、SJ Kim、Tony Moon、Wade Jeong

プロダクト:Andrei Popescu、Esther Kim、EK Yoon、Genie Heo、Henry Choi、Jenna Kang、Kevin Han、Noah Seo、Sunny Nguyen、Ryan Won、Yeonhoo Park

ビジネス&オペレーション:Anthony Giuliani、Dave Chung、Hans Yoon、James Le、Jenny Ahn、June Lee、Maninder Saini、Meredith Sanders、Soyoung Lee、Sue Kim、Travis Couture

リソース一覧:

  1. APIの登録およびハンズオン体験のリンク

  2. APIドキュメントへのリンク

  3. 他のユーザーや開発者とつながるためのDiscordコミュニティへのリンク

研究や業務でこのモデルを使用する場合は、以下のBibTeX引用を使用し、著者としてTwelve Labsを指定してください。

@misc{pegasus-1-beta,  author = {Twelve Labs Team},  title = {Pegasus-1 Open Beta: Setting New Standards in Video-Language Modeling},  url = {https://www.twelvelabs.io/blog/pegasus-1-beta},  year = {2024}}}