商品
Video-To-Text(動画テキスト化)とPegasus-1(80B)のご紹介
エイデン・リー、ジェ・リー
Twelve Labsは、3億以上のビデオとテキストのペアでトレーニングされた800億パラメータのビデオ言語基盤モデル「Pegasus-1」をローンチします。これに合わせて、ビデオ要約のベンチマークにおいて従来の最先端技術を最大61%上回る新しい一連のVideo-to-Text APIも提供開始します。
Twelve Labsは、3億以上のビデオとテキストのペアでトレーニングされた800億パラメータのビデオ言語基盤モデル「Pegasus-1」をローンチします。これに合わせて、ビデオ要約のベンチマークにおいて従来の最先端技術を最大61%上回る新しい一連のVideo-to-Text APIも提供開始します。

この記事の内容
ニュースレターに登録する
ニュースレターに登録する
ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします
ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします
AIを活用してビデオを検索、分析、探索します。
2023/10/23
8分
記事へのリンクをコピー
概要
プロダクト: Twelve Labsは、最新のビデオ言語基盤モデルであるPegasus-1と、新しいVideo-to-Text APIスイート(Gist API、Summary API、Generate API)を発表します。
プロダクトおよび研究哲学: ビデオ理解を画像や音声の理解問題として再構成する多くの既存手法とは異なり、Twelve Labsは「ビデオファースト」戦略を採用し、4つのコア原則(効率的な長尺ビデオ処理、マルチモーダルな理解、ビデオネイティブな埋め込み、ビデオと言語埋め込みの深いアライメント)を掲げています。
新しいモデル: Pegasus-1は約800億(80B)のパラメータを持ち、ビデオエンコーダ、ビデオ言語アライメントモデル、言語デコーダという3つのモデルコンポーネントが共にトレーニングされています。
データセット: Twelve Labsは、厳選された3億件以上の多様なビデオとテキストのペアを収集しました。これは、ビデオ言語基盤モデルのトレーニング用としては世界最大級のビデオ・テキストコーパスです。本技術レポートは、そのうちの10%にあたる3500万件のビデオ・テキストペアと10億件以上の画像・テキストペアからなるサブセットを用いて実施された初期トレーニングランに基づいています。
SOTAビデオ言語モデルとの性能比較: 従来の最先端(SOTA)ビデオ言語モデルと比較して、Pegasus-1は、QEFVC品質スコア(Maaz et al., 2023)で測定した結果、MSR-VTTデータセット(Xu et al., 2016)で61%の相対的な改善、Video Descriptionsデータセット(Maaz et al., 2023)で47%の向上を示しています。当社が提案する評価指標であるVidFactScoreでの評価では、MSR-VTTデータセットで絶対値20%のF1スコア向上、Video Descriptionデータセットで14%の向上を示しました。
ASR+LLMモデルとの性能比較: ASR+LLMは、Video-to-Textタスクに取り組むために広く採用されているアプローチです。Whisper-ChatGPT(OpenAI)および主要な商用ASR+LLM製品と比較して、Pegasus-1はMSR-VTTで79%、Video Descriptionsデータセットで188%優れたパフォーマンスを発揮します。VidFactScore-F1での評価では、MSR-VTTデータセットで絶対値25%の向上、Video Descriptionデータセットで33%の向上を示しています。
Pegasus-1へのAPIアクセス: Pegasusを搭載したVideo-to-Text APIのウェイティングリストのリンクはこちらです。
研究の視野を広げる:ビデオ埋め込みから生成モデルへ

サンフランシスコ・ベイエリアを拠点とするAI研究・プロダクト開発企業であるTwelve Labsは、マルチモーダルなビデオ理解の最前線に立っています。本日、私たちは最新のビデオ言語基盤モデルであるPegasus-1の最先端のビデオ・テキスト生成機能を発表できることを嬉しく思います。これは、さまざまな下流のビデオ理解タスクに合わせてカスタマイズされた包括的なAPIスイートを提供するという、私たちのコミットメントを示すものです。私たちのスイートは、自然言語ベースのビデオモーメント検索から分類、そして今回の最新リリースによるプロンプトベースのビデオ・テキスト生成にまで及びます。
私たちの「ビデオファースト」精神
ビデオデータは、単一のフォーマット内に複数のモダリティを含んでいるため非常に興味深いものです。私たちは、ビデオ理解には、視覚知覚の複雑さと、音声およびテキストの順序的・文脈的なニュアンスを融合させる新しい取り組みが必要であると考えています。優れた画像モデルや言語モデルの台頭に伴い、ビデオ理解の主要なアプローチは、それを画像や音声の理解問題として再構成することでした。一般的なフレームワークでは、ビデオからフレームをサンプリングしてビジョン言語モデルに入力します。
このアプローチは短いビデオには有効かもしれませんが(ほとんどのビジョン言語モデルが1分未満のビデオクリップに焦点を当てているのはそのためです)、現実世界のビデオのほとんどは1分を超え、容易に数時間に及ぶことがあります。このようなビデオに対して単純な「画像ファースト」のアプローチを使用することは、ビデオごとに数万枚の画像を処理することを意味し、結果として、時空間情報の意味論をよくて大まかに捉えているに過ぎない膨大な数の画像・テキスト埋め込みを操作しなければならなくなります。これは、パフォーマンス、レイテンシ、コストの観点から、多くのアプリケーションにおいて不経済です。さらに、主流の設計手法はビデオのマルチモーダルな特性を見落としており、コンテンツを包括的に理解するためには、音声(会話を含む)と視覚要素の両方の共同分析が不可欠です。
ビデオデータの基本的な特性を念頭に置き、Twelve Labsは「ビデオファースト」戦略を採用し、モデル、データ、およびMLシステムをビデオデータの処理と理解のみに焦点を当てて構築しています。 これは、多くのジェネレーティブAIプレイヤーに見られる一般的な「言語/画像ファースト」のアプローチとは対照的です。4つの中心的な原則が当社の「ビデオファースト」精神を支え、ビデオ言語基盤モデルの設計とMLシステムのアーキテクチャの双方を導いています。
効率的な長尺ビデオ処理: 当社のモデルとシステムは、短い10秒のクリップから、数時間に及ぶ膨大なコンテンツまで、多様な長さのビデオを管理できるように最適化されていなければなりません。
マルチモーダルな理解: 当社のモデルは、視覚、音声、およびスピーチ情報を統合できなければなりません。
ビデオネイティブな埋め込み: 空間的な関係に焦点を当てた画像ネイティブな埋め込み(例:CLIP)に依存するのではなく、ビデオの時空間情報を全体的な方法で組み込むことができるビデオネイティブな埋め込みの必要性を信じています。
ビデオネイティブ埋め込みと言語モデルの深いアライメント: 画像とテキストのアライメントを超えて、当社のモデルは、大規模なビデオ・テキストコーパスおよびビデオ・テキスト指示データセットでの広範なトレーニングを通じて、深いビデオ言語アライメントを経なければなりません。
新しいVideo-to-Text機能とインターフェース
デベロッパーは、1回のAPIコールでPegasus-1モデルを促し、ビデオデータから特定のテキスト出力を生成できます。音声からテキストへの変換を利用するか、視覚的なフレームデータのみに依存する既存のソリューションとは異なり、Pegasus-1は視覚、音声、スピーチの情報を統合して、ビデオからより包括的なテキストを生成し、ビデオ要約のベンチマークにおいて新たな最先端のパフォーマンスを達成しています。(下記の「評価と結果」セクションを参照。)

Gist APIとSummary APIにはあらかじめ関連するプロンプトがプリロードされているため、ユーザーがプロンプトを入力しなくても、すぐに使用することができます。Gist APIは、タイトル、トピック、関連ハッシュタグのリストなどの簡潔なテキスト出力を生成できます。Summary APIは、ビデオのサマリー、章、ハイライトを生成するように設計されています。カスタマイズされた出力のために、実験的なGenerate APIを使用すると、ユーザーは箇条書きからレポート、さらにはビデオの内容に基づいたクリエイティブな歌詞に至るまで、特定のフォーマットやスタイルを指定することができます。
例1: Gist APIおよびSummary APIを介してビデオから短いレポートを生成する。

例2: Summary APIにスタイリングプロンプトを渡してビデオサマリーを生成する。

例3: 実験的なGenerate APIによるプロンプト入力で、カスタマイズされたテキスト出力を生成する。

例4: ビデオ内の視覚、音声、発話の手がかりを組み込んだマルチモーダルな理解を実証する。(緑色でハイライト:視覚情報)

Pegasus-1 (80B) モデルの概要

構成モデルの機能と全体的なアーキテクチャ
Pegasus-1モデルは、それぞれビデオネイティブな埋め込み、ビデオと言語がアライメントされた埋め込み、およびテキスト出力を生成するタスクを担う3つの主要コンポーネントを中心に構成されています。
1. ビデオエンコーダモデル - 既存のMarengo埋め込みモデルに由来
入力: ビデオ
出力: ビデオ埋め込み(視覚、音声、スピーチ情報を統合)
機能: ビデオエンコーダの目的は、ビデオから複雑な詳細情報を収集することです。フレームとその時間的関係を評価して関連する視覚情報を取得すると同時に、音声信号とスピーチ情報を処理します。
2. ビデオ言語アライメントモデル
入力: ビデオ埋め込み
出力: ビデオと言語のアライメントが取れた埋め込み
機能: アライメントモデルの主なタスクは、ビデオ埋め込みと言語モデルのドメインを架橋することです。これにより、言語モデルがテキストトークンを理解するのと同じように、ビデオ埋め込みを解釈できるようになります。
3. 大規模言語モデル - デコーダモデル
入力: ビデオと言語のアライメントが取れた埋め込み、ユーザープロンプト
出力: テキスト
機能: その広範なナレッジベースを活用し、言語モデルは入力されたユーザープロンプトに基づいて、アライメントされた埋め込みを解釈します。その後、この情報を一貫性のある人間が読めるテキストにデコードします。
モデルのパラメータと規模
Pegasus-1モデルは、合計で約800億(80B)のパラメータを持っています。Marengo埋め込みモデルのサイズを含む、個々のコンポーネントの詳細なパラメータ構成は現時点では公開されていません。
トレーニングおよび微調整(ファインチューニング)用データセット
ビデオ言語基盤モデルのトレーニングデータ: 3億件以上のビデオ・テキストのペアのコレクションから、10%のサブセットを処理して抽出し、3500万件のビデオ(TL-35Mと表記)と10億件以上の画像で構成されるデータを作成しました。最初のトレーニングランとしてはこれで十分に大きな規模であると考えており、後続のトレーニングはTL-100Mで実施する予定です。私たちの知る限り、これはビデオ言語基盤モデルのトレーニング用として厳選された、世界最大のビデオ・テキストコーパスです。 より広範な研究活動をサポートするため、これより小規模なデータセットのオープンソース化を検討しています。ご興味のある方は、research@twelvelabs.ioまでご連絡ください。
ファインチューニングデータセット: 前述のビデオ言語基盤モデルの指示追従能力を強化するためには、高品質なvideo-to-textファインチューニングデータセットが不可欠です。当社の選択基準は、ドメインの多様性、テキストアノテーションの網羅性と正確性の3つの主要な側面にあります。平均して、当社のデータセットの各ビデオに関連付けられているテキストアノテーションは、同様の長さのビデオを対象とする既存のオープンデータセットのアノテーションの2倍の長さです。さらに、正確性を保証するために、アノテーションは数回にわたる検証と修正プロセスを経ています。このアプローチによりアノテーションの単価は上昇しますが、先行研究(Zhou et al., 2023)で観察された重要性を考慮し、単にデータセットのサイズを大きくするよりも、ファインチューニングデータセットの品質において高い水準を維持することを優先しました。
パフォーマンスに影響を与える要因
予想される通り、モデル全体のパフォーマンスは、各コンポーネントのパフォーマンスと強く相関しています。各構成モデルが全体の品質にどの程度影響しているかは、未だ未解決の課題です。より深い理解を得るために、今後、広範なアブレーション研究(要素別検証)を実施し、その知見を共有する予定です。
ビデオエンコーダモデル: 現在のSearchおよびClassify APIを駆動している当社のMarengo 2.5モデル(2023年3月、1億本以上のビデオ / 10億枚以上の画像)から派生したビデオエンコーダモデルは、ビデオ分類や検索などの埋め込みベースのタスクにおいて最先端の結果を達成しています。ビデオから抽出可能な情報の深さは、本質的にビデオエンコーダモデルによって上限が画定されます。Marengoモデルの詳細については、次回のMarengo 2.6のリリースに伴う今後のレポートで特集される予定です。
ビデオ言語アライメントモデル: このモデルは、基盤モデルのトレーニングおよびインストラクションファインチューニングの過程で、ビデオ言語アライメント能力を獲得します。当社の言語モデルがビデオ埋め込みとどの程度インターフェースできるかは、このアライメントメカニズムによって規定されます。
大規模言語モデル(デコーダモデル): 当社の言語モデルの能力は、トレーニングフェーズで獲得した知識によって枠組みが形成されます。得られるテキスト出力の質は、モデルの知識、ユーザープロンプト、およびビデオ言語がアライメントされた埋め込みを統合する能力によって支配されます。
評価と結果
Twelve Labsは、当社のPegasus-1モデルを含む、高度な技術の責任ある展開を保証することの重要性を認識しています。私たちは、正確さ、詳細さ、文脈の理解、安全性、および有用性を含むきめ細かいカテゴリーにわたって、すべてのモデルをベンチマーク評価する包括的かつ透明性の高いデータセットと評価フレームワークの開発に取り組んでいます。現在、ビデオ言語モデルにおける安全性と有用性に特化した指標を開発中であり、その結果は間もなく共有される予定です。本ブログでお見せするのは暫定的な結果であり、より詳細なレポートは今後リリースされる予定です。評価はPegasus-1のプレビューバージョンに基づいています。
当社の評価コードベースは、こちらでご覧いただけます。
比較モデル
当社のモデルを、3つの異なるモデル(または製品)カテゴリと比較します。
Video-ChatGPT (Maaz et al., 2023): このオープンソースモデルは、チャットインターフェースを備えた現在の最先端(SOTA)ビデオ言語モデルです。このモデルは、ビデオフレームを処理してビデオ内の視覚的イベントをキャプチャします。ただし、ビデオ内の会話情報は利用しません。
Whisper + ChatGPT-3.5 (OpenAI): この組み合わせは、ビデオ要約のために最も広く採用されているアプローチの1つです。最先端の音声テキスト変換技術と大規模言語モデルを活用することで、要約は主にビデオの音声コンテンツから導き出されます。大きな欠点は、ビデオ内の貴重な視覚情報が見落とされることです。
ベンダーAのSummary API: 音声およびビデオ要約生成のために広く採用されているコマーシャル製品です。ベンダーAのSummary APIは、文字起こしデータと言語モデル(ASR+ChatGPT3.5に類似)のみに基づいてビデオサマリーを出力していると見られます。
データセット
MSR-VTTデータセット(Xu et al., 2016): MSR-VTTは、10〜40秒の短いビデオクリップに対する説明文やキャプションを生成するモデルの能力を評価するために広く使用されているビデオ解説データセットです。各ビデオには、人間のアノテーターによって20個の文がアノテーションされています。可能な限り詳細を捉えるため、LLM(ChatGPT)を使用して20個の個別のキャプションを1つの高密度なバリエーション豊かな説明文に結合しています。当社の評価は、1,000件のビデオクリップで構成されるJSFusion Test Splitで実施されています。
Video-ChatGPT Video Descriptionsデータセット(Maaz et al., 2023): Video-to-textの評価では、上記のようなMSR-VTTデータセットをはじめ、主にビデオキャプションデータセットが使用されています。これら短いビデオ説明は基準を提供してくれるものの、現実世界の文脈で多く見られる長尺ビデオ向けのテキスト生成を評価するには不十分です。これを踏まえ、私たちは当社のモデルについて、Video-ChatGPT Video Descriptionデータセットの追加評価を行いました。このデータセットには、ActivityNetの500件のビデオが含まれており、これらすべてに人間が書き下ろした詳細なサマリーがアノテーションされています。従来のキャプションデータセットとは異なり、このデータセット内のビデオは30秒から数分に及び、各ビデオには、視覚要素と音声要素の両方を要約した、5〜8文からなる高密度の要約が含まれています。
指標
ビデオベースの対話モデルのための定量的評価フレームワーク(QEFVC)(Maaz et al., 2023)に従い、情報の正確性、詳細指向性、および文脈の理解という3つの分野でモデルを評価します。これを実施するために、インストラクションチューニングされた言語モデル(例:GPT-4)に対して、参照サマリーを基準とした各評価基準について尋ねます。全体的なパフォーマンスを定量化するため、3つのスコアを平均したものをQEFVC品質スコアとして定義します。
この評価指標は既存のモデルとの比較に便利な手段を提供するものの、いくつかの課題も存在します。言語モデルの評価に関する過去の研究では、モデル予測スコアをGPT-4のみに依存することは、不正確な評価につながりやすいことが指摘されています。また、評価を可能な限り細かく(きめ細かく)行うことで、評価の一貫性と精度が向上することも観察されています(Ye et al., 2023)。これを念頭に置き、FActScore(Min et al., 2023)に着想を得て、ビデオサマリーの品質をより細分化した形で評価する洗練された評価手法VidFactScore(Video Factual Score)を導入します。
それぞれの「ビデオと参照サマリー」のペアについて、参照サマリーを個別の個の事実に分解します。たとえば、「男性と女性が走っている。」という文は、「男性が走っている。」と「女性が走っている。」に分割されます。このセグメンテーションは、適切なプロンプトを与えたGPT-4などのインストラクションチューニングされた言語モデルによって行われます。
モデルが生成したサマリー情報も、同様に分割されます。
理想的な予測サマリーは、(1)参照元の事実の大部分を含んでおり、(2)参照元にない事実の混入を最小限に抑えている必要があります。事実が存在するか省略されているかの判定は、適切なプロンプトを伴うインストラクションチューニング言語モデルを通じて実現されます。
定量的な観点から見ると、(1)は再現率(Recall Rate)に対応し、予測と参照の間で共有される事実の、参照内の全事実に対する割合を算出します。(2)は適合率(Precision)に対応し、予測の全事実に対する共有された事実の割合を算出します。この2つの数値の調和平均であるF1は、モデルの比較のための直接的な指標を提供します。
結果


現在の最先端モデル(VideoChatGPT)との比較では、Pegasus-1は、QEFVC品質スコアで測定した結果、MSR-VTTデータセットで61%の相対的な改善、Video Descriptionデータセットで47%の向上を示しました。ASR+LLMモデル群(Whisper+ChatGPTやベンダーAなどのモデルを含む)に対しては、パフォーマンスの差はさらに広がり、Pegasus-1はMSR-VTTで79%、Video Descriptionデータセットで188%優れたパフォーマンスを発揮しました。


新しく提案されたVidFactScore-F1指標で評価すると、Pegasus-1はVideoChatGPTと比較して、MSR-VTTデータセットで絶対値20%の向上、Video Descriptionsデータセットで14%の向上を示しました。ASR+LLMモデル群を基準とした場合、その差はMSR-VTTデータセットで25%、Video Descriptionsデータセットで33%に上りました。これらの結果は、VidFactScoreが、QEFVCフレームワークに基づく評価と十分に一致し、強い相関関係にあることを一貫して示唆しています。
お笑いのライブ(スタンドアップコメディ)や講義など、主に音声に依存するビデオに関して、非常に興味深い観察が得られました。このようなシナリオであっても、私たちのモデルはASR+LLMモデルを凌駕します。一般的に「こうしたビデオにはASRだけで十分」と思われるかもしれませんが、私たちの調査結果は異なる結果を示しています。私たちは、たとえ最小限の視覚的ヒント(たとえば、「スタンドアップコメディを行っている男性」や「リアクションビデオ(反応動画)」など)であっても、発話データを豊かにし、より正確で網羅的な要約をもたらすことができると仮定しています。 このような結果は、ビデオ comprehending(深い理解)が単なる音声理解を超えるものであるという考えを裏付けています。包括的な理解を達成するには、視覚と音声の双方のモダリティを組み込むことが不可欠であることが浮き彫りになりました。以下の「野生(実環境)の例」セクションの「リアクションビデオ」を参照してください。
実環境の例 (In-the-wild examples)
これらは、既存のアプローチと比較したPegasus-1の能力を説明するために、多様なドメインからランダムに選択されたサンプルの例です。
生成された出力には以下のものが含まれる可能性があることにご注意ください。
ハルシネーション(ビデオに事実として描かれていないにもかかわらず、一貫したストーリーを作り上げてしまうこと)
プロンプトや質問を理解できなかったことによる不適切な回答
偏見(バイアス)
皆様からのフィードバックを歓迎いたします。近い将来にこれらに対処できるよう最善を尽くします。
概要
プロダクト: Twelve Labsは、最新のビデオ言語基盤モデルであるPegasus-1と、新しいVideo-to-Text APIスイート(Gist API、Summary API、Generate API)を発表します。
プロダクトおよび研究哲学: ビデオ理解を画像や音声の理解問題として再構成する多くの既存手法とは異なり、Twelve Labsは「ビデオファースト」戦略を採用し、4つのコア原則(効率的な長尺ビデオ処理、マルチモーダルな理解、ビデオネイティブな埋め込み、ビデオと言語埋め込みの深いアライメント)を掲げています。
新しいモデル: Pegasus-1は約800億(80B)のパラメータを持ち、ビデオエンコーダ、ビデオ言語アライメントモデル、言語デコーダという3つのモデルコンポーネントが共にトレーニングされています。
データセット: Twelve Labsは、厳選された3億件以上の多様なビデオとテキストのペアを収集しました。これは、ビデオ言語基盤モデルのトレーニング用としては世界最大級のビデオ・テキストコーパスです。本技術レポートは、そのうちの10%にあたる3500万件のビデオ・テキストペアと10億件以上の画像・テキストペアからなるサブセットを用いて実施された初期トレーニングランに基づいています。
SOTAビデオ言語モデルとの性能比較: 従来の最先端(SOTA)ビデオ言語モデルと比較して、Pegasus-1は、QEFVC品質スコア(Maaz et al., 2023)で測定した結果、MSR-VTTデータセット(Xu et al., 2016)で61%の相対的な改善、Video Descriptionsデータセット(Maaz et al., 2023)で47%の向上を示しています。当社が提案する評価指標であるVidFactScoreでの評価では、MSR-VTTデータセットで絶対値20%のF1スコア向上、Video Descriptionデータセットで14%の向上を示しました。
ASR+LLMモデルとの性能比較: ASR+LLMは、Video-to-Textタスクに取り組むために広く採用されているアプローチです。Whisper-ChatGPT(OpenAI)および主要な商用ASR+LLM製品と比較して、Pegasus-1はMSR-VTTで79%、Video Descriptionsデータセットで188%優れたパフォーマンスを発揮します。VidFactScore-F1での評価では、MSR-VTTデータセットで絶対値25%の向上、Video Descriptionデータセットで33%の向上を示しています。
Pegasus-1へのAPIアクセス: Pegasusを搭載したVideo-to-Text APIのウェイティングリストのリンクはこちらです。
研究の視野を広げる:ビデオ埋め込みから生成モデルへ

サンフランシスコ・ベイエリアを拠点とするAI研究・プロダクト開発企業であるTwelve Labsは、マルチモーダルなビデオ理解の最前線に立っています。本日、私たちは最新のビデオ言語基盤モデルであるPegasus-1の最先端のビデオ・テキスト生成機能を発表できることを嬉しく思います。これは、さまざまな下流のビデオ理解タスクに合わせてカスタマイズされた包括的なAPIスイートを提供するという、私たちのコミットメントを示すものです。私たちのスイートは、自然言語ベースのビデオモーメント検索から分類、そして今回の最新リリースによるプロンプトベースのビデオ・テキスト生成にまで及びます。
私たちの「ビデオファースト」精神
ビデオデータは、単一のフォーマット内に複数のモダリティを含んでいるため非常に興味深いものです。私たちは、ビデオ理解には、視覚知覚の複雑さと、音声およびテキストの順序的・文脈的なニュアンスを融合させる新しい取り組みが必要であると考えています。優れた画像モデルや言語モデルの台頭に伴い、ビデオ理解の主要なアプローチは、それを画像や音声の理解問題として再構成することでした。一般的なフレームワークでは、ビデオからフレームをサンプリングしてビジョン言語モデルに入力します。
このアプローチは短いビデオには有効かもしれませんが(ほとんどのビジョン言語モデルが1分未満のビデオクリップに焦点を当てているのはそのためです)、現実世界のビデオのほとんどは1分を超え、容易に数時間に及ぶことがあります。このようなビデオに対して単純な「画像ファースト」のアプローチを使用することは、ビデオごとに数万枚の画像を処理することを意味し、結果として、時空間情報の意味論をよくて大まかに捉えているに過ぎない膨大な数の画像・テキスト埋め込みを操作しなければならなくなります。これは、パフォーマンス、レイテンシ、コストの観点から、多くのアプリケーションにおいて不経済です。さらに、主流の設計手法はビデオのマルチモーダルな特性を見落としており、コンテンツを包括的に理解するためには、音声(会話を含む)と視覚要素の両方の共同分析が不可欠です。
ビデオデータの基本的な特性を念頭に置き、Twelve Labsは「ビデオファースト」戦略を採用し、モデル、データ、およびMLシステムをビデオデータの処理と理解のみに焦点を当てて構築しています。 これは、多くのジェネレーティブAIプレイヤーに見られる一般的な「言語/画像ファースト」のアプローチとは対照的です。4つの中心的な原則が当社の「ビデオファースト」精神を支え、ビデオ言語基盤モデルの設計とMLシステムのアーキテクチャの双方を導いています。
効率的な長尺ビデオ処理: 当社のモデルとシステムは、短い10秒のクリップから、数時間に及ぶ膨大なコンテンツまで、多様な長さのビデオを管理できるように最適化されていなければなりません。
マルチモーダルな理解: 当社のモデルは、視覚、音声、およびスピーチ情報を統合できなければなりません。
ビデオネイティブな埋め込み: 空間的な関係に焦点を当てた画像ネイティブな埋め込み(例:CLIP)に依存するのではなく、ビデオの時空間情報を全体的な方法で組み込むことができるビデオネイティブな埋め込みの必要性を信じています。
ビデオネイティブ埋め込みと言語モデルの深いアライメント: 画像とテキストのアライメントを超えて、当社のモデルは、大規模なビデオ・テキストコーパスおよびビデオ・テキスト指示データセットでの広範なトレーニングを通じて、深いビデオ言語アライメントを経なければなりません。
新しいVideo-to-Text機能とインターフェース
デベロッパーは、1回のAPIコールでPegasus-1モデルを促し、ビデオデータから特定のテキスト出力を生成できます。音声からテキストへの変換を利用するか、視覚的なフレームデータのみに依存する既存のソリューションとは異なり、Pegasus-1は視覚、音声、スピーチの情報を統合して、ビデオからより包括的なテキストを生成し、ビデオ要約のベンチマークにおいて新たな最先端のパフォーマンスを達成しています。(下記の「評価と結果」セクションを参照。)

Gist APIとSummary APIにはあらかじめ関連するプロンプトがプリロードされているため、ユーザーがプロンプトを入力しなくても、すぐに使用することができます。Gist APIは、タイトル、トピック、関連ハッシュタグのリストなどの簡潔なテキスト出力を生成できます。Summary APIは、ビデオのサマリー、章、ハイライトを生成するように設計されています。カスタマイズされた出力のために、実験的なGenerate APIを使用すると、ユーザーは箇条書きからレポート、さらにはビデオの内容に基づいたクリエイティブな歌詞に至るまで、特定のフォーマットやスタイルを指定することができます。
例1: Gist APIおよびSummary APIを介してビデオから短いレポートを生成する。

例2: Summary APIにスタイリングプロンプトを渡してビデオサマリーを生成する。

例3: 実験的なGenerate APIによるプロンプト入力で、カスタマイズされたテキスト出力を生成する。

例4: ビデオ内の視覚、音声、発話の手がかりを組み込んだマルチモーダルな理解を実証する。(緑色でハイライト:視覚情報)

Pegasus-1 (80B) モデルの概要

構成モデルの機能と全体的なアーキテクチャ
Pegasus-1モデルは、それぞれビデオネイティブな埋め込み、ビデオと言語がアライメントされた埋め込み、およびテキスト出力を生成するタスクを担う3つの主要コンポーネントを中心に構成されています。
1. ビデオエンコーダモデル - 既存のMarengo埋め込みモデルに由来
入力: ビデオ
出力: ビデオ埋め込み(視覚、音声、スピーチ情報を統合)
機能: ビデオエンコーダの目的は、ビデオから複雑な詳細情報を収集することです。フレームとその時間的関係を評価して関連する視覚情報を取得すると同時に、音声信号とスピーチ情報を処理します。
2. ビデオ言語アライメントモデル
入力: ビデオ埋め込み
出力: ビデオと言語のアライメントが取れた埋め込み
機能: アライメントモデルの主なタスクは、ビデオ埋め込みと言語モデルのドメインを架橋することです。これにより、言語モデルがテキストトークンを理解するのと同じように、ビデオ埋め込みを解釈できるようになります。
3. 大規模言語モデル - デコーダモデル
入力: ビデオと言語のアライメントが取れた埋め込み、ユーザープロンプト
出力: テキスト
機能: その広範なナレッジベースを活用し、言語モデルは入力されたユーザープロンプトに基づいて、アライメントされた埋め込みを解釈します。その後、この情報を一貫性のある人間が読めるテキストにデコードします。
モデルのパラメータと規模
Pegasus-1モデルは、合計で約800億(80B)のパラメータを持っています。Marengo埋め込みモデルのサイズを含む、個々のコンポーネントの詳細なパラメータ構成は現時点では公開されていません。
トレーニングおよび微調整(ファインチューニング)用データセット
ビデオ言語基盤モデルのトレーニングデータ: 3億件以上のビデオ・テキストのペアのコレクションから、10%のサブセットを処理して抽出し、3500万件のビデオ(TL-35Mと表記)と10億件以上の画像で構成されるデータを作成しました。最初のトレーニングランとしてはこれで十分に大きな規模であると考えており、後続のトレーニングはTL-100Mで実施する予定です。私たちの知る限り、これはビデオ言語基盤モデルのトレーニング用として厳選された、世界最大のビデオ・テキストコーパスです。 より広範な研究活動をサポートするため、これより小規模なデータセットのオープンソース化を検討しています。ご興味のある方は、research@twelvelabs.ioまでご連絡ください。
ファインチューニングデータセット: 前述のビデオ言語基盤モデルの指示追従能力を強化するためには、高品質なvideo-to-textファインチューニングデータセットが不可欠です。当社の選択基準は、ドメインの多様性、テキストアノテーションの網羅性と正確性の3つの主要な側面にあります。平均して、当社のデータセットの各ビデオに関連付けられているテキストアノテーションは、同様の長さのビデオを対象とする既存のオープンデータセットのアノテーションの2倍の長さです。さらに、正確性を保証するために、アノテーションは数回にわたる検証と修正プロセスを経ています。このアプローチによりアノテーションの単価は上昇しますが、先行研究(Zhou et al., 2023)で観察された重要性を考慮し、単にデータセットのサイズを大きくするよりも、ファインチューニングデータセットの品質において高い水準を維持することを優先しました。
パフォーマンスに影響を与える要因
予想される通り、モデル全体のパフォーマンスは、各コンポーネントのパフォーマンスと強く相関しています。各構成モデルが全体の品質にどの程度影響しているかは、未だ未解決の課題です。より深い理解を得るために、今後、広範なアブレーション研究(要素別検証)を実施し、その知見を共有する予定です。
ビデオエンコーダモデル: 現在のSearchおよびClassify APIを駆動している当社のMarengo 2.5モデル(2023年3月、1億本以上のビデオ / 10億枚以上の画像)から派生したビデオエンコーダモデルは、ビデオ分類や検索などの埋め込みベースのタスクにおいて最先端の結果を達成しています。ビデオから抽出可能な情報の深さは、本質的にビデオエンコーダモデルによって上限が画定されます。Marengoモデルの詳細については、次回のMarengo 2.6のリリースに伴う今後のレポートで特集される予定です。
ビデオ言語アライメントモデル: このモデルは、基盤モデルのトレーニングおよびインストラクションファインチューニングの過程で、ビデオ言語アライメント能力を獲得します。当社の言語モデルがビデオ埋め込みとどの程度インターフェースできるかは、このアライメントメカニズムによって規定されます。
大規模言語モデル(デコーダモデル): 当社の言語モデルの能力は、トレーニングフェーズで獲得した知識によって枠組みが形成されます。得られるテキスト出力の質は、モデルの知識、ユーザープロンプト、およびビデオ言語がアライメントされた埋め込みを統合する能力によって支配されます。
評価と結果
Twelve Labsは、当社のPegasus-1モデルを含む、高度な技術の責任ある展開を保証することの重要性を認識しています。私たちは、正確さ、詳細さ、文脈の理解、安全性、および有用性を含むきめ細かいカテゴリーにわたって、すべてのモデルをベンチマーク評価する包括的かつ透明性の高いデータセットと評価フレームワークの開発に取り組んでいます。現在、ビデオ言語モデルにおける安全性と有用性に特化した指標を開発中であり、その結果は間もなく共有される予定です。本ブログでお見せするのは暫定的な結果であり、より詳細なレポートは今後リリースされる予定です。評価はPegasus-1のプレビューバージョンに基づいています。
当社の評価コードベースは、こちらでご覧いただけます。
比較モデル
当社のモデルを、3つの異なるモデル(または製品)カテゴリと比較します。
Video-ChatGPT (Maaz et al., 2023): このオープンソースモデルは、チャットインターフェースを備えた現在の最先端(SOTA)ビデオ言語モデルです。このモデルは、ビデオフレームを処理してビデオ内の視覚的イベントをキャプチャします。ただし、ビデオ内の会話情報は利用しません。
Whisper + ChatGPT-3.5 (OpenAI): この組み合わせは、ビデオ要約のために最も広く採用されているアプローチの1つです。最先端の音声テキスト変換技術と大規模言語モデルを活用することで、要約は主にビデオの音声コンテンツから導き出されます。大きな欠点は、ビデオ内の貴重な視覚情報が見落とされることです。
ベンダーAのSummary API: 音声およびビデオ要約生成のために広く採用されているコマーシャル製品です。ベンダーAのSummary APIは、文字起こしデータと言語モデル(ASR+ChatGPT3.5に類似)のみに基づいてビデオサマリーを出力していると見られます。
データセット
MSR-VTTデータセット(Xu et al., 2016): MSR-VTTは、10〜40秒の短いビデオクリップに対する説明文やキャプションを生成するモデルの能力を評価するために広く使用されているビデオ解説データセットです。各ビデオには、人間のアノテーターによって20個の文がアノテーションされています。可能な限り詳細を捉えるため、LLM(ChatGPT)を使用して20個の個別のキャプションを1つの高密度なバリエーション豊かな説明文に結合しています。当社の評価は、1,000件のビデオクリップで構成されるJSFusion Test Splitで実施されています。
Video-ChatGPT Video Descriptionsデータセット(Maaz et al., 2023): Video-to-textの評価では、上記のようなMSR-VTTデータセットをはじめ、主にビデオキャプションデータセットが使用されています。これら短いビデオ説明は基準を提供してくれるものの、現実世界の文脈で多く見られる長尺ビデオ向けのテキスト生成を評価するには不十分です。これを踏まえ、私たちは当社のモデルについて、Video-ChatGPT Video Descriptionデータセットの追加評価を行いました。このデータセットには、ActivityNetの500件のビデオが含まれており、これらすべてに人間が書き下ろした詳細なサマリーがアノテーションされています。従来のキャプションデータセットとは異なり、このデータセット内のビデオは30秒から数分に及び、各ビデオには、視覚要素と音声要素の両方を要約した、5〜8文からなる高密度の要約が含まれています。
指標
ビデオベースの対話モデルのための定量的評価フレームワーク(QEFVC)(Maaz et al., 2023)に従い、情報の正確性、詳細指向性、および文脈の理解という3つの分野でモデルを評価します。これを実施するために、インストラクションチューニングされた言語モデル(例:GPT-4)に対して、参照サマリーを基準とした各評価基準について尋ねます。全体的なパフォーマンスを定量化するため、3つのスコアを平均したものをQEFVC品質スコアとして定義します。
この評価指標は既存のモデルとの比較に便利な手段を提供するものの、いくつかの課題も存在します。言語モデルの評価に関する過去の研究では、モデル予測スコアをGPT-4のみに依存することは、不正確な評価につながりやすいことが指摘されています。また、評価を可能な限り細かく(きめ細かく)行うことで、評価の一貫性と精度が向上することも観察されています(Ye et al., 2023)。これを念頭に置き、FActScore(Min et al., 2023)に着想を得て、ビデオサマリーの品質をより細分化した形で評価する洗練された評価手法VidFactScore(Video Factual Score)を導入します。
それぞれの「ビデオと参照サマリー」のペアについて、参照サマリーを個別の個の事実に分解します。たとえば、「男性と女性が走っている。」という文は、「男性が走っている。」と「女性が走っている。」に分割されます。このセグメンテーションは、適切なプロンプトを与えたGPT-4などのインストラクションチューニングされた言語モデルによって行われます。
モデルが生成したサマリー情報も、同様に分割されます。
理想的な予測サマリーは、(1)参照元の事実の大部分を含んでおり、(2)参照元にない事実の混入を最小限に抑えている必要があります。事実が存在するか省略されているかの判定は、適切なプロンプトを伴うインストラクションチューニング言語モデルを通じて実現されます。
定量的な観点から見ると、(1)は再現率(Recall Rate)に対応し、予測と参照の間で共有される事実の、参照内の全事実に対する割合を算出します。(2)は適合率(Precision)に対応し、予測の全事実に対する共有された事実の割合を算出します。この2つの数値の調和平均であるF1は、モデルの比較のための直接的な指標を提供します。
結果


現在の最先端モデル(VideoChatGPT)との比較では、Pegasus-1は、QEFVC品質スコアで測定した結果、MSR-VTTデータセットで61%の相対的な改善、Video Descriptionデータセットで47%の向上を示しました。ASR+LLMモデル群(Whisper+ChatGPTやベンダーAなどのモデルを含む)に対しては、パフォーマンスの差はさらに広がり、Pegasus-1はMSR-VTTで79%、Video Descriptionデータセットで188%優れたパフォーマンスを発揮しました。


新しく提案されたVidFactScore-F1指標で評価すると、Pegasus-1はVideoChatGPTと比較して、MSR-VTTデータセットで絶対値20%の向上、Video Descriptionsデータセットで14%の向上を示しました。ASR+LLMモデル群を基準とした場合、その差はMSR-VTTデータセットで25%、Video Descriptionsデータセットで33%に上りました。これらの結果は、VidFactScoreが、QEFVCフレームワークに基づく評価と十分に一致し、強い相関関係にあることを一貫して示唆しています。
お笑いのライブ(スタンドアップコメディ)や講義など、主に音声に依存するビデオに関して、非常に興味深い観察が得られました。このようなシナリオであっても、私たちのモデルはASR+LLMモデルを凌駕します。一般的に「こうしたビデオにはASRだけで十分」と思われるかもしれませんが、私たちの調査結果は異なる結果を示しています。私たちは、たとえ最小限の視覚的ヒント(たとえば、「スタンドアップコメディを行っている男性」や「リアクションビデオ(反応動画)」など)であっても、発話データを豊かにし、より正確で網羅的な要約をもたらすことができると仮定しています。 このような結果は、ビデオ comprehending(深い理解)が単なる音声理解を超えるものであるという考えを裏付けています。包括的な理解を達成するには、視覚と音声の双方のモダリティを組み込むことが不可欠であることが浮き彫りになりました。以下の「野生(実環境)の例」セクションの「リアクションビデオ」を参照してください。
実環境の例 (In-the-wild examples)
これらは、既存のアプローチと比較したPegasus-1の能力を説明するために、多様なドメインからランダムに選択されたサンプルの例です。
生成された出力には以下のものが含まれる可能性があることにご注意ください。
ハルシネーション(ビデオに事実として描かれていないにもかかわらず、一貫したストーリーを作り上げてしまうこと)
プロンプトや質問を理解できなかったことによる不適切な回答
偏見(バイアス)
皆様からのフィードバックを歓迎いたします。近い将来にこれらに対処できるよう最善を尽くします。




