商品

Video-to-Text Arena: ビデオ言語モデルによるピクセルからテキストへの変換

リシケシュ・ヤダフ

Video-to-Text Arenaは、Twelve Labs Pegasus 1.2、GPT-4o、Gemini 2.0 Flash、Gemini 2.5 Pro、AWS Novaを含むマルチモーダル動画理解モデルを、時間的推論、シーンの連続性、音声の文字起こし、オブジェクト追跡などのタスクにわたって横並びで評価・比較する、オープンソースのベンチマークプラットフォームです。

Video-to-Text Arenaは、Twelve Labs Pegasus 1.2、GPT-4o、Gemini 2.0 Flash、Gemini 2.5 Pro、AWS Novaを含むマルチモーダル動画理解モデルを、時間的推論、シーンの連続性、音声の文字起こし、オブジェクト追跡などのタスクにわたって横並びで評価・比較する、オープンソースのベンチマークプラットフォームです。

この記事の内容

No headings found on page

ニュースレターに登録する

ニュースレターに登録する

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

AIを活用してビデオを検索、分析、探索します。

2025/11/17

9分

記事へのリンクをコピー

はじめに

Video-to-Text Arena(ビデオ・トゥ・テキスト・アリーナ)は、ビデオコンテンツの理解における現在のAIモデルの真の実力を評価するために設計されたオープンソースプラットフォームです。標準化された評価プロセスを提供し、ユーザーがさまざまなマルチモーダルAIモデルを横並びで比較できるようにします。このプラットフォームは、各モデルが視覚的なアクション、シーン、イベントを分析されたテキストにどれだけ正確に変換できるかを具体的に測定し、どのモデルが文脈、タイミング、および意味を最も適切に捉えているかを浮き彫りにします。

現代の特化型ビデオ理解モデルは、シンプルな連結(コネクティネーション)を超え、モダリティを深く統合することで、視覚、音声、テキスト情報を同時に処理するように構築されています。これらのモデルは、ビデオシーケンス全体における因果関係、時間的順序、長期的な依存関係など、高度なビデオ理解が可能である必要があります。アリーナの目標は、実践的で透明性の高い比較を通じて、この分野に明確さをもたらすことです。

現在、当アリーナは Twelve Labs (Pegasus 1.2)、OpenAI (GPT-4o)、Google (Gemini 2.0 Flash および 2.5 Pro)、AWS (nova-lite-v1:0) などのモデルをサポートしています。このガイドでは、さまざまなビデオ理解シナリオにおける各モデルの強みを示すため、一貫した定性的環境下でこれらのモデルを評価することに焦点を当てています。

そのモジュール式アーキテクチャのおかげで、アリーナはより多くのモデルを簡単に統合でき、コントリビューターが独自のモデルを追加することを推奨しています。このガイドでは、アリーナに効果的に貢献する方法についても詳しく説明します。


デモ

以下は、Pegasus-1.2 (TwelveLabs) と応答を比較するために、異なるモデルを選択し、ビデオ分析に使用する方法を示すデモです。このセットアップは、さまざまなシナリオ理解にわたってビデオを分析するのに役立ちます。


ビデオ理解における課題

ビデオ理解には根本的な「時間の課題」が存在します。 計算リソースと関連コストを最小限に抑えるため、現在、多くのモデルパイプラインが1秒あたり約1フレーム(またはそれ以下)の割合でサンプリングを行っているためです。このサンプリングレートの低下は、大幅な情報不足を招き、素早いアクションや短いイベントの見落とし、タイムスタンプ精度の低下、視覚コンポーネントと音声コンポーネントの同期不全を引き起こし、包括的なビデオ理解を妨げる要因となっています。


1 - 時間的推論およびシーケンシャル理解の限界

ビデオ理解モデルは、時間的推論やビデオシーケンス全体のイベント理解において、大きな困難に直面します。GPT-4V のようなモデルは、長時間のビデオを処理する際に一貫した時間的理解を維持する上で限界を示し、個々のフレームを継続的な時間軸の流れではなく、離散的なスナップショットとして扱うことがよくあります。この根本的な制約は、ビデオをスパース(希薄)な表現へとダウンサンプリングするフレームサンプリング戦略に起因しており、その結果、モデルは重要な遷移の瞬間や時間的な依存関係を見落としてしまいます。これらのモデルは、孤立した、特定の瞬間のクエリに対しては一般的に適切に機能しますが、タスクが時間の経過に伴うイベントシーケンスの包括的な理解や、数分から数時間に及ぶビデオ全体の長距離の文脈の追跡を必要とする場合には、大きな課題を露呈します。


2 - 空間的詳細認識およびオブジェクトトラッキングの不足

マルチモーダル理解モデルは、ビデオシーケンス内の空間的推論やオブジェクトトラッキング(物体の追跡)において、顕著な不足を示します。Gemini-2.5-proやGPT-4oのようなモデルは、フレーム間でオブジェクトの同一性を維持する能力が限られており、フレーム内のテキスト認識に苦労し、空間的定位タスクにおいて劣ったパフォーマンスを示します。最近の研究、具体的には SlowFocus の研究によれば、フレームのシーケンスを処理する現在の Vid-LLM は、高品質なフレームに対してより多くのトークンを消費します。これにより、空間的詳細と時間的カバー範囲の間にトレードオフが生じ、Vid-LLM が高品質なフレームレベルのセマンティック(意味)情報と包括的なビデオレベルの時間的情報を同時に保持することが妨げられます。その結果、シーンの変化に伴う特定のオブジェクトの追跡、高速ビデオでの正確なオブジェクト数のカウント、オブジェクト間の正確な空間的関係の理解など、さまざまなシナリオで多くの失敗が発生します。

この制限は、長時間のビデオにおいてさらに悪化します。メモリ制約により視覚情報を大幅に圧縮する必要が生じ、その結果、正確なシーン理解が妨げられ、トークンのオーバーフロー問題が発生するためです。


3 - マルチモーダルの文脈におけるハルシネーションと自己撞着(グラウンディング)の問題

主要なマルチモーダルLLMで広く見られる問題である「ビデオハルシネーション(幻覚)」は、事実と異なる不正確な情報の生成につながります。VidHalluc などのベンチマークは、アクション認識、時間シーケンスの正確性、シーン遷移の理解という 3 つの重要な側面において、これらのモデルがハルシネーションを起こしやすいことを示しています。この問題は、ビデオが長くなるほど特に顕著になります。モデルは限られたトークン予算内に視覚情報を凝縮することを求められ、過度な一般化や捏造された詳細につながります。ハルシネーションを軽減するための主なアプローチは、酷似したシーン間の微妙な違いを識別できるビジュアルエンコーダーを LLM と組み合わせて使用し、視覚的な証拠への厳密な準拠を確保することです。


4 - コンテキストウィンドウ、メモリ、および計算上の制約

ビデオ理解モデルは、コンテキストウィンドウの容量や計算リソースの需要に関する限界に直面しています。GPT-4oは128Kトークンのコンテキストを提供し、Gemini-2.5-Proは最大1Mトークンをサポートしていますが、ビデオフレームを正確に表現するための膨大なトークン要件を考慮すると、これらの容量は依然として、包括的で長時間のビデオ分析には不十分です。モデルは本質的に、サンプリング周波数(時間解像度)と処理できるビデオの合計時間との間でバランスを取ることに苦労します。現在の方法論では、フレームをスキップすることで重要な瞬間を見落とすか、分析が完了する前に計算の限界値を超えてしまうかのどちらかになります。

これまで見てきたように、ビデオ理解モデルの状況は、時間的推論や長尺コンテンツ分析の課題を抱えています。TwelveLabs Pegasus 1.2 モデルは、汎用的なマルチモーダル大規模言語モデル(MLLM)の根本的な限界に対処するために特別に設計された進歩を示しています。Pegasus 1.2は、前述の課題に直接立ち向かう空間・時間的理解アプローチを採用しています。主に一般的なマルチモーダルタスク向けに開発され、その後にビデオ理解に適応された GPT-4o、Gemini、Claude とは異なり、Pegasus 1.2 はビデオ言語モデルとして専用設計されています。このモデルは、最長1時間のビデオを低遅延かつ高精度で処理でき、同じビデオコンテンツに対してより費用対効果の高い繰り返しのクエリを実行できます。その専門的なアーキテクチャのおかげで、汎用MLLMで見られるような精度の低下なしに1時間の長さのビデオを処理できるPegasus 1.2の能力は、コンテンツ要約、ビデオキャプション生成、正確なタイムスタンプでのイベント特定、包括的なビデオコンテンツ分析などのエンタープライズアプリケーションにとって、好ましいソリューションとなっています。


定性的な考察

このセクションでは、ビデオ理解能力を評価するために、複数のパラメータにわたって異なるモデルによって生成されたビデオ分析テキストを評価します。


A. 時間的コンテキストの理解

この分析では、「市場競争のファイブフォース(Five Forces of Market Competition)」という、ポーターの5つの競争要因の原則を視覚的に説明するビデオを例に、ビデオコンテンツにおける時間的コンテキストの理解に焦点を当てます。

クエリ – 「ビデオ内のイベントのシーケンスをタイムスタンプ付きで説明してください。」

続く分析では、gemini-2.5-proとpegasus-1.2を対比します。Geminiモデルは、高い時間精度で詳細なタイムスタンプを生成しますが、視覚的なセグメントをその背景にあるビジネスコンセプトと相関させることに困難を示します。フレームレベルのセグメンテーションにより、プロットが「何が」起こっているかを説明するにとどまり、「なぜ」起こっているのかを説明しない、断片化されたナレーションになってしまいます。逆に、Pegasusは、よりコンセプト的に構造化され、因果関係の一貫した説明を提供し、各視覚的遷移を対応する競争要因に巧みに関連付けます。

Geminiの精度はイベントの特定などの技術的なタスクには有利ですが、Pegasusは解釈可能性、明確さ、トピックの関連性においてそれを凌駕しており、理解や意思疎通により適しています。

OpenAIのモデル(GPT-4o)は、ビデオの長さが原因で処理に問題が発生しました。1秒間に1フレームの割合で分析した場合、トークン制限を超えてしまったためです。対照的に、以下に示すように、AWS Nova(nova-lite-v1:0)は、限定的な詳細と実質的な概念のつながりの欠如を特徴とする、表面的な時間的要約しか提供しませんでした。


B. シーン遷移と連続性の追跡

シーン遷移と連続性追跡の理解のために分析したビデオは、「エッフェル塔はどのように建設されたか(How the Eiffel Tower Was Built)」というタイトルです。

クエリ – 「各遷移について、コンテキストがどのように変化するかを説明してください。」

分析の結果、Gemini(gemini-2.5-pro)の回答は、冗長で繰り返しが多いことが特徴であり、構造的な整理が不十分です。これにより、明確なタイムスタンプの区切りなしに複数の遷移を組み合わせた、長い段落になってしまいます。適切なフォーマットと文脈の明確さが欠けているため、建設のある段階から次の段階への物語の進行を簡単に追跡することが困難になります。

逆に、Pegasusは、整理され、視覚的に一貫した回答を提供します。各遷移は、太字のタイトル、簡潔な説明、正確なタイムスタンプとともに提示されます。タイムスタンプが含まれていることで読みやすさがさらに向上し、エッフェル塔の建設のさまざまな段階にわたってビデオのコンテキストがどのように進化するかを簡単に識別および理解できるようになります。

AWS Novaを使用してこれと同一のタスクを実行したところ、モデルはクエリを正確に解釈することに苦労し、結果として期待される回答を提供できませんでした。その出力は、ビデオの遷移や文脈の変化を適切に表現していない一般的なタイトルで構成されていました。結果として、回答は関連性と徹底性の両方に欠け、ビデオ全体の文脈の変化を効果的に解明することなく、表面的な情報を提供するにとどまりました。


C. ビデオ内の対話と音声コンテンツ

ほとんどのマルチモーダル大規模言語モデル(MLLM)は、ビデオ内の音声コンポーネントを包括または解釈するようにまだ完全には適応していません。具体的には、AWS Nova(nova-lite-v1:0)のビデオ理解には現在音声サポートが欠けており、そのため、発言内容、トーン、または背景のコンテキストを捉える能力が制限されています。したがって、このセクションでは音声コンテンツの理解を定性的に評価し、ビデオデータに存在する発言および音声要素をさまざまなモデルがどれだけ効果的に解釈、文字起こし、説明できるかを検証します。

ここでは、ドイツのニュースチャンネルのオープンソースビデオを分析しました。

クエリ — 「適切なタイムスタンプとともにコンテンツを文字起こししてください。文字起こしファイルとして直接追加するために必要です。音声にある言葉だけを提供してください。タイムスタンプのフォーマットは [mm:ss - mm:ss] です」

分析の結果、Pegasus 1.2は、正確さと指定されたフォーマットへの準拠の両方において、Gemini 2.5 Proを大幅に上回っていることが示されました。

Geminiは要求された [mm:ss – mm:ss] フォーマットでタイムスタンプを提供しますが、その文字起こしは断片的で過度に細分化されており、不完全で、ぶつ切りで、文脈的に支離滅裂なコンテンツになっています。さらに、Geminiのタイムスタンプはビデオの長さと一致していません(入力ビデオは約4分ですが、Geminiの出力は約3分しかカバーしていません)。観察されたもう1つの問題は、元のビデオの言語がドイツ語であったため、Geminiがドイツ語で文字起こしを開始してから英語に切り替えたことで、一貫性が損なわれてしまったことです。

対照的に、Pegasus 1.2の出力は、より長く一貫した対話セグメントを含む、包括的で継続的な文字起こしを提示しています。終始元の言語を維持し、正確に配置されたタイムスタンプを提供し、完全な文章をキャプチャして、自然な会話の流れを維持しています。

同じクエリ内で英語の文字起こしを要求されたとき、Geminiは再び標準以下のパフォーマンスを示し、正確な翻字文字起こしではなく、抽象的な要約を生成しました。内容を言い換えて凝縮したため、話された対話を正確に反映できず、そのタイムスタンプは不正確なままでした。対照的に、Pegasusは適切にフォーマットされたタイムスタンプを含む正確な翻字文字起こしを提供し、直接のエクスポートやその後の制作での使用に適していました。


D. オブジェクトとエンティティの再現性

この分析の目的は、ビデオ内のオブジェクトやエンティティを識別し理解するモデルの能力を評価することです。実験セットアップでは、円の中にオブジェクトを配置するタスクを示すビデオが使用されました。

クエリ – 「2番目のサークルのタスクの開始、そのサークル内の製品名のリスト、および総額を教えてください。」

先述の分析において、Pegasus 1.2は著しく優れた正確性を示しているのに対し、Gemini 2.5 Proは完全に失敗しています。「2番目のサークルタスク」に関する情報をユーザーが明示的に要求したにもかかわらず、Geminiはその場所を「テーブルの上の赤い四角形」と誤って特定し、最初のチャレンジに対応していると思われる12の製品のリストを提供しています。Geminiの応答は、ビデオ内の空間的および時間的シーケンスに関する根本的な理解の欠如を露呈しています。逆に、Pegasusは2番目のサークルタスクを正確に特定し、正確なタイムスタンプ [192秒-199秒] を提供し、それが(テーブルではなく)食料品店の通路の床で発生していることを正しく説明し、正しい製品リストを提供しています。

Pegasusはまた、総額を $20,000 と正確に特定している(タイムスタンプは [304秒-307秒])のに対し、Geminiは誤って $6,100 と報告しています。Pegasusのコンテンツは事実として正確ですが、Geminiの回答全体は間違った質問に対処しており、ビデオ理解とオブジェクトトラッキングの低さを示しています。


E. 文脈的推論と記述性

この評価では、入力クエリを理解し、包括的で文脈に適した応答を生成するシステムの習熟度をアセスメントします。テストの基礎となるコンテンツは、EU AI法を説明するビデオです。私たちの分析は、主題を解釈し、コンテンツから導き出された徹底的で正確、かつ適切なインサイトを提供するシステムの能力に集中します。

クエリ — 「このビデオの簡潔な要約(約30語)と詳細な説明(約100語)を含む回答を提供してください。主要なトピックの遷移ごとにタイムスタンプを組み込んでください。」

以下の分析は、Gemini 2.5 ProおよびAWS Novaの両方と比較したときに、Pegasus 1.2が優れた文脈的推論と記述能力を示していることを表しています。Pegasusは、OpenAIのCEOであるSam Altmanなどの個人を正確に参照し、EU AI法、ChatGPTの危険性分類、中国の社会信用システムなどの概念間の意味のあるつながりを確立しながら、包括的で一貫したナラティブを提供します。対照的に、Gemini 2.5 Proは、能力はあるものの、深みや文脈的なリンクが少ない、より断片化された説明を提供します。

AWS Novaは、一貫して文脈理解における大幅な欠如を示しており、「暗い背景の女性」や「地図の前に立つ男性」といった視覚的要素の表面的な説明しか提供しません。EU AI法に関する議論の実質的な解釈は提供されず、基本的なシーン認識を超える分析的深みに欠けています。

対照的に、Pegasus 1.2は、遷移のタイムスタンプを効果的に作成し、規制の枠組み、リスク層、およびポリシーへの影響を、充実した構成で論理的に一貫した方法で明確に表現します。Pegasusは主題を特定するだけでなく、ビデオのタイムライン全体で展開される議論を統合し、ありのままの情報を明確で有益な記述に変換します。しかしながら、AWS Novaはオブジェクトの特定を超える能力を限定的にしか示さず、ビデオのテーマ別の重要性や法的文脈に対する理解は最小限にとどまります。


Video-to-Text Arena のコードベースに貢献する方法

プラットフォーム上で比較するためにモデルやその他のビデオ理解/マルチモーダルモデルを掲載するには、video-to-text Arena 内に約30行のコードで統合します。新しいモデルを統合し、ユーザーインターフェースで確実に表示されるようにするには、以下の手順とファイルの更新が必要です。

ビデオ理解に適応したマルチモーダル大規模言語モデル(MLLM)や、その他の特殊なビデオモデルをプラットフォームに統合できます。各モデルは、同じクラス構造内で定義された専用の処理ユーティリティにマッピングできます。下の図は、プラットフォーム全体でのさまざまなモデルの利用と、それらに対応する処理パイプラインを示しています。


準備手順

  1. TwelveLabs Playground からAPIキーを取得し、環境変数を設定します。

  2. Github リポジトリ からプロジェクトをクローンします。

  3. TwelveLabs APIキーを保存するための .env ファイルを作成します。

これらの手順が完了したら、開発を開始する準備は完了です!


バックエンドのセットアップ

ステップ 1: モデルクラスの作成

新しいモデルクラスを作成し、関連する処理ユーティリティをこのクラス内で定義する必要があります。クラスは、models/ フォルダ内の個別のモデルファイルとして定義できます。

ステップ 2: 設定の更新

モデルの設定を config.py に統合し、主に推論APIとエンドポイントのベースURLを指定します。

ステップ 3: モデルの登録

新しく定義されたモデルのクラスを参照するように models/__init__.py を更新します。

ステップ 4: メインアプリケーションへの統合

app.py を変更し、model_dict 内でクラスを定義して、新しいモデルを組み込みます。

ステップ 5: API ルートの追加

routes/api_routes.py を更新し、model_dict 内で定義することで、ルートにモデルを含めます。

これで、バックエンドサーバーの設定は完全に完了しました。新しく定義されたモデルを表示させるために必要なフロントエンドの微調整はごくわずかです。


フロントエンドのセットアップ

ステップ 1: API サービスの型定義の更新

lib/api.tsModelStatus インターフェースにモデルを追加します。

ステップ 2: モデルの可用性関数の更新

components/model-evaluation-platform.tsx コンポーネントはモデルの選択を管理します。新しく統合されたモデル関数を定義して、モデルの可用性関数を更新します。

新しく追加されたモデルはその後アリーナに表示され、探索や実験ができるようになります。


結論

TwelveLabsでは、当社の Pegasus-1.2 モデルが専門的なビデオ理解の最前線に立っており、汎用マルチモーダルLLMの固有の限界を克服するために独自に設計されています。Pegasusは、ビデオの深いニュアンスを細心の注意を払って捉え、他のAIシステムが見落としがちな文脈情報、時間的関係、および微細な視覚的合図を識別します。

高度なツール利用や自律型ワークフローとの Pegasus のシームレスな統合は、インテリジェントなビデオ処理における新しい時代の到来を告げるものです。この相乗効果により、当社のモデルは単なる分析を超えて、ビデオコンテンツを能動的に解釈し、推論し、そして最終的にそれらに基づいて行動することができます。この画期的な機能は、多数の革新的なアプリケーションを解放し、ユーザーがビデオデータと相互作用し、それを活用する方法に革命をもたらします。

例えば、コンテンツモデレーションにおいて、Pegasusは不適切または有害なコンテンツを自律的に特定してフラグを立て、クライアント企業のプラットフォーム安全対策の効率と精度を大幅に向上させます。エンターテインメントにおいて、Pegasusを搭載したパーソナライズされたビデオレコメンデーションは、ビデオ内の根底にあるテーマや感情を理解することで、個人の好みに合わせて、はるかに正確で魅力的なものになります。さらに、インテリジェントなシーンベースの編集は Pegasus を活用して複雑なビデオ制作タスクを自動化し、ハイライトリール、ダイナミックな遷移、およびコンテキストを意識したカットのシームレスな作成を可能にし、それによって創造的なプロセスを合理化し、ビデオのストーリーテリングに新しい可能性を開きます。ビデオコンテンツを理解するだけでなく、相互作用し操作する Pegasus の能力は、ビデオ理解における大きな飛躍を意味し、私たちが支援できることを誇りに思うさまざまな業界やアプリケーションに広範囲に及ぶ影響をもたらします。


その他のリソース

ビデオ分析エンジンの詳細については、こちらをご覧ください — Pegasus-1.2。TwelveLabsをさらに探索し、ビデオコンテンツ分析の理解を深めるには、以下のリソースをチェックしてください。

私たちは、TwelveLabsのビデオ理解技術を使用して知識を広げ、革新的なアプリケーションを作成するために、これらのリソースを使用することをお勧めします。

はじめに

Video-to-Text Arena(ビデオ・トゥ・テキスト・アリーナ)は、ビデオコンテンツの理解における現在のAIモデルの真の実力を評価するために設計されたオープンソースプラットフォームです。標準化された評価プロセスを提供し、ユーザーがさまざまなマルチモーダルAIモデルを横並びで比較できるようにします。このプラットフォームは、各モデルが視覚的なアクション、シーン、イベントを分析されたテキストにどれだけ正確に変換できるかを具体的に測定し、どのモデルが文脈、タイミング、および意味を最も適切に捉えているかを浮き彫りにします。

現代の特化型ビデオ理解モデルは、シンプルな連結(コネクティネーション)を超え、モダリティを深く統合することで、視覚、音声、テキスト情報を同時に処理するように構築されています。これらのモデルは、ビデオシーケンス全体における因果関係、時間的順序、長期的な依存関係など、高度なビデオ理解が可能である必要があります。アリーナの目標は、実践的で透明性の高い比較を通じて、この分野に明確さをもたらすことです。

現在、当アリーナは Twelve Labs (Pegasus 1.2)、OpenAI (GPT-4o)、Google (Gemini 2.0 Flash および 2.5 Pro)、AWS (nova-lite-v1:0) などのモデルをサポートしています。このガイドでは、さまざまなビデオ理解シナリオにおける各モデルの強みを示すため、一貫した定性的環境下でこれらのモデルを評価することに焦点を当てています。

そのモジュール式アーキテクチャのおかげで、アリーナはより多くのモデルを簡単に統合でき、コントリビューターが独自のモデルを追加することを推奨しています。このガイドでは、アリーナに効果的に貢献する方法についても詳しく説明します。


デモ

以下は、Pegasus-1.2 (TwelveLabs) と応答を比較するために、異なるモデルを選択し、ビデオ分析に使用する方法を示すデモです。このセットアップは、さまざまなシナリオ理解にわたってビデオを分析するのに役立ちます。


ビデオ理解における課題

ビデオ理解には根本的な「時間の課題」が存在します。 計算リソースと関連コストを最小限に抑えるため、現在、多くのモデルパイプラインが1秒あたり約1フレーム(またはそれ以下)の割合でサンプリングを行っているためです。このサンプリングレートの低下は、大幅な情報不足を招き、素早いアクションや短いイベントの見落とし、タイムスタンプ精度の低下、視覚コンポーネントと音声コンポーネントの同期不全を引き起こし、包括的なビデオ理解を妨げる要因となっています。


1 - 時間的推論およびシーケンシャル理解の限界

ビデオ理解モデルは、時間的推論やビデオシーケンス全体のイベント理解において、大きな困難に直面します。GPT-4V のようなモデルは、長時間のビデオを処理する際に一貫した時間的理解を維持する上で限界を示し、個々のフレームを継続的な時間軸の流れではなく、離散的なスナップショットとして扱うことがよくあります。この根本的な制約は、ビデオをスパース(希薄)な表現へとダウンサンプリングするフレームサンプリング戦略に起因しており、その結果、モデルは重要な遷移の瞬間や時間的な依存関係を見落としてしまいます。これらのモデルは、孤立した、特定の瞬間のクエリに対しては一般的に適切に機能しますが、タスクが時間の経過に伴うイベントシーケンスの包括的な理解や、数分から数時間に及ぶビデオ全体の長距離の文脈の追跡を必要とする場合には、大きな課題を露呈します。


2 - 空間的詳細認識およびオブジェクトトラッキングの不足

マルチモーダル理解モデルは、ビデオシーケンス内の空間的推論やオブジェクトトラッキング(物体の追跡)において、顕著な不足を示します。Gemini-2.5-proやGPT-4oのようなモデルは、フレーム間でオブジェクトの同一性を維持する能力が限られており、フレーム内のテキスト認識に苦労し、空間的定位タスクにおいて劣ったパフォーマンスを示します。最近の研究、具体的には SlowFocus の研究によれば、フレームのシーケンスを処理する現在の Vid-LLM は、高品質なフレームに対してより多くのトークンを消費します。これにより、空間的詳細と時間的カバー範囲の間にトレードオフが生じ、Vid-LLM が高品質なフレームレベルのセマンティック(意味)情報と包括的なビデオレベルの時間的情報を同時に保持することが妨げられます。その結果、シーンの変化に伴う特定のオブジェクトの追跡、高速ビデオでの正確なオブジェクト数のカウント、オブジェクト間の正確な空間的関係の理解など、さまざまなシナリオで多くの失敗が発生します。

この制限は、長時間のビデオにおいてさらに悪化します。メモリ制約により視覚情報を大幅に圧縮する必要が生じ、その結果、正確なシーン理解が妨げられ、トークンのオーバーフロー問題が発生するためです。


3 - マルチモーダルの文脈におけるハルシネーションと自己撞着(グラウンディング)の問題

主要なマルチモーダルLLMで広く見られる問題である「ビデオハルシネーション(幻覚)」は、事実と異なる不正確な情報の生成につながります。VidHalluc などのベンチマークは、アクション認識、時間シーケンスの正確性、シーン遷移の理解という 3 つの重要な側面において、これらのモデルがハルシネーションを起こしやすいことを示しています。この問題は、ビデオが長くなるほど特に顕著になります。モデルは限られたトークン予算内に視覚情報を凝縮することを求められ、過度な一般化や捏造された詳細につながります。ハルシネーションを軽減するための主なアプローチは、酷似したシーン間の微妙な違いを識別できるビジュアルエンコーダーを LLM と組み合わせて使用し、視覚的な証拠への厳密な準拠を確保することです。


4 - コンテキストウィンドウ、メモリ、および計算上の制約

ビデオ理解モデルは、コンテキストウィンドウの容量や計算リソースの需要に関する限界に直面しています。GPT-4oは128Kトークンのコンテキストを提供し、Gemini-2.5-Proは最大1Mトークンをサポートしていますが、ビデオフレームを正確に表現するための膨大なトークン要件を考慮すると、これらの容量は依然として、包括的で長時間のビデオ分析には不十分です。モデルは本質的に、サンプリング周波数(時間解像度)と処理できるビデオの合計時間との間でバランスを取ることに苦労します。現在の方法論では、フレームをスキップすることで重要な瞬間を見落とすか、分析が完了する前に計算の限界値を超えてしまうかのどちらかになります。

これまで見てきたように、ビデオ理解モデルの状況は、時間的推論や長尺コンテンツ分析の課題を抱えています。TwelveLabs Pegasus 1.2 モデルは、汎用的なマルチモーダル大規模言語モデル(MLLM)の根本的な限界に対処するために特別に設計された進歩を示しています。Pegasus 1.2は、前述の課題に直接立ち向かう空間・時間的理解アプローチを採用しています。主に一般的なマルチモーダルタスク向けに開発され、その後にビデオ理解に適応された GPT-4o、Gemini、Claude とは異なり、Pegasus 1.2 はビデオ言語モデルとして専用設計されています。このモデルは、最長1時間のビデオを低遅延かつ高精度で処理でき、同じビデオコンテンツに対してより費用対効果の高い繰り返しのクエリを実行できます。その専門的なアーキテクチャのおかげで、汎用MLLMで見られるような精度の低下なしに1時間の長さのビデオを処理できるPegasus 1.2の能力は、コンテンツ要約、ビデオキャプション生成、正確なタイムスタンプでのイベント特定、包括的なビデオコンテンツ分析などのエンタープライズアプリケーションにとって、好ましいソリューションとなっています。


定性的な考察

このセクションでは、ビデオ理解能力を評価するために、複数のパラメータにわたって異なるモデルによって生成されたビデオ分析テキストを評価します。


A. 時間的コンテキストの理解

この分析では、「市場競争のファイブフォース(Five Forces of Market Competition)」という、ポーターの5つの競争要因の原則を視覚的に説明するビデオを例に、ビデオコンテンツにおける時間的コンテキストの理解に焦点を当てます。

クエリ – 「ビデオ内のイベントのシーケンスをタイムスタンプ付きで説明してください。」

続く分析では、gemini-2.5-proとpegasus-1.2を対比します。Geminiモデルは、高い時間精度で詳細なタイムスタンプを生成しますが、視覚的なセグメントをその背景にあるビジネスコンセプトと相関させることに困難を示します。フレームレベルのセグメンテーションにより、プロットが「何が」起こっているかを説明するにとどまり、「なぜ」起こっているのかを説明しない、断片化されたナレーションになってしまいます。逆に、Pegasusは、よりコンセプト的に構造化され、因果関係の一貫した説明を提供し、各視覚的遷移を対応する競争要因に巧みに関連付けます。

Geminiの精度はイベントの特定などの技術的なタスクには有利ですが、Pegasusは解釈可能性、明確さ、トピックの関連性においてそれを凌駕しており、理解や意思疎通により適しています。

OpenAIのモデル(GPT-4o)は、ビデオの長さが原因で処理に問題が発生しました。1秒間に1フレームの割合で分析した場合、トークン制限を超えてしまったためです。対照的に、以下に示すように、AWS Nova(nova-lite-v1:0)は、限定的な詳細と実質的な概念のつながりの欠如を特徴とする、表面的な時間的要約しか提供しませんでした。


B. シーン遷移と連続性の追跡

シーン遷移と連続性追跡の理解のために分析したビデオは、「エッフェル塔はどのように建設されたか(How the Eiffel Tower Was Built)」というタイトルです。

クエリ – 「各遷移について、コンテキストがどのように変化するかを説明してください。」

分析の結果、Gemini(gemini-2.5-pro)の回答は、冗長で繰り返しが多いことが特徴であり、構造的な整理が不十分です。これにより、明確なタイムスタンプの区切りなしに複数の遷移を組み合わせた、長い段落になってしまいます。適切なフォーマットと文脈の明確さが欠けているため、建設のある段階から次の段階への物語の進行を簡単に追跡することが困難になります。

逆に、Pegasusは、整理され、視覚的に一貫した回答を提供します。各遷移は、太字のタイトル、簡潔な説明、正確なタイムスタンプとともに提示されます。タイムスタンプが含まれていることで読みやすさがさらに向上し、エッフェル塔の建設のさまざまな段階にわたってビデオのコンテキストがどのように進化するかを簡単に識別および理解できるようになります。

AWS Novaを使用してこれと同一のタスクを実行したところ、モデルはクエリを正確に解釈することに苦労し、結果として期待される回答を提供できませんでした。その出力は、ビデオの遷移や文脈の変化を適切に表現していない一般的なタイトルで構成されていました。結果として、回答は関連性と徹底性の両方に欠け、ビデオ全体の文脈の変化を効果的に解明することなく、表面的な情報を提供するにとどまりました。


C. ビデオ内の対話と音声コンテンツ

ほとんどのマルチモーダル大規模言語モデル(MLLM)は、ビデオ内の音声コンポーネントを包括または解釈するようにまだ完全には適応していません。具体的には、AWS Nova(nova-lite-v1:0)のビデオ理解には現在音声サポートが欠けており、そのため、発言内容、トーン、または背景のコンテキストを捉える能力が制限されています。したがって、このセクションでは音声コンテンツの理解を定性的に評価し、ビデオデータに存在する発言および音声要素をさまざまなモデルがどれだけ効果的に解釈、文字起こし、説明できるかを検証します。

ここでは、ドイツのニュースチャンネルのオープンソースビデオを分析しました。

クエリ — 「適切なタイムスタンプとともにコンテンツを文字起こししてください。文字起こしファイルとして直接追加するために必要です。音声にある言葉だけを提供してください。タイムスタンプのフォーマットは [mm:ss - mm:ss] です」

分析の結果、Pegasus 1.2は、正確さと指定されたフォーマットへの準拠の両方において、Gemini 2.5 Proを大幅に上回っていることが示されました。

Geminiは要求された [mm:ss – mm:ss] フォーマットでタイムスタンプを提供しますが、その文字起こしは断片的で過度に細分化されており、不完全で、ぶつ切りで、文脈的に支離滅裂なコンテンツになっています。さらに、Geminiのタイムスタンプはビデオの長さと一致していません(入力ビデオは約4分ですが、Geminiの出力は約3分しかカバーしていません)。観察されたもう1つの問題は、元のビデオの言語がドイツ語であったため、Geminiがドイツ語で文字起こしを開始してから英語に切り替えたことで、一貫性が損なわれてしまったことです。

対照的に、Pegasus 1.2の出力は、より長く一貫した対話セグメントを含む、包括的で継続的な文字起こしを提示しています。終始元の言語を維持し、正確に配置されたタイムスタンプを提供し、完全な文章をキャプチャして、自然な会話の流れを維持しています。

同じクエリ内で英語の文字起こしを要求されたとき、Geminiは再び標準以下のパフォーマンスを示し、正確な翻字文字起こしではなく、抽象的な要約を生成しました。内容を言い換えて凝縮したため、話された対話を正確に反映できず、そのタイムスタンプは不正確なままでした。対照的に、Pegasusは適切にフォーマットされたタイムスタンプを含む正確な翻字文字起こしを提供し、直接のエクスポートやその後の制作での使用に適していました。


D. オブジェクトとエンティティの再現性

この分析の目的は、ビデオ内のオブジェクトやエンティティを識別し理解するモデルの能力を評価することです。実験セットアップでは、円の中にオブジェクトを配置するタスクを示すビデオが使用されました。

クエリ – 「2番目のサークルのタスクの開始、そのサークル内の製品名のリスト、および総額を教えてください。」

先述の分析において、Pegasus 1.2は著しく優れた正確性を示しているのに対し、Gemini 2.5 Proは完全に失敗しています。「2番目のサークルタスク」に関する情報をユーザーが明示的に要求したにもかかわらず、Geminiはその場所を「テーブルの上の赤い四角形」と誤って特定し、最初のチャレンジに対応していると思われる12の製品のリストを提供しています。Geminiの応答は、ビデオ内の空間的および時間的シーケンスに関する根本的な理解の欠如を露呈しています。逆に、Pegasusは2番目のサークルタスクを正確に特定し、正確なタイムスタンプ [192秒-199秒] を提供し、それが(テーブルではなく)食料品店の通路の床で発生していることを正しく説明し、正しい製品リストを提供しています。

Pegasusはまた、総額を $20,000 と正確に特定している(タイムスタンプは [304秒-307秒])のに対し、Geminiは誤って $6,100 と報告しています。Pegasusのコンテンツは事実として正確ですが、Geminiの回答全体は間違った質問に対処しており、ビデオ理解とオブジェクトトラッキングの低さを示しています。


E. 文脈的推論と記述性

この評価では、入力クエリを理解し、包括的で文脈に適した応答を生成するシステムの習熟度をアセスメントします。テストの基礎となるコンテンツは、EU AI法を説明するビデオです。私たちの分析は、主題を解釈し、コンテンツから導き出された徹底的で正確、かつ適切なインサイトを提供するシステムの能力に集中します。

クエリ — 「このビデオの簡潔な要約(約30語)と詳細な説明(約100語)を含む回答を提供してください。主要なトピックの遷移ごとにタイムスタンプを組み込んでください。」

以下の分析は、Gemini 2.5 ProおよびAWS Novaの両方と比較したときに、Pegasus 1.2が優れた文脈的推論と記述能力を示していることを表しています。Pegasusは、OpenAIのCEOであるSam Altmanなどの個人を正確に参照し、EU AI法、ChatGPTの危険性分類、中国の社会信用システムなどの概念間の意味のあるつながりを確立しながら、包括的で一貫したナラティブを提供します。対照的に、Gemini 2.5 Proは、能力はあるものの、深みや文脈的なリンクが少ない、より断片化された説明を提供します。

AWS Novaは、一貫して文脈理解における大幅な欠如を示しており、「暗い背景の女性」や「地図の前に立つ男性」といった視覚的要素の表面的な説明しか提供しません。EU AI法に関する議論の実質的な解釈は提供されず、基本的なシーン認識を超える分析的深みに欠けています。

対照的に、Pegasus 1.2は、遷移のタイムスタンプを効果的に作成し、規制の枠組み、リスク層、およびポリシーへの影響を、充実した構成で論理的に一貫した方法で明確に表現します。Pegasusは主題を特定するだけでなく、ビデオのタイムライン全体で展開される議論を統合し、ありのままの情報を明確で有益な記述に変換します。しかしながら、AWS Novaはオブジェクトの特定を超える能力を限定的にしか示さず、ビデオのテーマ別の重要性や法的文脈に対する理解は最小限にとどまります。


Video-to-Text Arena のコードベースに貢献する方法

プラットフォーム上で比較するためにモデルやその他のビデオ理解/マルチモーダルモデルを掲載するには、video-to-text Arena 内に約30行のコードで統合します。新しいモデルを統合し、ユーザーインターフェースで確実に表示されるようにするには、以下の手順とファイルの更新が必要です。

ビデオ理解に適応したマルチモーダル大規模言語モデル(MLLM)や、その他の特殊なビデオモデルをプラットフォームに統合できます。各モデルは、同じクラス構造内で定義された専用の処理ユーティリティにマッピングできます。下の図は、プラットフォーム全体でのさまざまなモデルの利用と、それらに対応する処理パイプラインを示しています。


準備手順

  1. TwelveLabs Playground からAPIキーを取得し、環境変数を設定します。

  2. Github リポジトリ からプロジェクトをクローンします。

  3. TwelveLabs APIキーを保存するための .env ファイルを作成します。

これらの手順が完了したら、開発を開始する準備は完了です!


バックエンドのセットアップ

ステップ 1: モデルクラスの作成

新しいモデルクラスを作成し、関連する処理ユーティリティをこのクラス内で定義する必要があります。クラスは、models/ フォルダ内の個別のモデルファイルとして定義できます。

ステップ 2: 設定の更新

モデルの設定を config.py に統合し、主に推論APIとエンドポイントのベースURLを指定します。

ステップ 3: モデルの登録

新しく定義されたモデルのクラスを参照するように models/__init__.py を更新します。

ステップ 4: メインアプリケーションへの統合

app.py を変更し、model_dict 内でクラスを定義して、新しいモデルを組み込みます。

ステップ 5: API ルートの追加

routes/api_routes.py を更新し、model_dict 内で定義することで、ルートにモデルを含めます。

これで、バックエンドサーバーの設定は完全に完了しました。新しく定義されたモデルを表示させるために必要なフロントエンドの微調整はごくわずかです。


フロントエンドのセットアップ

ステップ 1: API サービスの型定義の更新

lib/api.tsModelStatus インターフェースにモデルを追加します。

ステップ 2: モデルの可用性関数の更新

components/model-evaluation-platform.tsx コンポーネントはモデルの選択を管理します。新しく統合されたモデル関数を定義して、モデルの可用性関数を更新します。

新しく追加されたモデルはその後アリーナに表示され、探索や実験ができるようになります。


結論

TwelveLabsでは、当社の Pegasus-1.2 モデルが専門的なビデオ理解の最前線に立っており、汎用マルチモーダルLLMの固有の限界を克服するために独自に設計されています。Pegasusは、ビデオの深いニュアンスを細心の注意を払って捉え、他のAIシステムが見落としがちな文脈情報、時間的関係、および微細な視覚的合図を識別します。

高度なツール利用や自律型ワークフローとの Pegasus のシームレスな統合は、インテリジェントなビデオ処理における新しい時代の到来を告げるものです。この相乗効果により、当社のモデルは単なる分析を超えて、ビデオコンテンツを能動的に解釈し、推論し、そして最終的にそれらに基づいて行動することができます。この画期的な機能は、多数の革新的なアプリケーションを解放し、ユーザーがビデオデータと相互作用し、それを活用する方法に革命をもたらします。

例えば、コンテンツモデレーションにおいて、Pegasusは不適切または有害なコンテンツを自律的に特定してフラグを立て、クライアント企業のプラットフォーム安全対策の効率と精度を大幅に向上させます。エンターテインメントにおいて、Pegasusを搭載したパーソナライズされたビデオレコメンデーションは、ビデオ内の根底にあるテーマや感情を理解することで、個人の好みに合わせて、はるかに正確で魅力的なものになります。さらに、インテリジェントなシーンベースの編集は Pegasus を活用して複雑なビデオ制作タスクを自動化し、ハイライトリール、ダイナミックな遷移、およびコンテキストを意識したカットのシームレスな作成を可能にし、それによって創造的なプロセスを合理化し、ビデオのストーリーテリングに新しい可能性を開きます。ビデオコンテンツを理解するだけでなく、相互作用し操作する Pegasus の能力は、ビデオ理解における大きな飛躍を意味し、私たちが支援できることを誇りに思うさまざまな業界やアプリケーションに広範囲に及ぶ影響をもたらします。


その他のリソース

ビデオ分析エンジンの詳細については、こちらをご覧ください — Pegasus-1.2。TwelveLabsをさらに探索し、ビデオコンテンツ分析の理解を深めるには、以下のリソースをチェックしてください。

私たちは、TwelveLabsのビデオ理解技術を使用して知識を広げ、革新的なアプリケーションを作成するために、これらのリソースを使用することをお勧めします。