リサーチ

TWLV-I:ビデオ基盤モデルの包括的評価による分析と洞察

ルーカス・リー、キリアン・ベク、ジェームズ・レ

Twelve Labsは、外観と動作の理解を両立させ、アクション認識、時間的アクションローカリゼーション、および時空間アクションローカリゼーションのベンチマークにおいて最先端のモデルを凌駕またはそれと同等の性能を発揮する、新しいビデオ基盤モデルおよび評価フレームワークである「TWLV-I」を発表しました。

Twelve Labsは、外観と動作の理解を両立させ、アクション認識、時間的アクションローカリゼーション、および時空間アクションローカリゼーションのベンチマークにおいて最先端のモデルを凌駕またはそれと同等の性能を発揮する、新しいビデオ基盤モデルおよび評価フレームワークである「TWLV-I」を発表しました。

この記事の内容

No headings found on page

ニュースレターに登録する

ニュースレターに登録する

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

AIを活用してビデオを検索、分析、探索します。

2024/09/22

20分

記事へのリンクをコピー

TWLV-Iの技術レポートをarXiVおよびHuggingFaceでご確認ください! コードはGitHubで公開されています:https://github.com/twelvelabs-io/video-embeddings-evaluation-framework

TLDR

  • 包括的な評価フレームワーク:Twelve Labsは、外観と動きの両方の分析を重視した、ビデオ理解のための堅牢な評価フレームワークを提供します。

  • TWLV-Iモデル:当社の新しいビデオ基盤モデル(TWLV-I)は、これら2つの側面をバランスよく捉えることに優れており、最先端のモデルと同等以上の性能を発揮します。

  • タスクパフォーマンス:TWLV-Iは、動作認識、時間の動作ローカライズ、および空間・時間の動作ローカライズにおいて強力な結果を示しており、その汎用性の高さが浮き彫りになっています。

  • 可視化による洞察:t-SNEおよびLDAの可視化により、TWLV-Iは他のモデルと比較して、優れたクラスタリング能力と動きの識別能力を備えていることが明らかになりました。

  • 今後の方向性:TWLV-Iの汎用性と適用性を高めるために、モデル規模の拡張、画像埋め込みの改善、およびモダリティの拡張を重視します。

  • 今後の研究への指針:提案された手法は、ビデオ理解における新たな基準を設定し、この分野における今後の研究開発を導くことを目的としています。

1 - イントロダクション

今日のデジタル環境において、ビデオは普遍的な言語であり、文化を超えて複雑なアイデアや感情をシームレスに伝えています。この豊かなメディアを正確に解釈するには、堅牢なビデオ理解システムの構築が不可欠です。複数の画像のシーケンスであるビデオには、各フレームの外観を認識することと、時間の経過とともに展開する動きを理解することの、2つの焦点を当てる必要があります。

Twelve Labsでは、ビデオ理解におけるこれら2つの側面に対応する包括的な評価フレームワークの必要性を認識しています。私たちの目標は、外観と動きの両方の能力を正確に測定する評価手法を確立することにより、この分野における今後の研究の明確な方向性を提示することです。

1.1 - 基盤モデルとビデオ理解

基盤モデル(FM)は、特定の領域内の多様なタスクをモデルが処理できるようにすることで、AIに革命をもたらしました。言語および画像基盤モデルが大きな進歩を遂げた一方で、ビデオ理解には特有の課題が存在します。既存のビデオ基盤モデルは、クラスタリングや分類タスクの限界からも明らかなように、外観と動きの両方を効果的に捉えることができない場合が多々あります。

1.2 - TWLV-Iと評価フレームワークの紹介

__wf_reserved_inherit

これらの課題に対処するため、私たちは図1に示すように、外観ベースおよび動きベースの両方のタスクで卓越するように設計されたTWLV-Iを導入します。さらに重要なこととして、TWLV-Iの能力を評価するだけでなく、今後のモデルのベンチマークを設定する堅牢な評価フレームワークを提案します。

私たちのフレームワークには、動作認識、時間の動作ローカライズ、空間・時間の動作ローカライズなど、ビデオ理解の特定の側面を評価するために細心の注意を払って設計された様々なタスクが含まれています。この包括的なアプローチを通じて、バランスのとれた能力の重要性を強調し、業界をより包括的なモデル開発へと導くことを目指しています。

ビデオモデルの性能と適切な評価の両方に焦点を当てることで、私たちはビデオ研究におけるマイルストーンを提示し、このダイナミックな分野における今後の進歩と革新への道を切り開くことを熱望しています。

2 - TWLV-I & ビデオ基盤モデル評価フレームワーク

__wf_reserved_inherit

TWLV-Iのアーキテクチャとトレーニングプロセスは、外観と動きの両方の理解に対するニーズのバランスをとりながら、ビデオ理解に特有の課題に対処するように設計されています。図2は、外観中心のベンチマーク(Kinetics-400)と、動き中心のベンチマーク(SSv2およびDiving-48)におけるTWLV-Iのパフォーマンスの視覚的な比較を示しています。このプロットは、TWLV-Iのバランスの取れた能力を示しており、両方のタイプのタスクを高度に処理できることを実証しています。

このサブセクションでは、TWLV-Iのトレーニング手法とフレームサンプリング技術の主要な側面について詳しく説明します。

2.1 - アーキテクチャ

TWLV-Iは、Visual Transformer(ViT)アーキテクチャに基づいて構築されており、ビジュアルデータを処理するその強力な能力を活用しています。私たちは、次の2つのバリアントを実装しています:

  1. ViT-B (Base): 8600万個のパラメータを持つモデル

  2. ViT-L (Large): 3億700万個のパラメータに拡張されたバージョン

入力されたビデオは複数のパッチにトークン化され、これらはトランスフォーマー層を介して処理されます。このプロセスにより、パッチごとの埋め込みが取得され、その後プーリングされて、入力ビデオのトータルな埋め込みが生成されます。

__wf_reserved_inherit

2.2 - 事前トレーニングデータセット

堅牢で汎用性の高いビデオ理解を実現するために、TWLV-Iは表1に詳しく説明されている多様なデータセットで事前トレーニングされています:

  • ビデオデータセット

    • Kinetics 710(65.8万動画クリップ)

    • HowTo360K(36万動画クリップ、HowTo100Mのサブセット)

    • WebVid10M(1073万動画クリップ)

  • 画像データセット(合計1500万画像):

    • COCO(11.3万画像)

    • SBU Captions(86万画像)

    • Visual Genome(10万画像)

    • CC3M(288万画像)

    • CC12M(1100万画像)

このビデオデータセットと画像データセットの組み合わせにより、動きのダイナミクスと静的なビジュアル特徴の両方を理解するTWLV-Iの能力が向上します。

2.3 - トレーニング目的

TWLV-Iは、基礎的なトレーニングアプローチとしてマスクモデリングモデルを採用しています。しかし、動きと外観の両方の理解においてモデルの性能を最適化するために、再構成ターゲットを多様化しています。この戦略は、様々なビデオ理解タスクにわたって優れた性能を発揮できる、頑健なモデルの作成を目的としています。モデルは、この目的と前述のデータセットを使用してゼロからトレーニングされます。

2.4 - フレームサンプリング

__wf_reserved_inherit

フレームサンプリングのプロセスは、ViTアーキテクチャの計算上の制約があるため非常に重要です。トークンの数が増えると、計算の複雑さ(二次関数的)も増します。これを処理するため、私たちはMulti-Clip Embedding(マルチクリップ埋め込み、図4を参照)と呼ばれる戦略的なフレームサンプリング技術を採用しています:

  1. クリップの分割:入力されたビデオは、それぞれ長さがT秒のM個のクリップに分割されます。

  2. フレームの選択:各クリップからNフレームがサンプリングされます。

  3. 埋め込み生成:このプロセスにより、ビデオ1本につきM個の埋め込みが作成されます。

  4. 柔軟な表現:埋め込みの数はビデオの長さに比例して増加するため、可変長のビデオ処理が可能になります。

  5. 単一の埋め込みオプション:ビデオ全体を表すために単一の埋め込みが必要とされる場合は、M個の埋め込みを平均化します。

このアプローチにより、TWLV-Iは短期および長期の時間的ダイナミクスの両方を捉える能力を維持しながら、様々な長さのビデオを効率的に処理できます。

強力なViTアーキテクチャと、多様な事前トレーニングデータセット、および革新的なフレームサンプリング技術を組み合わせることで、TWLV-Iは複雑なビデオ理解タスクに対処する十分な能力を備えています。この強固な土台により、TWLV-Iは外観中心および動き中心の両方のベンチマークにわたって堅牢に機能することができ、それについては本評価フレームワークの以降のセクションで詳しく見ていきます。

__wf_reserved_inherit

3 - 動作認識

動作認識(Action Recognition; AR)はビデオ理解における基本的なタスクであり、ビデオを定義済みの人間の動作カテゴリに分類することを目的としています。このタスクは、外観と動きの両方の理解を必要とするため、ビデオ基盤モデルの性能を評価するための重要なベンチマークとなっています。

3.1 - ベンチマーク

私たちは、それぞれ異なる特徴を持つ、代表的な5つのARベンチマークにおいてTWLV-Iの性能を評価しました:

  1. Kinetics-400 (K400):外観ベースの動作に焦点を当てた大規模データセット

  2. Something-Something-v2 (SSv2):時間的関係を重視した動き中心のデータセット

  3. Moments-in-Time (MiT):多様な動作カテゴリを持つ、もう1つの外観重視のデータセット

  4. Diving-48 (DV48):ダイビングの動作に特化した、詳細かつ動き中心のデータセット

  5. Epic-Kitchens (EK):日々の台所での活動を捉えた一人称視点(自我中心)のデータセット

これらのベンチマークは包括的な評価環境を提供し、外観重視および動き中心の両方のシナリオにわたってTWLV-Iの能力を評価できるようにします。

3.2 - 評価手法

私たちは、動作認識タスクにおける標準的な手法であるマルチビュー分類法を採用しています:

  1. 入力ビデオを空間的にリサイズし、要求される解像度に適合させます

  2. 空間次元に沿ってm個、時間次元に沿ってn個のクリップを一様にサンプリングし、合計m × n個のクリップを作成します

  3. 各クリップのクラス確率を算出します

  4. 確率を平均化して最終的な出力を取得します

このアプローチにより、入力ビデオの異なる空間的および時間的セグメントにわたるモデルの性能が徹底的に評価されます。

3.3 - リニアプロービング(線形評価)

リニアプロービングは、モデル全体をファインチューニングすることなく、学習された表現の品質を評価するために使用される技術です。以下のステップを含みます:

  1. 特徴抽出器(バックボーンモデル)を固定(フリーズ)します

  2. フリーズされた特徴の上に線形分類器を配置してトレーニングします

線形分類器は、埋め込みベクトルの次元数から動作クラスの数へのマッピングを行う重み行列で構成されます。

__wf_reserved_inherit
結果と分析

表3は、様々なベンチマークとモデルにおけるリニアプロービングの結果を示しています。主な観察結果は以下の通りです:

  • TWLV-Iはすべてのベンチマーク、特にそのアーキテクチャ規模(ViT-BおよびViT-L)において強力なパフォーマンスを示しています。

  • SSv2において、TWLV-Iは、事前トレーニングにSSv2を含んでいるV-JEPAを除き、ViT-H (DFN) や ViT-g (InternVideo2) などのより大規模なモデルを凌駕しています。

  • TWLV-IのViT-Lモデルは、EKおよびDV48のベンチマークにおいて、より大規模な他モデルを上回る結果を示しています。

これらの結果は、単純な線形分類器を使用して評価した場合であっても、TWLV-Iが様々な動作認識タスクにうまく汎用できる、豊かな表現特徴を学習できていることを裏付けています。

3.4 - アテンティブプロービング(注意評価)

リニアプロービングはクリップごとの埋め込み精度についての洞察を提供しますが、特にパッチレベルの教師あり学習で訓練されたモデルにおいて、その真能力を完全に捉えきれない場合があります。この制限に対処するため、私たちは以下を含むアテンティブプロービングを導入します:

  1. フリーズされたモデルの上に、学習可能なクラストークンを持つ単一のアテンション層を導入してトレーニングします

  2. 出力されたクラストークンを線形分類器に入力します

  3. Top-1精度を測定します

この手法により、モデルのパッチ単位での表現能力をより詳細に評価することが可能になります。

__wf_reserved_inherit
結果と分析

表5は、アテンティブプロービングの結果を示しています。主な発見は以下の通りです:

  • TWLV-Iは、外観重視および動き中心の両方のベンチマークにわたって、他のモデルと比較して優れた性能を達成しています。

  • アテンティブプロービングにおける強力なパフォーマンスは、TWLV-Iが同等のモデル群に比べて、より詳細で豊かなパッチ単位の表現をそなえていることを示唆しています。

3.5 - K近傍法(K-Nearest Neighbors)

勾配法に基づく評価での潜在的な偏り(バイアス)を排除し、パラメータフリーな状態で埋め込みの品質を評価するため、私たちはK近傍法(KNN)分類タスクを採用しています。このノンパラメトリックなアプローチにより、異なるモデルアーキテクチャ間で埋め込みベクトルをより公正に比較することができます。

私たちは、以下の2つの手法で埋め込みを生成します:

  1. 一律の埋め込み(Uniform Embedding):ビデオ全体に対して1つの埋め込みベクトルを生成します。

  2. マルチクリップ埋め込み(Multi-Clip Embedding):ビデオ全体にわたる2秒間のクリップから複数の埋め込みを生成します。

マルチクリップ埋め込みでは、2つの評価戦略を採用しています:

  • ビデオレベル:すべてのクリップの埋め込みを平均化して、単一のビデオ表現を作成します。

  • クリップレベル:各クリップが獲得した投票を合計して、最終的なクラスを決定します。

__wf_reserved_inherit
結果と分析

表6は、異なるモデルおよび埋め込み戦略におけるKNN分類の結果を示しています。主な観察結果は以下の通りです:

  • TWLV-Iは、Kinetics-400(K400)およびSomething-Something-v2(SSv2)の双方のデータセットにおいて、特に対象モデルが同等規模のものと比較した際に、極めて競争力のある性能を示しています。

  • Uniform(一律)埋め込みの設定において、TWLV-I-ViT-BはK400で57.51%、SSv2で19.82%のTop-1精度を達成し、同一のアーキテクチャを持つUMT_s2を凌駕しています。

  • TWLV-I-ViT-Lは強力な結果を示しており、K400で65.97%、SSv2で19.47%のTop-1精度を達成し、いくつかのより大規模なモデルを上回っています。

それにもかかわらず、アテンティブプロービングでの結果とは異なり、KNN評価においてTWLV-IはK400およびSSv2の双方でInternVideo2に一歩及ばない結果となりました。これは以下を示唆しています:

  1. TWLV-Iの埋め込みをノンパラメトリックな方法で活用する余地がまだ残されていること。

  2. 特に長時間のビデオ(単一クリップの長さを大幅に超えるもの)について、その埋め込みを効果的に表現する方法に関する更なる研究が必要であること。

これらの結果は、ビデオ表現の複雑さと、異なる評価手法のすべてにわたって普遍的に強力な埋め込みを構築することの難しさを物語っています。

3.6 - SSv2を用いた事前トレーニング

V-JEPAなどのモデルとの公平な比較を行い、事前トレーニングに動き中心のデータを取り込むことの影響を評価するため、私たちはSomething-Something-v2 (SSv2) データセットをTWLV-Iの事前トレーニングフェーズに組み込む追加の実験を行いました。

私たちは、元のデータセット群に加えて事前トレーニング用データにSSv2を組み込み、TWLV-I(ViT-Lアーキテクチャ)のバリアントをトレーニングしました。これにより、この追加データが様々なベンチマークや評価に与える影響を直接比較できます。

結果と分析

このSSv2を組み込んで拡張されたモデルの評価結果は、表3、表5、および表6の下部に示されています。主な発見は以下の通りです:

  1. SSv2パフォーマンスの進歩:すべての評価方法(リニアプロービング、アテンティブプロービング、およびKNN)を通じて、そのモデルはSSv2ベンチマークにおいて大幅な進化を遂げています。たとえば、リニアプロービング(表3)では、SSv2でのTop-1精度が46.41%から48.14%に上昇しました。

  2. 全体の総合的性能向上:事前トレーニングにSSv2を含めることで、他のベンチマークにおいても性能向上が見られました。これは、動き中心のデータを追加したことで、モデルの全体的なビデオ理解能力が向上したことを示唆しています。

  3. 専門特化モデルとの比較:性能が改善されたものの、動き中心のSSv2における事前トレーニング拡張モデルのKNN性能は、同テスト上で依然としてV-JEPAおよびInternVideo2に対して遅れをとっています。これは、TWLV-Iのパッチレベルの表現能力は強力である一方、ビデオレベルでの表現力には改善の余地があることを示しています。

  4. 表現性能におけるトレードオフ:結果は、TWLV-Iのパッチレベルとビデオレベルの表現において、潜在的な不均衡がある可能性を浮き彫りにしています。この顕著なギャップへの対処は、今後のモデル拡張に際しての重要フォーカスとなるはずです。

これらの発見は、堅牢なビデオ基盤モデルの開発において多様な事前トレーニングデータの存在が極めて重要であることを強調しています。また、外観中心のベンチマークでの高い性能を維持しつつ、動き中心のタスクにおいて特定の専門モデルにより良く対抗するために、TWLV-Iを改良できる具体的な領域を指示してくれています。

4 - ImageNet 分類

ビデオ基盤モデルの汎用性と、それらが一般的な画像認識モデルとして機能する可能性を評価するために、ImageNet分類タスクにおけるTWLV-Iの性能評価を行いました。このベンチマークは、静止画像を処理・理解するモデルの能力についての洞察を提供し、これは包括的なビデオ理解システムを構築する上でも不可欠な要素です。

4.1 - 結果と分析

ImageNetの分類結果は、表3(リニアプロービング)および表5(アテンティブプロービング)の最後の列に示されています。主な観察結果は以下の通りです:

  1. 外観中心のタスクとの相関関係:一般的に、外観中心の動画動作認識タスク(例: Kinetics-400)で優れたスコアを達成するモデルは、ImageNetベンチマークにおいても強力な性能を発揮します。この相関関係は、ビデオ理解のために学習された特徴が、静止画分類タスクにも効果的に転移できることを示唆しています。

  2. TWLV-Iのパフォーマンス

    • リニアプロービング(表3)において、TWLV-I-ViT-LはImageNetで72.98%のTop-1精度を達成し、競争力はあるもののトップには至っていません。

    • アテンティブプロービング(表5)では、TWLV-I-ViT-Lは79.19%のTop-1精度へと性能が向上しており、アテンションメカニズムを介した学習済み特徴のさらなる有効活用を示してくれています。

  3. 専門特化モデルとの比較:TWLV-Iはビデオベースのタスクにおいて強固なパフォーマンスを発揮している一方で、いくつかの特定目的のモデルと比較するとImageNet分類のスコアには目に見えるギャップがあります。たとえば、InternVideo2はImageNetにおいてTWLV-Iを大幅に上回っていますが、ビデオ動作認識タスクにおいてはその性能差は狭まり、場合によっては逆転することもあります。

4.2 - 示唆と洞察

これらの観察に基づき、私たちは次の洞察を得ました:

  1. 静止画像処理における制約:結果から、TWLV-Iは、当該タスクに最適化されたモデルと比較して、静止画像の処理についてある程度の制限があることが示されています。これは、モデルの将来のアップグレード段階における改善余地があることを示します。

  2. 動作情報の活用能力:ImageNetのスコア差をよそに、ビデオタスクにおいてTWLV-Iと他モデルとの性能ギャップが縮まることは、TWLV-Iがビデオ理解において動作情報を非常に効果的に活用していることを示唆しています。この能力は外観ベースの特徴保管と補完し合い、結果として強力なトータルビデオ分析性能をもたらします。

  3. ビデオと画像能力の均衡化:TWLV-Iを単なる動画特化モデルから、さらに前へと進化させるために、今後の研究ではその強力なビデオ分析能力を損なうことなく、単一画像を理解する能力を強化することに焦点を当てるべきです。

総括として、TWLV-Iはビデオ理解タスクにおいて強力な性能を示しているものの、ImageNet分類結果は、静止画像処理におけるいくつかの改良すべき領域を示しています。これらの制約に対処することで、ビデオと画像の双方のドメインにわたって秀でた、より包括的な視覚基盤モデルの実現につながる可能性があります。

5 - 時間の動作ローカライズ

時間の動作ローカライズ(Temporal Action Localization; TAL)はビデオ理解における重要なタスクであり、トリミングされていない一連のビデオの中から特定の動作を特定し、時間的位置を特定することを含みます。このタスクは自動運転、スポーツ分析、コンテンツに基づくビデオ検索などの応用において特に重要です。TALでは、モデルが長くて複雑なビデオを分析し、その中で発生する各動作の時間的な境界と対応するクラス分類ラベルを正確に判定することが求められます。

5.1 - 評価の視点

TALは、主に以下の2つの主要な視点からビデオ基盤モデルを評価します:

  1. 時間的感度:関心のある動作が特定のタイムステップで発生したかどうかを識別する能力。

  2. インスタンス識別能力:フレームごとのセグメントを、完全な一つの動作インスタンスに識別またはグループ化する能力。

TALは本質的に動作中心のタスクとして設計されていますが、私たちの分析によれば、これら2つの側面の効果的な達成において、外観と動きの双方の能力が相乗的に寄与していることが明らかになりました。

5.2 - 手法

私たちは、TWLV-Iおよび他の動画基盤モデルを、以下の2つの著名なTALデータセットにおいて評価しました:

  1. ActivityNet-v1.3

  2. THUMOS14

検出用のヘッドとしてはActionFormerを採用しました。そして、以下の2つの異なる検証方法で評価を行いました:

  1. 自己完結型(Self-contained):モデルの外部サポートを受けることなく、自ら単独で分類と回帰の両方を実行します。

  2. 外部分類器併用型(w/ External Classifier):モデルは二値分類を行い、実際の動作クラスの予測は外部の分類器が行います。

特徴の抽出は、「フレームサンプリング」セクションで説明したマルチクリップ埋め込み手法に従って行われました。

5.3 - 結果と分析

表9と表10はそれぞれ、THUMOS14およびActivityNet-v1.3における包括的な結果を示しています。

__wf_reserved_inherit

THUMOS14(表9)

  • TWLV-I(当社モデル)は、すべての検証指標において、同一スケールの他のモデルを一貫して上回る性能を示しています。

  • TWLV-I-ViT-Lは、自己完結型設定で58.75%、外部分類器併用設定で53.63%という最高の平均mAPを達成しました。

  • 特筆すべきは、TWLV-I-ViT-LがDFNやV-JEPA (ViT-H) のようなより大規模なモデルををも凌駕している点であり、その優れた汎用・一般化能力を証明しています。

__wf_reserved_inherit

ActivityNet-v1.3(表10)

  • TWLV-Iはここでも、そのアーキテクチャの規模感において屈指のパフォーマンスを示しています。

  • TWLV-I-ViT-Lは、平均mAPで34.98%(自己完結型)および39.49%(外部分類器併用型)を記録しました。

  • 驚くべきことに、TWLV-Iは厳格なIoU閾値(例: 0.95)において極めて優れた性能を発揮しており、並外れた時間的感度を有していることが示されています。

5.4 - 主要な洞察

これらの結果に基づき、私たちは次の洞察を得ました:

  1. スケール効率:TWLV-Iのパフォーマンス、特にViT-Lの規模感において他社大容量モデルを打ち負かしている現状は、その効率的な設計アーキテクチャとトレーニング手法を明白に証明しています。

  2. 時間的精密さ:極めて厳しい基準である厳格なIoU閾値(ActivityNetにおける0.95等)での高スコア獲得は、TWLV-Iが誇る突出した時間的感度の鋭さを証明しています。

  3. モデル規模の影響:InternVideo2のトップパフォーマンス、特に自己完結型の評価における実績は、TALタスクにおいて分類と時間的境界の回帰を同時に実行する際、モデルの規模拡張が大きく利益をもたらすことを示唆しています。

  4. 評価戦略:単に「動きの理解」のみに的を絞って正確に測定したい場合は、外部分類器との併用が推奨されます。一方で、外観の理解度をも包含するより網羅的な評価を望む場合は、自己完結型のアプローチが求められます。

  5. 汎化能力:異なる複数のデータセットおよび評価方法にわたるTWLV-Iの終始強力なパフォーマンスは、時間の動作ローカライズ分野における主要バックボーンとしての屈強さを表しています。

これらの結果は、時間の動作ローカライズという極めて複雑な課題に対するTWLV-Iの抜群の有用性を物語っており、時間的感度と動作のまとまり認識の双方においてバランスよく実力を備えていることを明確に示しています。様々なスケールや多様な測定環境において現れたその高い適合能力は、ビデオ理解全般を支える汎用的ベース基盤としての高いポテンシャルを示しています。

6 - 空間・時間の動作ローカライズ

空間・時間の動作ローカライズ(Spatio-Temporal Action Localization; STAL)は、ビデオの中の特定の動作を認識するだけでなく、編集されていないビデオ系列内の空間(画面中のどこか)および時間(いつ発生したか)の双方を正確に検知・特定する、高度で複合的な難関課題です。この課題はアクションの精密な分析が必要とされるシーンで重要視され、外観と動き双方の完全な統合理解がモデル側に問われます。

6.1 - データセットと評価

私たちは、1本あたり15分間の映画から切り出された430個の動画クリップで構成されているAVA v2.2データセットを用いてモデル検証を行っています。キーフレームは毎秒付与され、学習用セットに210,634枚、検証用セットに57,371枚のラベル付きフレームが含まれています。データセットには、各俳優に紐付けられた80個の原子的な基本動作ラベルが含まれています。

この動作評価では、最新のv2.2アノテーションを使用し、Intersection over Union (IoU)の閾値0.5におけるフレーム平均精度(Frame Average Precision; fAP)を取得して比較しています。私たちはエンドツーエンドのSTALフレームワークを採用し、バックボーン側のビジュアルモデル部分を固定した状態でデコーダの追加トレーニングを実行しました。

6.2 - 結果と分析

__wf_reserved_inherit

表11は、STALタスクにおける性能評価を示しています。主な観察結果は以下の通りです:

  • 他モデルとの対比:TWLV-I、UMT、およびInternVideo2は、DFNやV-JEPAより優れた性能を発揮しています。DFNとV-JEPAは他の種類のタスクで全く異なる極端なスコア傾向を見せていましたが、物体としての人物特定と、時間的な動作認識の双方をクリアする必要があるSTALタスクにおいては、その性能は似たような値にとどまっています。

  • 検出局所化における難点

    • V-JEPA:人物などのインスタンスの特定そのものに手こずり、それが後続の動作認識スコアにも波及して悪影響を与えています。

    • DFN:得意とする外観の精緻な理解力により、対象が画像のどこにいるのかを素早く特定できていますが、時間情報の解釈の限界から、そこでどのような動作が行われているかの認識で誤答しています。

  • TWLV-Iの特徴的な強み

    • TWLV-Iは、物体の外観と動作中の物理的変化を極めて高いレベルで調和よく理解することで、STALタスクにおける確固たる強さを現しています。

    • ViT-Lモデルにおいて、TWLV-IはfAP@0.5で27.39を達成しました。これはDFNやV-JEPAを大きくリードし、より構造の大きい巨体モデル群であるInternVideo2の記録に肉薄する性能スコアです。

6.3 - 主要な洞察

これらの観察に基づき、私たちは次の洞察を得ました:

  1. 調和のとれた深い読解:今回の好成績は、TWLV-Iが時空間情報を極めて適切に理解できていることを示す十分な証拠であり、精度の高い時空間ローカライズを実現する上でも要となります。

  2. 全般的なビデオ判定価値:終始シームレスにエンドツーエンドで行われるSTAL検定は、空間と時間の2つの次元におけるパフォーマンスを高い再現性を持って明らかにする包括的なモデル審査手法と言えます。

  3. 手法の有効性検証:TWLV-IがUMTやInternVideo2と並んで好成績を残している現状は、空間位置特定と動作分析の2つの異なる目標を同時に処理する能力の現れであり、外観のみ、あるいは動作のみといった限定的な一方を追求した他社モデルとは一線を画しています。

これらの裏付けは、時空間の複雑なシーンを正確に記述する必要がある高度な難題(STAL等)を解決するために、外観情報と動作変化情報の双方が一つの脳(モデル)の中にバランスよく統合されていることが如何に決定的であるかを語っています。

7 - 時間の動作セグメンテーション

時間の動作セグメンテーション(Temporal Action Segmentation; TAS)は、編集されていない長時間のビデオから人間の複雑な活動の全貌を読み解くために非常に重要とされている応用課題です。セキュリティ監視、ハイライト映像などの要約作成、作業スキルの機械的審査など、広範な産業でその活躍が期待されています。TASでは、トリミングされていないビデオを入力として直接流し込み、それぞれのフレームに一連の正しいアクションのクラス分類ラベルを追加していく作業を行います。

7.1 - 表記比較基準とアプローチ

私たちは、TASの性能を判定すべく以下の3つの高難度検証基準を用意しました:

  1. 50Salads:調理の手順において、細々とした変化を伴う複雑な一連の処理を含んでいます。

  2. GTEA:一人称の目の高さで撮影した、複雑な身の回り仕事の一連のプロセスを記録しています。

  3. Breakfast:引いた位置からも撮影された、全身でキッチン作業をこなす長時間の全体構成データです。

TASのデコーダ部分としてはASFormerを使用しました。閾値10、25、および50のもとで測定されたF1スコアの平均値を「mF1」として評価に採用しています。マルチクリップ埋め込みを用いて特徴を抽出し、空間次元プーリングを施すことで時間軸のみを滑らかに残しています。

7.2 - 結果と分析

__wf_reserved_inherit

表12は、これら3つのテスト条件のもとで実施したTAS試験の結果を詳細を伝えています:

  • 50Salads:TWLV-Iは、ViT-Bで80.69、ViT-Lで80.60のmF1スコアをマークしました。これは、UMTやDFNといった外観重視モデルや、動作変化を専門としたV-JEPAをも完全に跳ね除ける数値です。また、エディットおよび予測適合率の項目についても、TWLV-Iの手法が正解データ配列に極めて整合していることを明らかにしています。

  • GTEA:TWLV-Iはさらに強さを示し、ViT-Bで88.26、ViT-Lで88.43のmF1スコアを記録して競合を大きく引き離しました。これは、一瞬で移り変わるアクションの正確なセグメンテーションを必要とする、一人称主観視点の動画において真価が浮き彫りになることを証明しています。

  • Breakfast:被写体が遥か遠くにフレームインする視野角の広いこのシーンでも、TWLV-Iは実力を落とすことなく、ViT-Bで52.18、ViT-Lで50.66という好ましいmF1スコアを獲得しています。目まぐるしく変化するカメラ視野の切り替わりに対しても、その対応柔軟性が高水準に維持されています。

7.3 - 主要な洞察

これらの結果に基づき、私たちは次の洞察を得ました:

  1. 完成されたオールラウンダーとしての実力:データの多様性によらずあらゆる分類群で最高峰に位置するTWLV-Iの一貫した強さは、外観の把握力と動作の持続変化を漏らさず記述する能力のバランスが非常に良好であることを意味しています。

  2. 実際の推移への適合精度:エディットスコアおよびmF1スコアが高水準にまとまっていることは、TWLV-Iが予測したアクションの流れ全体(系列)が、実際のビデオ内で人間の動作した現実の順序に正確に合致していることを意味し、将来的なオンサイト実装における安全・信頼性の高さを示しています。

  3. 視野角変化に対する屈強さ:上空からの撮影、手元を映す一人称主観カメラなど、極端な画角変更があっても他製品以上のスコアを叩き出し続ける事実は、いかなる用途でも現場を選びにくい柔軟性のある頑丈なモデルであることを実証しています。

  4. InternVideo2とのベンチマーク性能比較:特定のアングルのデータにおいて、TWLV-IはInternVideo2に類似する好成績を取り分けて現していますが、広範囲にまたがる複数データセットを前にしても性能がブレることのなく、常に一貫した優秀さを維持する確実性は、総合的なポテンシャルの高さをはっきりと映し出しています。

これらの評価により、時系列動作セグメンテーション(TAS)の非常に挑戦的な検証において、TWLV-Iがビデオ解析を応用可能とする多大なる可能性を備えていることが確かに認められました。

8 - 埋め込み空間の可視化

TWLV-Iや他社基盤モデルのビジュアル表現能力がどのように構造化されているかを詳しく探索するため、私たちはt-SNEおよび線形判別分析(LDA)を用いたビジュアル確認実験を実施しました。これにより、作成された埋め込みベクトルが「外観情報」と「動き情報」の各々の側面をどれほど精緻に描写できているかが理解できます。

8.1 - t-SNEを用いた各評価データセット上のマッピング

t-SNEを用いて、Kinetics-400 (K400) および Something-Something-v2 (SSv2) 検証用セットにおける埋め込みベクトル分布をマッピングしました。また、色分けは異なるアクションクラスを表しています。

__wf_reserved_inherit

Kinetics-400(図6)

  • TWLV-I, UMT, および InternVideo2:これらのモデルは同じ特性をもつ動作どうしが1つのブロックのように固まりを構築し、境界線を容易に引くことができるきれいなクラスタリングを示しました。これは、外観に基づいて表現が異なる多数の動作群を驚くほどきれいに判定できていることを意味します。

  • V-JEPA:打って変わって、各動作クラスをごちゃ混ぜに描いてしまい、特徴空間を明確に分割することができていません。静止構造(外観ターゲット)をきれいに捕捉できていない性質が読み取れます。

__wf_reserved_inherit

Something-Something-v2(図7)

  • 全モデルの傾向:面白いことに、TWLV-IやV-JEPAも含め、どのモデルもSSv2のような高度に動きが重視されるデータセットにおいては、一目で分かるようなクラスタリングを表示できませんでした。これは、他の手法に比べ、そもそもSSv2の分類スコアがどの製品でも総じて低い実情と重なっています。

  • そのことが暗示する意味:このプロットによる描画結果は、動きそのものの質的違いを明確なベクトルのまとまりの中に落とし込んで表現することが技術的に如何に困難であるかを雄弁に物語っており、ブレイクスルーを呼び起こす今後の革新的アプローチが待ち望まれます。

8.2 - 動作の方向に対する感度検証

よりミクロなレベルにおいて、モデルが動きをどのように知覚しているかを理解するために、私たちはSSv2から「何かを押し上げる」「何かを引き下げる」といった、動作の物理的方向の読解が無ければおよそ解答不可能な、特定の動作ペアに注目しました。

私たちは、通常の正再生動画から切り出した動画ベクトルと、それを時間軸に対して逆転させた逆再生動画の埋め込みベクトルを抽出し、線形判別分析(LDA)を用いてプロットしました。この検証では、外観が全く同じである動画どうしの順逆方向について、純粋に時間的経過の順序だけでその差異を埋め込みベクトル空間上で分離できるかどうかをテストできます。

__wf_reserved_inherit

結果(図8および図9)

  • TWLV-I:正再生と逆再生の動画が交じることなく極めて良好に二極反転の空間位置を保っており、時間方向の違いをベクトルの差異の形で確実に記述できていることを実証しています。

  • V-JEPA:ここでも正逆識別において最も広い距離感(明確さ)を獲得しています。これは、同モデルが事前トレーニング時から意図的にSSv2データセットを多量に摂取している実績に起因すると考えられます。

  • UMT および InternVideo2:埋め込みの正負領域での重複が大きく分離困難に陥っています。これは、静止画像の精緻な理解を得意とする一方で、時間方向に対してはほぼ感度を持たない(動作変化に対して無頓着な)設計上の構造を示しています。

__wf_reserved_inherit

8.3 - 主要な洞察

これらの観察に基づき、私たちは次の洞察を得ました:

  1. 外観と運動変化を同時に記述する能力:TWLV-Iは、静止画を基準とする認識分類力(K400の図から顕著)と、動作方向による時間秩序変化の知覚力(順逆分析から顕著)の双方を高レベルで併せ持つ、類稀なるオールラウンド性能を持っていることがビジュアルからも明らかになりました。

  2. 動作の質的表現(モデリング)のための課題:SSv2のクラスタリングで全ての競合が描いたカオティックなプロット図は、運動表現のみで多様なクラス群をきれいに定常分離していく作業が今なおどれほど高難易度であるかを示し、ビデオ分野における最大のテーマとして残されています。

  3. 時間変化に対する鋭敏な解釈力:正逆方向のビデオを即座に引き裂くTWLV-Iのおおきな分離能力は、ただ物理的な情報を見るだけでなく、動画ならではの微細な時間フレームの前後変化にまで高い感度で反応を返せていることを意味し、高度な動作記述の足がかりとなります。

  4. 各社モデルの個別得意分野:プロットにより、それぞれの製品群が得意とする設計方針の違いが鮮明になり、外観を高度に見抜くモデルがある一方で、時間的運動のみをうまく感知するような尖った得意領域に特化するなどの現状が浮き彫りになり得ます。

これらの特徴的な視覚マッピングによる可視化手法は、TWLV-Iの脳がどのように特徴を獲得しているかを視覚的に雄弁に説いてくれており、今後の改善策を計画するための重要な技術基盤となります。

9 - 今後の開発テーマ

今後の展望として、TWLV-Iの実用拡大、およびビデオ基盤モデル一般を劇的に変革し、応用領域を広げるためのいくつかの有望な発展レーンが存在します。これらは、モデル能力の大幅補強、スコア改善、さらに多領域における産業実装の加速を目指すものです。

9.1 - モデルスケールの拡張

これまでのところ、主に以下の2つのモジュール構成を中心にリリースしてきました:ViT-BおよびViT-L。しかしながら、当社のTWLV-I-ViT-Lは、一回り体が大きい他社製のViT-HやViT-gの記録と同等、場合によってはそれを超える良好な数値を叩き出しています。この効率の良さは、今後モデルを拡張した場合、さらなる大幅なポテンシャル向上の余白があることを意味します:

  1. 極大規模アーキテクチャの導入:TWLV-Iをより極大サイズのモデルへと引き上げることで、多様な検証ベンチマークにおけるスコアを飛躍的にレベルアップさせることが大いに期待されます。

  2. 内製の極大データセットの構築:自社で囲い込みを行って獲得した並外れた規模の大容量学習資源を使用することで、さらに柔軟であらゆる変化に強い強固なベースを育むことが可能です。これは未体験の難題や新たなシーンをモデルが難なく見抜く手助けとなります。

  3. 高効率スケーリング設計:スパースアテンション構造やMixture-of-Experts (MoE) と言われるマルチネットワーク構造などの高効率スケーリング手法を採用することで、開発リソース資源を際限なく食いつぶすことなく、極端な機能アップグレードを安定して実現させられます。

9.2 - 画像埋め込み機能の大幅強化

TWLV-Iはビデオに関わる項目で強い優位性を現したものの、単一の画像そのものの埋め込みを表現する精度に関しては、さらに向上させられる余地が残っています:

  1. 静止フレームの読解力強化:ビデオから切り出した1枚のフレームそのものを正確に把握する精度を強化することは非常に合理的です。この能力が磨かれれば、ビデオの得意さと画像の得意さが統合され、TWLV-Iは総合的に完璧なビジュアル認識プラットフォームとなり得ます。

  2. 転移学習アプローチの探索:動画上で構築された「動作変化を前提とした知覚表現」を、うまく静止画における分類タスクの補助特徴へと転移する学習アプローチが構築できれば、一般的な画像AIタスクにおける信頼性を容易に格上げできます。

  3. 単一フレームワークでの統合学習:同一のシステム構成のままで、ビデオからの入力と静止画からの入力のいずれでも変わらぬ適合率をたたき出す、シームレスな統合アーキテクチャの変更を推進します。

9.3 - モダリティレンジの拡張

さらに、TWLV-Iとしての利便性を全方位的にレベルアップさせ、AI産業自体の需要とより強固に噛み合わせるために、モダリティレンジを着実に拡張することが非常に重要です:

  1. マルチモダルの活用促進:ビデオと引き当てられる文章推薦(ビデオテキスト検索)や、動画を正確に文字に直すビデオキャプションなど、極めて複雑な多元タスクを処理できるように改良します。これにより、卓越した映像把握力を生かしたまま、テキストと調和的に交信できるようになります。

  2. ビデオLMMとしての位置づけ構築:TWLV-Iの構造をビジュアル側にとって最適なビジョンエンコーダとして位置付け、先進的なビデオ・大規模言語モデル(VLM)との高水準な接ぎ木を実現します。高度なテキスト理解力とのシームレスな融合が可能となります。

  3. 音声特徴の統合理解:動画内の時間変化に伴う「音声変化(オーディオ)」を映像と時間補正した状態で統合することで、音と映像のタイミングマッチング、音の出どころイベントの検出など、さらに応用度をました技術を実現します。

  4. テスト手法の体系化と基準設定:これらの極めて応用的なマルチモダル性能について、信頼性高くスコア検証していけるよう、独自の統合的な判定テスト手法や新たな検証基準を設け、その安定性を保証していきます。

これらの将来像を追うことで、TWLV-Iが提供するバリューを「ビデオ専用のベース」から、「様々な周辺状況に対して瞬時に協調できる究極の知覚システム」へと引き上げることを想定しています。この発展は、現在実現されている機能群での性能を引き上げるのみならず、自動応答アシスタント、次世代のコンテンツクリエイト事業、革新的な人間とロボットのインターフェース構築といった未来的な産業へ決定的な道を開きます。

10 - おわりに

私たちは今回の体系的なビデオ検証において、絵画的な美しさ(外観)と移り変わる変化(動き)の2つの要素の調和が、映像解釈という広大で豊かな目的をクリアするためにいかに決定的であるかを詳述してきました。私たちの取り組みは、以下の素晴らしいブレイクスルーと発見をもたらしています:

  1. 多角的で包括的な測定規格:動画の時間的ローカライズから一連のアクションシーケンス抽出まで、あらゆる側面においてモデルの能力を均一な視点で測定できる、信頼性の高い規格を提供しています。

  2. 既存モデルの顕著な改善余白:一連の周到な検証プロセスにより、他モデル群が動作と外観のいずれか一方のみの知覚に依存し、両者を共にハイパフォーマンスに両立することがいかに苦手であるかを明らかにし、この分野におけるミッシングリンクを特定しました。

  3. 満を持してのTWLV-Iの紹介:これらの業界の不均衡に対して最適な解を与えるべく、外観と動作の両方を同時に、そして高解像度に把握する新世代のアプローチ「TWLV-I」を投入しました。

  4. 抜群の埋め込み品質:TWLV-Iが生む埋め込みベクトルは、高度な下流タスクを非常に簡便にいなす高い適用力を見せており、実用化の検証コストを劇的に圧縮します。

  5. 汎用的で強力な検証用フレームワーク:本ブログでお披露目された多様な検証とプロット比較法は、今後のビデオ基盤モデルの基礎テスト規格となる得るよう、業界コミュニティへ開示されています。

  6. 将来のイノベーションプラン:今後の研究をドライブするために、モデルの大容量化、画像識別のブラッシュアップ、さらには音響やテキスト等の他系統とのマルチリンガル的な統合を進めていきます。

  7. 業界の目指すべき座標の提示:外観性能のみの偏重、動きのみの過学習を克服し、双方をひとつの体にバランスよく共存させる姿勢を示すことで、ビデオ理解領域が目指すべき進路を設定できたと自負しています。

要約すれば、TWLV-Iは万能型でかつ不屈の動画基盤モデルを作るうえで、記念碑的な飛躍を示すモデルです。外観知覚と動作知覚を絶妙に調和させることで、これまで想像さえ難しかった、高次元の動画理解と多角的な用途への扉が開かれました。私たちは、ここで開示された評価スキームやアイデアが多くの研究者をエンパワーし、新しい視点、そしてより本質に迫るアプローチで今後の課題に取り組んでもらえることを切に願っています。

この先、こうした完璧な統合基盤がさらに成熟していくプロセスは、ビデオを取り扱う多くのソフトウェア群のブレイクスルーにつながり、AIが生活シーンを支える究極のパートナーへと変貌していくために重要となります。私たちは世界中のリサーチャーとともにこの挑戦の地盤を盤石なものとし、ビデオAIが切り開く素晴らしい未来へのフロンティアを共に開いていくことを歓迎します。

Twelve Labs チーム

本研究開発は、Twelve Labs ML ResearchおよびML Dataチームの厚い支援のもと、核となる以下の主要執筆者たちの均等な(equal contributionという素晴らしい連携による)献身的な貢献を通じて達成されました。

主要な執筆者・研究代表

Hyeongmin Lee, MLリサーチャー(Research Scientist)

Jin-Young Kim, MLリサーチャー(Research Scientist)

Kyungjune Baek, MLリサーチャー(Research Scientist)

Jihwan Kim, MLリサーチャー(Research Scientist)

Aiden Lee, 最高技術責任者(CTO)

コントリビューター(アルファベット順表記)

Aaron (Jangwon) Lee, MLデータ・インターン\

Calvin (Minjoon) Seo, チーフサイエンティスト(Chief Scientist)

Cooper (Seokjin) Han, MLリサーチャー(Research Scientist)

Daniel (GeunOh) Kim, MLデータエンジニア

Flynn (Jiho) Jang, MLリサーチャー(Research Scientist)

Ian (Soonwoo) Kwon, MLリサーチャー(Research Scientist)

Jay Suh, MLデータエンジニア

Jay (Jaehyuk) Yi, MLリサーチャー(Research Scientist)

Jayden (Junwan) Kim, リサーチ・インターン

Jeff (Jongseok) Kim, MLリサーチャー(Research Scientist)

Kyle (Seungjoon) Park, MLリサーチャー(Research Scientist)

Leo (Daewoo) Kim, MLリサーチャー(Research Scientist)

Mars (Seongsu) Ha, MLリサーチャー(Research Scientist)

Max (JongMok) Kim, MLリサーチャー(Research Scientist)

Ray (Raehyuk) Jung, MLリサーチャー(Research Scientist)

William (Hyojun) Go, MLリサーチャー(Research Scientist)

引用

本プロジェクトおよび私たちの論文が皆様の研究の助けとなりましたら、ぜひスターボタンを押して引用をお願いいたします:

@inproceedings{twelvelabs2024twlv,
  title={TWLV-I: Analysis and Insights from Holistic Evaluation on Video Foundation Models},
  author={Twelve Labs},
  year={2024}
}

TWLV-Iの技術レポートをarXiVおよびHuggingFaceでご確認ください! コードはGitHubで公開されています:https://github.com/twelvelabs-io/video-embeddings-evaluation-framework

TLDR

  • 包括的な評価フレームワーク:Twelve Labsは、外観と動きの両方の分析を重視した、ビデオ理解のための堅牢な評価フレームワークを提供します。

  • TWLV-Iモデル:当社の新しいビデオ基盤モデル(TWLV-I)は、これら2つの側面をバランスよく捉えることに優れており、最先端のモデルと同等以上の性能を発揮します。

  • タスクパフォーマンス:TWLV-Iは、動作認識、時間の動作ローカライズ、および空間・時間の動作ローカライズにおいて強力な結果を示しており、その汎用性の高さが浮き彫りになっています。

  • 可視化による洞察:t-SNEおよびLDAの可視化により、TWLV-Iは他のモデルと比較して、優れたクラスタリング能力と動きの識別能力を備えていることが明らかになりました。

  • 今後の方向性:TWLV-Iの汎用性と適用性を高めるために、モデル規模の拡張、画像埋め込みの改善、およびモダリティの拡張を重視します。

  • 今後の研究への指針:提案された手法は、ビデオ理解における新たな基準を設定し、この分野における今後の研究開発を導くことを目的としています。

1 - イントロダクション

今日のデジタル環境において、ビデオは普遍的な言語であり、文化を超えて複雑なアイデアや感情をシームレスに伝えています。この豊かなメディアを正確に解釈するには、堅牢なビデオ理解システムの構築が不可欠です。複数の画像のシーケンスであるビデオには、各フレームの外観を認識することと、時間の経過とともに展開する動きを理解することの、2つの焦点を当てる必要があります。

Twelve Labsでは、ビデオ理解におけるこれら2つの側面に対応する包括的な評価フレームワークの必要性を認識しています。私たちの目標は、外観と動きの両方の能力を正確に測定する評価手法を確立することにより、この分野における今後の研究の明確な方向性を提示することです。

1.1 - 基盤モデルとビデオ理解

基盤モデル(FM)は、特定の領域内の多様なタスクをモデルが処理できるようにすることで、AIに革命をもたらしました。言語および画像基盤モデルが大きな進歩を遂げた一方で、ビデオ理解には特有の課題が存在します。既存のビデオ基盤モデルは、クラスタリングや分類タスクの限界からも明らかなように、外観と動きの両方を効果的に捉えることができない場合が多々あります。

1.2 - TWLV-Iと評価フレームワークの紹介

__wf_reserved_inherit

これらの課題に対処するため、私たちは図1に示すように、外観ベースおよび動きベースの両方のタスクで卓越するように設計されたTWLV-Iを導入します。さらに重要なこととして、TWLV-Iの能力を評価するだけでなく、今後のモデルのベンチマークを設定する堅牢な評価フレームワークを提案します。

私たちのフレームワークには、動作認識、時間の動作ローカライズ、空間・時間の動作ローカライズなど、ビデオ理解の特定の側面を評価するために細心の注意を払って設計された様々なタスクが含まれています。この包括的なアプローチを通じて、バランスのとれた能力の重要性を強調し、業界をより包括的なモデル開発へと導くことを目指しています。

ビデオモデルの性能と適切な評価の両方に焦点を当てることで、私たちはビデオ研究におけるマイルストーンを提示し、このダイナミックな分野における今後の進歩と革新への道を切り開くことを熱望しています。

2 - TWLV-I & ビデオ基盤モデル評価フレームワーク

__wf_reserved_inherit

TWLV-Iのアーキテクチャとトレーニングプロセスは、外観と動きの両方の理解に対するニーズのバランスをとりながら、ビデオ理解に特有の課題に対処するように設計されています。図2は、外観中心のベンチマーク(Kinetics-400)と、動き中心のベンチマーク(SSv2およびDiving-48)におけるTWLV-Iのパフォーマンスの視覚的な比較を示しています。このプロットは、TWLV-Iのバランスの取れた能力を示しており、両方のタイプのタスクを高度に処理できることを実証しています。

このサブセクションでは、TWLV-Iのトレーニング手法とフレームサンプリング技術の主要な側面について詳しく説明します。

2.1 - アーキテクチャ

TWLV-Iは、Visual Transformer(ViT)アーキテクチャに基づいて構築されており、ビジュアルデータを処理するその強力な能力を活用しています。私たちは、次の2つのバリアントを実装しています:

  1. ViT-B (Base): 8600万個のパラメータを持つモデル

  2. ViT-L (Large): 3億700万個のパラメータに拡張されたバージョン

入力されたビデオは複数のパッチにトークン化され、これらはトランスフォーマー層を介して処理されます。このプロセスにより、パッチごとの埋め込みが取得され、その後プーリングされて、入力ビデオのトータルな埋め込みが生成されます。

__wf_reserved_inherit

2.2 - 事前トレーニングデータセット

堅牢で汎用性の高いビデオ理解を実現するために、TWLV-Iは表1に詳しく説明されている多様なデータセットで事前トレーニングされています:

  • ビデオデータセット

    • Kinetics 710(65.8万動画クリップ)

    • HowTo360K(36万動画クリップ、HowTo100Mのサブセット)

    • WebVid10M(1073万動画クリップ)

  • 画像データセット(合計1500万画像):

    • COCO(11.3万画像)

    • SBU Captions(86万画像)

    • Visual Genome(10万画像)

    • CC3M(288万画像)

    • CC12M(1100万画像)

このビデオデータセットと画像データセットの組み合わせにより、動きのダイナミクスと静的なビジュアル特徴の両方を理解するTWLV-Iの能力が向上します。

2.3 - トレーニング目的

TWLV-Iは、基礎的なトレーニングアプローチとしてマスクモデリングモデルを採用しています。しかし、動きと外観の両方の理解においてモデルの性能を最適化するために、再構成ターゲットを多様化しています。この戦略は、様々なビデオ理解タスクにわたって優れた性能を発揮できる、頑健なモデルの作成を目的としています。モデルは、この目的と前述のデータセットを使用してゼロからトレーニングされます。

2.4 - フレームサンプリング

__wf_reserved_inherit

フレームサンプリングのプロセスは、ViTアーキテクチャの計算上の制約があるため非常に重要です。トークンの数が増えると、計算の複雑さ(二次関数的)も増します。これを処理するため、私たちはMulti-Clip Embedding(マルチクリップ埋め込み、図4を参照)と呼ばれる戦略的なフレームサンプリング技術を採用しています:

  1. クリップの分割:入力されたビデオは、それぞれ長さがT秒のM個のクリップに分割されます。

  2. フレームの選択:各クリップからNフレームがサンプリングされます。

  3. 埋め込み生成:このプロセスにより、ビデオ1本につきM個の埋め込みが作成されます。

  4. 柔軟な表現:埋め込みの数はビデオの長さに比例して増加するため、可変長のビデオ処理が可能になります。

  5. 単一の埋め込みオプション:ビデオ全体を表すために単一の埋め込みが必要とされる場合は、M個の埋め込みを平均化します。

このアプローチにより、TWLV-Iは短期および長期の時間的ダイナミクスの両方を捉える能力を維持しながら、様々な長さのビデオを効率的に処理できます。

強力なViTアーキテクチャと、多様な事前トレーニングデータセット、および革新的なフレームサンプリング技術を組み合わせることで、TWLV-Iは複雑なビデオ理解タスクに対処する十分な能力を備えています。この強固な土台により、TWLV-Iは外観中心および動き中心の両方のベンチマークにわたって堅牢に機能することができ、それについては本評価フレームワークの以降のセクションで詳しく見ていきます。

__wf_reserved_inherit

3 - 動作認識

動作認識(Action Recognition; AR)はビデオ理解における基本的なタスクであり、ビデオを定義済みの人間の動作カテゴリに分類することを目的としています。このタスクは、外観と動きの両方の理解を必要とするため、ビデオ基盤モデルの性能を評価するための重要なベンチマークとなっています。

3.1 - ベンチマーク

私たちは、それぞれ異なる特徴を持つ、代表的な5つのARベンチマークにおいてTWLV-Iの性能を評価しました:

  1. Kinetics-400 (K400):外観ベースの動作に焦点を当てた大規模データセット

  2. Something-Something-v2 (SSv2):時間的関係を重視した動き中心のデータセット

  3. Moments-in-Time (MiT):多様な動作カテゴリを持つ、もう1つの外観重視のデータセット

  4. Diving-48 (DV48):ダイビングの動作に特化した、詳細かつ動き中心のデータセット

  5. Epic-Kitchens (EK):日々の台所での活動を捉えた一人称視点(自我中心)のデータセット

これらのベンチマークは包括的な評価環境を提供し、外観重視および動き中心の両方のシナリオにわたってTWLV-Iの能力を評価できるようにします。

3.2 - 評価手法

私たちは、動作認識タスクにおける標準的な手法であるマルチビュー分類法を採用しています:

  1. 入力ビデオを空間的にリサイズし、要求される解像度に適合させます

  2. 空間次元に沿ってm個、時間次元に沿ってn個のクリップを一様にサンプリングし、合計m × n個のクリップを作成します

  3. 各クリップのクラス確率を算出します

  4. 確率を平均化して最終的な出力を取得します

このアプローチにより、入力ビデオの異なる空間的および時間的セグメントにわたるモデルの性能が徹底的に評価されます。

3.3 - リニアプロービング(線形評価)

リニアプロービングは、モデル全体をファインチューニングすることなく、学習された表現の品質を評価するために使用される技術です。以下のステップを含みます:

  1. 特徴抽出器(バックボーンモデル)を固定(フリーズ)します

  2. フリーズされた特徴の上に線形分類器を配置してトレーニングします

線形分類器は、埋め込みベクトルの次元数から動作クラスの数へのマッピングを行う重み行列で構成されます。

__wf_reserved_inherit
結果と分析

表3は、様々なベンチマークとモデルにおけるリニアプロービングの結果を示しています。主な観察結果は以下の通りです:

  • TWLV-Iはすべてのベンチマーク、特にそのアーキテクチャ規模(ViT-BおよびViT-L)において強力なパフォーマンスを示しています。

  • SSv2において、TWLV-Iは、事前トレーニングにSSv2を含んでいるV-JEPAを除き、ViT-H (DFN) や ViT-g (InternVideo2) などのより大規模なモデルを凌駕しています。

  • TWLV-IのViT-Lモデルは、EKおよびDV48のベンチマークにおいて、より大規模な他モデルを上回る結果を示しています。

これらの結果は、単純な線形分類器を使用して評価した場合であっても、TWLV-Iが様々な動作認識タスクにうまく汎用できる、豊かな表現特徴を学習できていることを裏付けています。

3.4 - アテンティブプロービング(注意評価)

リニアプロービングはクリップごとの埋め込み精度についての洞察を提供しますが、特にパッチレベルの教師あり学習で訓練されたモデルにおいて、その真能力を完全に捉えきれない場合があります。この制限に対処するため、私たちは以下を含むアテンティブプロービングを導入します:

  1. フリーズされたモデルの上に、学習可能なクラストークンを持つ単一のアテンション層を導入してトレーニングします

  2. 出力されたクラストークンを線形分類器に入力します

  3. Top-1精度を測定します

この手法により、モデルのパッチ単位での表現能力をより詳細に評価することが可能になります。

__wf_reserved_inherit
結果と分析

表5は、アテンティブプロービングの結果を示しています。主な発見は以下の通りです:

  • TWLV-Iは、外観重視および動き中心の両方のベンチマークにわたって、他のモデルと比較して優れた性能を達成しています。

  • アテンティブプロービングにおける強力なパフォーマンスは、TWLV-Iが同等のモデル群に比べて、より詳細で豊かなパッチ単位の表現をそなえていることを示唆しています。

3.5 - K近傍法(K-Nearest Neighbors)

勾配法に基づく評価での潜在的な偏り(バイアス)を排除し、パラメータフリーな状態で埋め込みの品質を評価するため、私たちはK近傍法(KNN)分類タスクを採用しています。このノンパラメトリックなアプローチにより、異なるモデルアーキテクチャ間で埋め込みベクトルをより公正に比較することができます。

私たちは、以下の2つの手法で埋め込みを生成します:

  1. 一律の埋め込み(Uniform Embedding):ビデオ全体に対して1つの埋め込みベクトルを生成します。

  2. マルチクリップ埋め込み(Multi-Clip Embedding):ビデオ全体にわたる2秒間のクリップから複数の埋め込みを生成します。

マルチクリップ埋め込みでは、2つの評価戦略を採用しています:

  • ビデオレベル:すべてのクリップの埋め込みを平均化して、単一のビデオ表現を作成します。

  • クリップレベル:各クリップが獲得した投票を合計して、最終的なクラスを決定します。

__wf_reserved_inherit
結果と分析

表6は、異なるモデルおよび埋め込み戦略におけるKNN分類の結果を示しています。主な観察結果は以下の通りです:

  • TWLV-Iは、Kinetics-400(K400)およびSomething-Something-v2(SSv2)の双方のデータセットにおいて、特に対象モデルが同等規模のものと比較した際に、極めて競争力のある性能を示しています。

  • Uniform(一律)埋め込みの設定において、TWLV-I-ViT-BはK400で57.51%、SSv2で19.82%のTop-1精度を達成し、同一のアーキテクチャを持つUMT_s2を凌駕しています。

  • TWLV-I-ViT-Lは強力な結果を示しており、K400で65.97%、SSv2で19.47%のTop-1精度を達成し、いくつかのより大規模なモデルを上回っています。

それにもかかわらず、アテンティブプロービングでの結果とは異なり、KNN評価においてTWLV-IはK400およびSSv2の双方でInternVideo2に一歩及ばない結果となりました。これは以下を示唆しています:

  1. TWLV-Iの埋め込みをノンパラメトリックな方法で活用する余地がまだ残されていること。

  2. 特に長時間のビデオ(単一クリップの長さを大幅に超えるもの)について、その埋め込みを効果的に表現する方法に関する更なる研究が必要であること。

これらの結果は、ビデオ表現の複雑さと、異なる評価手法のすべてにわたって普遍的に強力な埋め込みを構築することの難しさを物語っています。

3.6 - SSv2を用いた事前トレーニング

V-JEPAなどのモデルとの公平な比較を行い、事前トレーニングに動き中心のデータを取り込むことの影響を評価するため、私たちはSomething-Something-v2 (SSv2) データセットをTWLV-Iの事前トレーニングフェーズに組み込む追加の実験を行いました。

私たちは、元のデータセット群に加えて事前トレーニング用データにSSv2を組み込み、TWLV-I(ViT-Lアーキテクチャ)のバリアントをトレーニングしました。これにより、この追加データが様々なベンチマークや評価に与える影響を直接比較できます。

結果と分析

このSSv2を組み込んで拡張されたモデルの評価結果は、表3、表5、および表6の下部に示されています。主な発見は以下の通りです:

  1. SSv2パフォーマンスの進歩:すべての評価方法(リニアプロービング、アテンティブプロービング、およびKNN)を通じて、そのモデルはSSv2ベンチマークにおいて大幅な進化を遂げています。たとえば、リニアプロービング(表3)では、SSv2でのTop-1精度が46.41%から48.14%に上昇しました。

  2. 全体の総合的性能向上:事前トレーニングにSSv2を含めることで、他のベンチマークにおいても性能向上が見られました。これは、動き中心のデータを追加したことで、モデルの全体的なビデオ理解能力が向上したことを示唆しています。

  3. 専門特化モデルとの比較:性能が改善されたものの、動き中心のSSv2における事前トレーニング拡張モデルのKNN性能は、同テスト上で依然としてV-JEPAおよびInternVideo2に対して遅れをとっています。これは、TWLV-Iのパッチレベルの表現能力は強力である一方、ビデオレベルでの表現力には改善の余地があることを示しています。

  4. 表現性能におけるトレードオフ:結果は、TWLV-Iのパッチレベルとビデオレベルの表現において、潜在的な不均衡がある可能性を浮き彫りにしています。この顕著なギャップへの対処は、今後のモデル拡張に際しての重要フォーカスとなるはずです。

これらの発見は、堅牢なビデオ基盤モデルの開発において多様な事前トレーニングデータの存在が極めて重要であることを強調しています。また、外観中心のベンチマークでの高い性能を維持しつつ、動き中心のタスクにおいて特定の専門モデルにより良く対抗するために、TWLV-Iを改良できる具体的な領域を指示してくれています。

4 - ImageNet 分類

ビデオ基盤モデルの汎用性と、それらが一般的な画像認識モデルとして機能する可能性を評価するために、ImageNet分類タスクにおけるTWLV-Iの性能評価を行いました。このベンチマークは、静止画像を処理・理解するモデルの能力についての洞察を提供し、これは包括的なビデオ理解システムを構築する上でも不可欠な要素です。

4.1 - 結果と分析

ImageNetの分類結果は、表3(リニアプロービング)および表5(アテンティブプロービング)の最後の列に示されています。主な観察結果は以下の通りです:

  1. 外観中心のタスクとの相関関係:一般的に、外観中心の動画動作認識タスク(例: Kinetics-400)で優れたスコアを達成するモデルは、ImageNetベンチマークにおいても強力な性能を発揮します。この相関関係は、ビデオ理解のために学習された特徴が、静止画分類タスクにも効果的に転移できることを示唆しています。

  2. TWLV-Iのパフォーマンス

    • リニアプロービング(表3)において、TWLV-I-ViT-LはImageNetで72.98%のTop-1精度を達成し、競争力はあるもののトップには至っていません。

    • アテンティブプロービング(表5)では、TWLV-I-ViT-Lは79.19%のTop-1精度へと性能が向上しており、アテンションメカニズムを介した学習済み特徴のさらなる有効活用を示してくれています。

  3. 専門特化モデルとの比較:TWLV-Iはビデオベースのタスクにおいて強固なパフォーマンスを発揮している一方で、いくつかの特定目的のモデルと比較するとImageNet分類のスコアには目に見えるギャップがあります。たとえば、InternVideo2はImageNetにおいてTWLV-Iを大幅に上回っていますが、ビデオ動作認識タスクにおいてはその性能差は狭まり、場合によっては逆転することもあります。

4.2 - 示唆と洞察

これらの観察に基づき、私たちは次の洞察を得ました:

  1. 静止画像処理における制約:結果から、TWLV-Iは、当該タスクに最適化されたモデルと比較して、静止画像の処理についてある程度の制限があることが示されています。これは、モデルの将来のアップグレード段階における改善余地があることを示します。

  2. 動作情報の活用能力:ImageNetのスコア差をよそに、ビデオタスクにおいてTWLV-Iと他モデルとの性能ギャップが縮まることは、TWLV-Iがビデオ理解において動作情報を非常に効果的に活用していることを示唆しています。この能力は外観ベースの特徴保管と補完し合い、結果として強力なトータルビデオ分析性能をもたらします。

  3. ビデオと画像能力の均衡化:TWLV-Iを単なる動画特化モデルから、さらに前へと進化させるために、今後の研究ではその強力なビデオ分析能力を損なうことなく、単一画像を理解する能力を強化することに焦点を当てるべきです。

総括として、TWLV-Iはビデオ理解タスクにおいて強力な性能を示しているものの、ImageNet分類結果は、静止画像処理におけるいくつかの改良すべき領域を示しています。これらの制約に対処することで、ビデオと画像の双方のドメインにわたって秀でた、より包括的な視覚基盤モデルの実現につながる可能性があります。

5 - 時間の動作ローカライズ

時間の動作ローカライズ(Temporal Action Localization; TAL)はビデオ理解における重要なタスクであり、トリミングされていない一連のビデオの中から特定の動作を特定し、時間的位置を特定することを含みます。このタスクは自動運転、スポーツ分析、コンテンツに基づくビデオ検索などの応用において特に重要です。TALでは、モデルが長くて複雑なビデオを分析し、その中で発生する各動作の時間的な境界と対応するクラス分類ラベルを正確に判定することが求められます。

5.1 - 評価の視点

TALは、主に以下の2つの主要な視点からビデオ基盤モデルを評価します:

  1. 時間的感度:関心のある動作が特定のタイムステップで発生したかどうかを識別する能力。

  2. インスタンス識別能力:フレームごとのセグメントを、完全な一つの動作インスタンスに識別またはグループ化する能力。

TALは本質的に動作中心のタスクとして設計されていますが、私たちの分析によれば、これら2つの側面の効果的な達成において、外観と動きの双方の能力が相乗的に寄与していることが明らかになりました。

5.2 - 手法

私たちは、TWLV-Iおよび他の動画基盤モデルを、以下の2つの著名なTALデータセットにおいて評価しました:

  1. ActivityNet-v1.3

  2. THUMOS14

検出用のヘッドとしてはActionFormerを採用しました。そして、以下の2つの異なる検証方法で評価を行いました:

  1. 自己完結型(Self-contained):モデルの外部サポートを受けることなく、自ら単独で分類と回帰の両方を実行します。

  2. 外部分類器併用型(w/ External Classifier):モデルは二値分類を行い、実際の動作クラスの予測は外部の分類器が行います。

特徴の抽出は、「フレームサンプリング」セクションで説明したマルチクリップ埋め込み手法に従って行われました。

5.3 - 結果と分析

表9と表10はそれぞれ、THUMOS14およびActivityNet-v1.3における包括的な結果を示しています。

__wf_reserved_inherit

THUMOS14(表9)

  • TWLV-I(当社モデル)は、すべての検証指標において、同一スケールの他のモデルを一貫して上回る性能を示しています。

  • TWLV-I-ViT-Lは、自己完結型設定で58.75%、外部分類器併用設定で53.63%という最高の平均mAPを達成しました。

  • 特筆すべきは、TWLV-I-ViT-LがDFNやV-JEPA (ViT-H) のようなより大規模なモデルををも凌駕している点であり、その優れた汎用・一般化能力を証明しています。

__wf_reserved_inherit

ActivityNet-v1.3(表10)

  • TWLV-Iはここでも、そのアーキテクチャの規模感において屈指のパフォーマンスを示しています。

  • TWLV-I-ViT-Lは、平均mAPで34.98%(自己完結型)および39.49%(外部分類器併用型)を記録しました。

  • 驚くべきことに、TWLV-Iは厳格なIoU閾値(例: 0.95)において極めて優れた性能を発揮しており、並外れた時間的感度を有していることが示されています。

5.4 - 主要な洞察

これらの結果に基づき、私たちは次の洞察を得ました:

  1. スケール効率:TWLV-Iのパフォーマンス、特にViT-Lの規模感において他社大容量モデルを打ち負かしている現状は、その効率的な設計アーキテクチャとトレーニング手法を明白に証明しています。

  2. 時間的精密さ:極めて厳しい基準である厳格なIoU閾値(ActivityNetにおける0.95等)での高スコア獲得は、TWLV-Iが誇る突出した時間的感度の鋭さを証明しています。

  3. モデル規模の影響:InternVideo2のトップパフォーマンス、特に自己完結型の評価における実績は、TALタスクにおいて分類と時間的境界の回帰を同時に実行する際、モデルの規模拡張が大きく利益をもたらすことを示唆しています。

  4. 評価戦略:単に「動きの理解」のみに的を絞って正確に測定したい場合は、外部分類器との併用が推奨されます。一方で、外観の理解度をも包含するより網羅的な評価を望む場合は、自己完結型のアプローチが求められます。

  5. 汎化能力:異なる複数のデータセットおよび評価方法にわたるTWLV-Iの終始強力なパフォーマンスは、時間の動作ローカライズ分野における主要バックボーンとしての屈強さを表しています。

これらの結果は、時間の動作ローカライズという極めて複雑な課題に対するTWLV-Iの抜群の有用性を物語っており、時間的感度と動作のまとまり認識の双方においてバランスよく実力を備えていることを明確に示しています。様々なスケールや多様な測定環境において現れたその高い適合能力は、ビデオ理解全般を支える汎用的ベース基盤としての高いポテンシャルを示しています。

6 - 空間・時間の動作ローカライズ

空間・時間の動作ローカライズ(Spatio-Temporal Action Localization; STAL)は、ビデオの中の特定の動作を認識するだけでなく、編集されていないビデオ系列内の空間(画面中のどこか)および時間(いつ発生したか)の双方を正確に検知・特定する、高度で複合的な難関課題です。この課題はアクションの精密な分析が必要とされるシーンで重要視され、外観と動き双方の完全な統合理解がモデル側に問われます。

6.1 - データセットと評価

私たちは、1本あたり15分間の映画から切り出された430個の動画クリップで構成されているAVA v2.2データセットを用いてモデル検証を行っています。キーフレームは毎秒付与され、学習用セットに210,634枚、検証用セットに57,371枚のラベル付きフレームが含まれています。データセットには、各俳優に紐付けられた80個の原子的な基本動作ラベルが含まれています。

この動作評価では、最新のv2.2アノテーションを使用し、Intersection over Union (IoU)の閾値0.5におけるフレーム平均精度(Frame Average Precision; fAP)を取得して比較しています。私たちはエンドツーエンドのSTALフレームワークを採用し、バックボーン側のビジュアルモデル部分を固定した状態でデコーダの追加トレーニングを実行しました。

6.2 - 結果と分析

__wf_reserved_inherit

表11は、STALタスクにおける性能評価を示しています。主な観察結果は以下の通りです:

  • 他モデルとの対比:TWLV-I、UMT、およびInternVideo2は、DFNやV-JEPAより優れた性能を発揮しています。DFNとV-JEPAは他の種類のタスクで全く異なる極端なスコア傾向を見せていましたが、物体としての人物特定と、時間的な動作認識の双方をクリアする必要があるSTALタスクにおいては、その性能は似たような値にとどまっています。

  • 検出局所化における難点

    • V-JEPA:人物などのインスタンスの特定そのものに手こずり、それが後続の動作認識スコアにも波及して悪影響を与えています。

    • DFN:得意とする外観の精緻な理解力により、対象が画像のどこにいるのかを素早く特定できていますが、時間情報の解釈の限界から、そこでどのような動作が行われているかの認識で誤答しています。

  • TWLV-Iの特徴的な強み

    • TWLV-Iは、物体の外観と動作中の物理的変化を極めて高いレベルで調和よく理解することで、STALタスクにおける確固たる強さを現しています。

    • ViT-Lモデルにおいて、TWLV-IはfAP@0.5で27.39を達成しました。これはDFNやV-JEPAを大きくリードし、より構造の大きい巨体モデル群であるInternVideo2の記録に肉薄する性能スコアです。

6.3 - 主要な洞察

これらの観察に基づき、私たちは次の洞察を得ました:

  1. 調和のとれた深い読解:今回の好成績は、TWLV-Iが時空間情報を極めて適切に理解できていることを示す十分な証拠であり、精度の高い時空間ローカライズを実現する上でも要となります。

  2. 全般的なビデオ判定価値:終始シームレスにエンドツーエンドで行われるSTAL検定は、空間と時間の2つの次元におけるパフォーマンスを高い再現性を持って明らかにする包括的なモデル審査手法と言えます。

  3. 手法の有効性検証:TWLV-IがUMTやInternVideo2と並んで好成績を残している現状は、空間位置特定と動作分析の2つの異なる目標を同時に処理する能力の現れであり、外観のみ、あるいは動作のみといった限定的な一方を追求した他社モデルとは一線を画しています。

これらの裏付けは、時空間の複雑なシーンを正確に記述する必要がある高度な難題(STAL等)を解決するために、外観情報と動作変化情報の双方が一つの脳(モデル)の中にバランスよく統合されていることが如何に決定的であるかを語っています。

7 - 時間の動作セグメンテーション

時間の動作セグメンテーション(Temporal Action Segmentation; TAS)は、編集されていない長時間のビデオから人間の複雑な活動の全貌を読み解くために非常に重要とされている応用課題です。セキュリティ監視、ハイライト映像などの要約作成、作業スキルの機械的審査など、広範な産業でその活躍が期待されています。TASでは、トリミングされていないビデオを入力として直接流し込み、それぞれのフレームに一連の正しいアクションのクラス分類ラベルを追加していく作業を行います。

7.1 - 表記比較基準とアプローチ

私たちは、TASの性能を判定すべく以下の3つの高難度検証基準を用意しました:

  1. 50Salads:調理の手順において、細々とした変化を伴う複雑な一連の処理を含んでいます。

  2. GTEA:一人称の目の高さで撮影した、複雑な身の回り仕事の一連のプロセスを記録しています。

  3. Breakfast:引いた位置からも撮影された、全身でキッチン作業をこなす長時間の全体構成データです。

TASのデコーダ部分としてはASFormerを使用しました。閾値10、25、および50のもとで測定されたF1スコアの平均値を「mF1」として評価に採用しています。マルチクリップ埋め込みを用いて特徴を抽出し、空間次元プーリングを施すことで時間軸のみを滑らかに残しています。

7.2 - 結果と分析

__wf_reserved_inherit

表12は、これら3つのテスト条件のもとで実施したTAS試験の結果を詳細を伝えています:

  • 50Salads:TWLV-Iは、ViT-Bで80.69、ViT-Lで80.60のmF1スコアをマークしました。これは、UMTやDFNといった外観重視モデルや、動作変化を専門としたV-JEPAをも完全に跳ね除ける数値です。また、エディットおよび予測適合率の項目についても、TWLV-Iの手法が正解データ配列に極めて整合していることを明らかにしています。

  • GTEA:TWLV-Iはさらに強さを示し、ViT-Bで88.26、ViT-Lで88.43のmF1スコアを記録して競合を大きく引き離しました。これは、一瞬で移り変わるアクションの正確なセグメンテーションを必要とする、一人称主観視点の動画において真価が浮き彫りになることを証明しています。

  • Breakfast:被写体が遥か遠くにフレームインする視野角の広いこのシーンでも、TWLV-Iは実力を落とすことなく、ViT-Bで52.18、ViT-Lで50.66という好ましいmF1スコアを獲得しています。目まぐるしく変化するカメラ視野の切り替わりに対しても、その対応柔軟性が高水準に維持されています。

7.3 - 主要な洞察

これらの結果に基づき、私たちは次の洞察を得ました:

  1. 完成されたオールラウンダーとしての実力:データの多様性によらずあらゆる分類群で最高峰に位置するTWLV-Iの一貫した強さは、外観の把握力と動作の持続変化を漏らさず記述する能力のバランスが非常に良好であることを意味しています。

  2. 実際の推移への適合精度:エディットスコアおよびmF1スコアが高水準にまとまっていることは、TWLV-Iが予測したアクションの流れ全体(系列)が、実際のビデオ内で人間の動作した現実の順序に正確に合致していることを意味し、将来的なオンサイト実装における安全・信頼性の高さを示しています。

  3. 視野角変化に対する屈強さ:上空からの撮影、手元を映す一人称主観カメラなど、極端な画角変更があっても他製品以上のスコアを叩き出し続ける事実は、いかなる用途でも現場を選びにくい柔軟性のある頑丈なモデルであることを実証しています。

  4. InternVideo2とのベンチマーク性能比較:特定のアングルのデータにおいて、TWLV-IはInternVideo2に類似する好成績を取り分けて現していますが、広範囲にまたがる複数データセットを前にしても性能がブレることのなく、常に一貫した優秀さを維持する確実性は、総合的なポテンシャルの高さをはっきりと映し出しています。

これらの評価により、時系列動作セグメンテーション(TAS)の非常に挑戦的な検証において、TWLV-Iがビデオ解析を応用可能とする多大なる可能性を備えていることが確かに認められました。

8 - 埋め込み空間の可視化

TWLV-Iや他社基盤モデルのビジュアル表現能力がどのように構造化されているかを詳しく探索するため、私たちはt-SNEおよび線形判別分析(LDA)を用いたビジュアル確認実験を実施しました。これにより、作成された埋め込みベクトルが「外観情報」と「動き情報」の各々の側面をどれほど精緻に描写できているかが理解できます。

8.1 - t-SNEを用いた各評価データセット上のマッピング

t-SNEを用いて、Kinetics-400 (K400) および Something-Something-v2 (SSv2) 検証用セットにおける埋め込みベクトル分布をマッピングしました。また、色分けは異なるアクションクラスを表しています。

__wf_reserved_inherit

Kinetics-400(図6)

  • TWLV-I, UMT, および InternVideo2:これらのモデルは同じ特性をもつ動作どうしが1つのブロックのように固まりを構築し、境界線を容易に引くことができるきれいなクラスタリングを示しました。これは、外観に基づいて表現が異なる多数の動作群を驚くほどきれいに判定できていることを意味します。

  • V-JEPA:打って変わって、各動作クラスをごちゃ混ぜに描いてしまい、特徴空間を明確に分割することができていません。静止構造(外観ターゲット)をきれいに捕捉できていない性質が読み取れます。

__wf_reserved_inherit

Something-Something-v2(図7)

  • 全モデルの傾向:面白いことに、TWLV-IやV-JEPAも含め、どのモデルもSSv2のような高度に動きが重視されるデータセットにおいては、一目で分かるようなクラスタリングを表示できませんでした。これは、他の手法に比べ、そもそもSSv2の分類スコアがどの製品でも総じて低い実情と重なっています。

  • そのことが暗示する意味:このプロットによる描画結果は、動きそのものの質的違いを明確なベクトルのまとまりの中に落とし込んで表現することが技術的に如何に困難であるかを雄弁に物語っており、ブレイクスルーを呼び起こす今後の革新的アプローチが待ち望まれます。

8.2 - 動作の方向に対する感度検証

よりミクロなレベルにおいて、モデルが動きをどのように知覚しているかを理解するために、私たちはSSv2から「何かを押し上げる」「何かを引き下げる」といった、動作の物理的方向の読解が無ければおよそ解答不可能な、特定の動作ペアに注目しました。

私たちは、通常の正再生動画から切り出した動画ベクトルと、それを時間軸に対して逆転させた逆再生動画の埋め込みベクトルを抽出し、線形判別分析(LDA)を用いてプロットしました。この検証では、外観が全く同じである動画どうしの順逆方向について、純粋に時間的経過の順序だけでその差異を埋め込みベクトル空間上で分離できるかどうかをテストできます。

__wf_reserved_inherit

結果(図8および図9)

  • TWLV-I:正再生と逆再生の動画が交じることなく極めて良好に二極反転の空間位置を保っており、時間方向の違いをベクトルの差異の形で確実に記述できていることを実証しています。

  • V-JEPA:ここでも正逆識別において最も広い距離感(明確さ)を獲得しています。これは、同モデルが事前トレーニング時から意図的にSSv2データセットを多量に摂取している実績に起因すると考えられます。

  • UMT および InternVideo2:埋め込みの正負領域での重複が大きく分離困難に陥っています。これは、静止画像の精緻な理解を得意とする一方で、時間方向に対してはほぼ感度を持たない(動作変化に対して無頓着な)設計上の構造を示しています。

__wf_reserved_inherit

8.3 - 主要な洞察

これらの観察に基づき、私たちは次の洞察を得ました:

  1. 外観と運動変化を同時に記述する能力:TWLV-Iは、静止画を基準とする認識分類力(K400の図から顕著)と、動作方向による時間秩序変化の知覚力(順逆分析から顕著)の双方を高レベルで併せ持つ、類稀なるオールラウンド性能を持っていることがビジュアルからも明らかになりました。

  2. 動作の質的表現(モデリング)のための課題:SSv2のクラスタリングで全ての競合が描いたカオティックなプロット図は、運動表現のみで多様なクラス群をきれいに定常分離していく作業が今なおどれほど高難易度であるかを示し、ビデオ分野における最大のテーマとして残されています。

  3. 時間変化に対する鋭敏な解釈力:正逆方向のビデオを即座に引き裂くTWLV-Iのおおきな分離能力は、ただ物理的な情報を見るだけでなく、動画ならではの微細な時間フレームの前後変化にまで高い感度で反応を返せていることを意味し、高度な動作記述の足がかりとなります。

  4. 各社モデルの個別得意分野:プロットにより、それぞれの製品群が得意とする設計方針の違いが鮮明になり、外観を高度に見抜くモデルがある一方で、時間的運動のみをうまく感知するような尖った得意領域に特化するなどの現状が浮き彫りになり得ます。

これらの特徴的な視覚マッピングによる可視化手法は、TWLV-Iの脳がどのように特徴を獲得しているかを視覚的に雄弁に説いてくれており、今後の改善策を計画するための重要な技術基盤となります。

9 - 今後の開発テーマ

今後の展望として、TWLV-Iの実用拡大、およびビデオ基盤モデル一般を劇的に変革し、応用領域を広げるためのいくつかの有望な発展レーンが存在します。これらは、モデル能力の大幅補強、スコア改善、さらに多領域における産業実装の加速を目指すものです。

9.1 - モデルスケールの拡張

これまでのところ、主に以下の2つのモジュール構成を中心にリリースしてきました:ViT-BおよびViT-L。しかしながら、当社のTWLV-I-ViT-Lは、一回り体が大きい他社製のViT-HやViT-gの記録と同等、場合によってはそれを超える良好な数値を叩き出しています。この効率の良さは、今後モデルを拡張した場合、さらなる大幅なポテンシャル向上の余白があることを意味します:

  1. 極大規模アーキテクチャの導入:TWLV-Iをより極大サイズのモデルへと引き上げることで、多様な検証ベンチマークにおけるスコアを飛躍的にレベルアップさせることが大いに期待されます。

  2. 内製の極大データセットの構築:自社で囲い込みを行って獲得した並外れた規模の大容量学習資源を使用することで、さらに柔軟であらゆる変化に強い強固なベースを育むことが可能です。これは未体験の難題や新たなシーンをモデルが難なく見抜く手助けとなります。

  3. 高効率スケーリング設計:スパースアテンション構造やMixture-of-Experts (MoE) と言われるマルチネットワーク構造などの高効率スケーリング手法を採用することで、開発リソース資源を際限なく食いつぶすことなく、極端な機能アップグレードを安定して実現させられます。

9.2 - 画像埋め込み機能の大幅強化

TWLV-Iはビデオに関わる項目で強い優位性を現したものの、単一の画像そのものの埋め込みを表現する精度に関しては、さらに向上させられる余地が残っています:

  1. 静止フレームの読解力強化:ビデオから切り出した1枚のフレームそのものを正確に把握する精度を強化することは非常に合理的です。この能力が磨かれれば、ビデオの得意さと画像の得意さが統合され、TWLV-Iは総合的に完璧なビジュアル認識プラットフォームとなり得ます。

  2. 転移学習アプローチの探索:動画上で構築された「動作変化を前提とした知覚表現」を、うまく静止画における分類タスクの補助特徴へと転移する学習アプローチが構築できれば、一般的な画像AIタスクにおける信頼性を容易に格上げできます。

  3. 単一フレームワークでの統合学習:同一のシステム構成のままで、ビデオからの入力と静止画からの入力のいずれでも変わらぬ適合率をたたき出す、シームレスな統合アーキテクチャの変更を推進します。

9.3 - モダリティレンジの拡張

さらに、TWLV-Iとしての利便性を全方位的にレベルアップさせ、AI産業自体の需要とより強固に噛み合わせるために、モダリティレンジを着実に拡張することが非常に重要です:

  1. マルチモダルの活用促進:ビデオと引き当てられる文章推薦(ビデオテキスト検索)や、動画を正確に文字に直すビデオキャプションなど、極めて複雑な多元タスクを処理できるように改良します。これにより、卓越した映像把握力を生かしたまま、テキストと調和的に交信できるようになります。

  2. ビデオLMMとしての位置づけ構築:TWLV-Iの構造をビジュアル側にとって最適なビジョンエンコーダとして位置付け、先進的なビデオ・大規模言語モデル(VLM)との高水準な接ぎ木を実現します。高度なテキスト理解力とのシームレスな融合が可能となります。

  3. 音声特徴の統合理解:動画内の時間変化に伴う「音声変化(オーディオ)」を映像と時間補正した状態で統合することで、音と映像のタイミングマッチング、音の出どころイベントの検出など、さらに応用度をました技術を実現します。

  4. テスト手法の体系化と基準設定:これらの極めて応用的なマルチモダル性能について、信頼性高くスコア検証していけるよう、独自の統合的な判定テスト手法や新たな検証基準を設け、その安定性を保証していきます。

これらの将来像を追うことで、TWLV-Iが提供するバリューを「ビデオ専用のベース」から、「様々な周辺状況に対して瞬時に協調できる究極の知覚システム」へと引き上げることを想定しています。この発展は、現在実現されている機能群での性能を引き上げるのみならず、自動応答アシスタント、次世代のコンテンツクリエイト事業、革新的な人間とロボットのインターフェース構築といった未来的な産業へ決定的な道を開きます。

10 - おわりに

私たちは今回の体系的なビデオ検証において、絵画的な美しさ(外観)と移り変わる変化(動き)の2つの要素の調和が、映像解釈という広大で豊かな目的をクリアするためにいかに決定的であるかを詳述してきました。私たちの取り組みは、以下の素晴らしいブレイクスルーと発見をもたらしています:

  1. 多角的で包括的な測定規格:動画の時間的ローカライズから一連のアクションシーケンス抽出まで、あらゆる側面においてモデルの能力を均一な視点で測定できる、信頼性の高い規格を提供しています。

  2. 既存モデルの顕著な改善余白:一連の周到な検証プロセスにより、他モデル群が動作と外観のいずれか一方のみの知覚に依存し、両者を共にハイパフォーマンスに両立することがいかに苦手であるかを明らかにし、この分野におけるミッシングリンクを特定しました。

  3. 満を持してのTWLV-Iの紹介:これらの業界の不均衡に対して最適な解を与えるべく、外観と動作の両方を同時に、そして高解像度に把握する新世代のアプローチ「TWLV-I」を投入しました。

  4. 抜群の埋め込み品質:TWLV-Iが生む埋め込みベクトルは、高度な下流タスクを非常に簡便にいなす高い適用力を見せており、実用化の検証コストを劇的に圧縮します。

  5. 汎用的で強力な検証用フレームワーク:本ブログでお披露目された多様な検証とプロット比較法は、今後のビデオ基盤モデルの基礎テスト規格となる得るよう、業界コミュニティへ開示されています。

  6. 将来のイノベーションプラン:今後の研究をドライブするために、モデルの大容量化、画像識別のブラッシュアップ、さらには音響やテキスト等の他系統とのマルチリンガル的な統合を進めていきます。

  7. 業界の目指すべき座標の提示:外観性能のみの偏重、動きのみの過学習を克服し、双方をひとつの体にバランスよく共存させる姿勢を示すことで、ビデオ理解領域が目指すべき進路を設定できたと自負しています。

要約すれば、TWLV-Iは万能型でかつ不屈の動画基盤モデルを作るうえで、記念碑的な飛躍を示すモデルです。外観知覚と動作知覚を絶妙に調和させることで、これまで想像さえ難しかった、高次元の動画理解と多角的な用途への扉が開かれました。私たちは、ここで開示された評価スキームやアイデアが多くの研究者をエンパワーし、新しい視点、そしてより本質に迫るアプローチで今後の課題に取り組んでもらえることを切に願っています。

この先、こうした完璧な統合基盤がさらに成熟していくプロセスは、ビデオを取り扱う多くのソフトウェア群のブレイクスルーにつながり、AIが生活シーンを支える究極のパートナーへと変貌していくために重要となります。私たちは世界中のリサーチャーとともにこの挑戦の地盤を盤石なものとし、ビデオAIが切り開く素晴らしい未来へのフロンティアを共に開いていくことを歓迎します。

Twelve Labs チーム

本研究開発は、Twelve Labs ML ResearchおよびML Dataチームの厚い支援のもと、核となる以下の主要執筆者たちの均等な(equal contributionという素晴らしい連携による)献身的な貢献を通じて達成されました。

主要な執筆者・研究代表

Hyeongmin Lee, MLリサーチャー(Research Scientist)

Jin-Young Kim, MLリサーチャー(Research Scientist)

Kyungjune Baek, MLリサーチャー(Research Scientist)

Jihwan Kim, MLリサーチャー(Research Scientist)

Aiden Lee, 最高技術責任者(CTO)

コントリビューター(アルファベット順表記)

Aaron (Jangwon) Lee, MLデータ・インターン\

Calvin (Minjoon) Seo, チーフサイエンティスト(Chief Scientist)

Cooper (Seokjin) Han, MLリサーチャー(Research Scientist)

Daniel (GeunOh) Kim, MLデータエンジニア

Flynn (Jiho) Jang, MLリサーチャー(Research Scientist)

Ian (Soonwoo) Kwon, MLリサーチャー(Research Scientist)

Jay Suh, MLデータエンジニア

Jay (Jaehyuk) Yi, MLリサーチャー(Research Scientist)

Jayden (Junwan) Kim, リサーチ・インターン

Jeff (Jongseok) Kim, MLリサーチャー(Research Scientist)

Kyle (Seungjoon) Park, MLリサーチャー(Research Scientist)

Leo (Daewoo) Kim, MLリサーチャー(Research Scientist)

Mars (Seongsu) Ha, MLリサーチャー(Research Scientist)

Max (JongMok) Kim, MLリサーチャー(Research Scientist)

Ray (Raehyuk) Jung, MLリサーチャー(Research Scientist)

William (Hyojun) Go, MLリサーチャー(Research Scientist)

引用

本プロジェクトおよび私たちの論文が皆様の研究の助けとなりましたら、ぜひスターボタンを押して引用をお願いいたします:

@inproceedings{twelvelabs2024twlv,
  title={TWLV-I: Analysis and Insights from Holistic Evaluation on Video Foundation Models},
  author={Twelve Labs},
  year={2024}
}

TWLV-Iの技術レポートをarXiVおよびHuggingFaceでご確認ください! コードはGitHubで公開されています:https://github.com/twelvelabs-io/video-embeddings-evaluation-framework

TLDR

  • 包括的な評価フレームワーク:Twelve Labsは、外観と動きの両方の分析を重視した、ビデオ理解のための堅牢な評価フレームワークを提供します。

  • TWLV-Iモデル:当社の新しいビデオ基盤モデル(TWLV-I)は、これら2つの側面をバランスよく捉えることに優れており、最先端のモデルと同等以上の性能を発揮します。

  • タスクパフォーマンス:TWLV-Iは、動作認識、時間の動作ローカライズ、および空間・時間の動作ローカライズにおいて強力な結果を示しており、その汎用性の高さが浮き彫りになっています。

  • 可視化による洞察:t-SNEおよびLDAの可視化により、TWLV-Iは他のモデルと比較して、優れたクラスタリング能力と動きの識別能力を備えていることが明らかになりました。

  • 今後の方向性:TWLV-Iの汎用性と適用性を高めるために、モデル規模の拡張、画像埋め込みの改善、およびモダリティの拡張を重視します。

  • 今後の研究への指針:提案された手法は、ビデオ理解における新たな基準を設定し、この分野における今後の研究開発を導くことを目的としています。

1 - イントロダクション

今日のデジタル環境において、ビデオは普遍的な言語であり、文化を超えて複雑なアイデアや感情をシームレスに伝えています。この豊かなメディアを正確に解釈するには、堅牢なビデオ理解システムの構築が不可欠です。複数の画像のシーケンスであるビデオには、各フレームの外観を認識することと、時間の経過とともに展開する動きを理解することの、2つの焦点を当てる必要があります。

Twelve Labsでは、ビデオ理解におけるこれら2つの側面に対応する包括的な評価フレームワークの必要性を認識しています。私たちの目標は、外観と動きの両方の能力を正確に測定する評価手法を確立することにより、この分野における今後の研究の明確な方向性を提示することです。

1.1 - 基盤モデルとビデオ理解

基盤モデル(FM)は、特定の領域内の多様なタスクをモデルが処理できるようにすることで、AIに革命をもたらしました。言語および画像基盤モデルが大きな進歩を遂げた一方で、ビデオ理解には特有の課題が存在します。既存のビデオ基盤モデルは、クラスタリングや分類タスクの限界からも明らかなように、外観と動きの両方を効果的に捉えることができない場合が多々あります。

1.2 - TWLV-Iと評価フレームワークの紹介

__wf_reserved_inherit

これらの課題に対処するため、私たちは図1に示すように、外観ベースおよび動きベースの両方のタスクで卓越するように設計されたTWLV-Iを導入します。さらに重要なこととして、TWLV-Iの能力を評価するだけでなく、今後のモデルのベンチマークを設定する堅牢な評価フレームワークを提案します。

私たちのフレームワークには、動作認識、時間の動作ローカライズ、空間・時間の動作ローカライズなど、ビデオ理解の特定の側面を評価するために細心の注意を払って設計された様々なタスクが含まれています。この包括的なアプローチを通じて、バランスのとれた能力の重要性を強調し、業界をより包括的なモデル開発へと導くことを目指しています。

ビデオモデルの性能と適切な評価の両方に焦点を当てることで、私たちはビデオ研究におけるマイルストーンを提示し、このダイナミックな分野における今後の進歩と革新への道を切り開くことを熱望しています。

2 - TWLV-I & ビデオ基盤モデル評価フレームワーク

__wf_reserved_inherit

TWLV-Iのアーキテクチャとトレーニングプロセスは、外観と動きの両方の理解に対するニーズのバランスをとりながら、ビデオ理解に特有の課題に対処するように設計されています。図2は、外観中心のベンチマーク(Kinetics-400)と、動き中心のベンチマーク(SSv2およびDiving-48)におけるTWLV-Iのパフォーマンスの視覚的な比較を示しています。このプロットは、TWLV-Iのバランスの取れた能力を示しており、両方のタイプのタスクを高度に処理できることを実証しています。

このサブセクションでは、TWLV-Iのトレーニング手法とフレームサンプリング技術の主要な側面について詳しく説明します。

2.1 - アーキテクチャ

TWLV-Iは、Visual Transformer(ViT)アーキテクチャに基づいて構築されており、ビジュアルデータを処理するその強力な能力を活用しています。私たちは、次の2つのバリアントを実装しています:

  1. ViT-B (Base): 8600万個のパラメータを持つモデル

  2. ViT-L (Large): 3億700万個のパラメータに拡張されたバージョン

入力されたビデオは複数のパッチにトークン化され、これらはトランスフォーマー層を介して処理されます。このプロセスにより、パッチごとの埋め込みが取得され、その後プーリングされて、入力ビデオのトータルな埋め込みが生成されます。

__wf_reserved_inherit

2.2 - 事前トレーニングデータセット

堅牢で汎用性の高いビデオ理解を実現するために、TWLV-Iは表1に詳しく説明されている多様なデータセットで事前トレーニングされています:

  • ビデオデータセット

    • Kinetics 710(65.8万動画クリップ)

    • HowTo360K(36万動画クリップ、HowTo100Mのサブセット)

    • WebVid10M(1073万動画クリップ)

  • 画像データセット(合計1500万画像):

    • COCO(11.3万画像)

    • SBU Captions(86万画像)

    • Visual Genome(10万画像)

    • CC3M(288万画像)

    • CC12M(1100万画像)

このビデオデータセットと画像データセットの組み合わせにより、動きのダイナミクスと静的なビジュアル特徴の両方を理解するTWLV-Iの能力が向上します。

2.3 - トレーニング目的

TWLV-Iは、基礎的なトレーニングアプローチとしてマスクモデリングモデルを採用しています。しかし、動きと外観の両方の理解においてモデルの性能を最適化するために、再構成ターゲットを多様化しています。この戦略は、様々なビデオ理解タスクにわたって優れた性能を発揮できる、頑健なモデルの作成を目的としています。モデルは、この目的と前述のデータセットを使用してゼロからトレーニングされます。

2.4 - フレームサンプリング

__wf_reserved_inherit

フレームサンプリングのプロセスは、ViTアーキテクチャの計算上の制約があるため非常に重要です。トークンの数が増えると、計算の複雑さ(二次関数的)も増します。これを処理するため、私たちはMulti-Clip Embedding(マルチクリップ埋め込み、図4を参照)と呼ばれる戦略的なフレームサンプリング技術を採用しています:

  1. クリップの分割:入力されたビデオは、それぞれ長さがT秒のM個のクリップに分割されます。

  2. フレームの選択:各クリップからNフレームがサンプリングされます。

  3. 埋め込み生成:このプロセスにより、ビデオ1本につきM個の埋め込みが作成されます。

  4. 柔軟な表現:埋め込みの数はビデオの長さに比例して増加するため、可変長のビデオ処理が可能になります。

  5. 単一の埋め込みオプション:ビデオ全体を表すために単一の埋め込みが必要とされる場合は、M個の埋め込みを平均化します。

このアプローチにより、TWLV-Iは短期および長期の時間的ダイナミクスの両方を捉える能力を維持しながら、様々な長さのビデオを効率的に処理できます。

強力なViTアーキテクチャと、多様な事前トレーニングデータセット、および革新的なフレームサンプリング技術を組み合わせることで、TWLV-Iは複雑なビデオ理解タスクに対処する十分な能力を備えています。この強固な土台により、TWLV-Iは外観中心および動き中心の両方のベンチマークにわたって堅牢に機能することができ、それについては本評価フレームワークの以降のセクションで詳しく見ていきます。

__wf_reserved_inherit

3 - 動作認識

動作認識(Action Recognition; AR)はビデオ理解における基本的なタスクであり、ビデオを定義済みの人間の動作カテゴリに分類することを目的としています。このタスクは、外観と動きの両方の理解を必要とするため、ビデオ基盤モデルの性能を評価するための重要なベンチマークとなっています。

3.1 - ベンチマーク

私たちは、それぞれ異なる特徴を持つ、代表的な5つのARベンチマークにおいてTWLV-Iの性能を評価しました:

  1. Kinetics-400 (K400):外観ベースの動作に焦点を当てた大規模データセット

  2. Something-Something-v2 (SSv2):時間的関係を重視した動き中心のデータセット

  3. Moments-in-Time (MiT):多様な動作カテゴリを持つ、もう1つの外観重視のデータセット

  4. Diving-48 (DV48):ダイビングの動作に特化した、詳細かつ動き中心のデータセット

  5. Epic-Kitchens (EK):日々の台所での活動を捉えた一人称視点(自我中心)のデータセット

これらのベンチマークは包括的な評価環境を提供し、外観重視および動き中心の両方のシナリオにわたってTWLV-Iの能力を評価できるようにします。

3.2 - 評価手法

私たちは、動作認識タスクにおける標準的な手法であるマルチビュー分類法を採用しています:

  1. 入力ビデオを空間的にリサイズし、要求される解像度に適合させます

  2. 空間次元に沿ってm個、時間次元に沿ってn個のクリップを一様にサンプリングし、合計m × n個のクリップを作成します

  3. 各クリップのクラス確率を算出します

  4. 確率を平均化して最終的な出力を取得します

このアプローチにより、入力ビデオの異なる空間的および時間的セグメントにわたるモデルの性能が徹底的に評価されます。

3.3 - リニアプロービング(線形評価)

リニアプロービングは、モデル全体をファインチューニングすることなく、学習された表現の品質を評価するために使用される技術です。以下のステップを含みます:

  1. 特徴抽出器(バックボーンモデル)を固定(フリーズ)します

  2. フリーズされた特徴の上に線形分類器を配置してトレーニングします

線形分類器は、埋め込みベクトルの次元数から動作クラスの数へのマッピングを行う重み行列で構成されます。

__wf_reserved_inherit
結果と分析

表3は、様々なベンチマークとモデルにおけるリニアプロービングの結果を示しています。主な観察結果は以下の通りです:

  • TWLV-Iはすべてのベンチマーク、特にそのアーキテクチャ規模(ViT-BおよびViT-L)において強力なパフォーマンスを示しています。

  • SSv2において、TWLV-Iは、事前トレーニングにSSv2を含んでいるV-JEPAを除き、ViT-H (DFN) や ViT-g (InternVideo2) などのより大規模なモデルを凌駕しています。

  • TWLV-IのViT-Lモデルは、EKおよびDV48のベンチマークにおいて、より大規模な他モデルを上回る結果を示しています。

これらの結果は、単純な線形分類器を使用して評価した場合であっても、TWLV-Iが様々な動作認識タスクにうまく汎用できる、豊かな表現特徴を学習できていることを裏付けています。

3.4 - アテンティブプロービング(注意評価)

リニアプロービングはクリップごとの埋め込み精度についての洞察を提供しますが、特にパッチレベルの教師あり学習で訓練されたモデルにおいて、その真能力を完全に捉えきれない場合があります。この制限に対処するため、私たちは以下を含むアテンティブプロービングを導入します:

  1. フリーズされたモデルの上に、学習可能なクラストークンを持つ単一のアテンション層を導入してトレーニングします

  2. 出力されたクラストークンを線形分類器に入力します

  3. Top-1精度を測定します

この手法により、モデルのパッチ単位での表現能力をより詳細に評価することが可能になります。

__wf_reserved_inherit
結果と分析

表5は、アテンティブプロービングの結果を示しています。主な発見は以下の通りです:

  • TWLV-Iは、外観重視および動き中心の両方のベンチマークにわたって、他のモデルと比較して優れた性能を達成しています。

  • アテンティブプロービングにおける強力なパフォーマンスは、TWLV-Iが同等のモデル群に比べて、より詳細で豊かなパッチ単位の表現をそなえていることを示唆しています。

3.5 - K近傍法(K-Nearest Neighbors)

勾配法に基づく評価での潜在的な偏り(バイアス)を排除し、パラメータフリーな状態で埋め込みの品質を評価するため、私たちはK近傍法(KNN)分類タスクを採用しています。このノンパラメトリックなアプローチにより、異なるモデルアーキテクチャ間で埋め込みベクトルをより公正に比較することができます。

私たちは、以下の2つの手法で埋め込みを生成します:

  1. 一律の埋め込み(Uniform Embedding):ビデオ全体に対して1つの埋め込みベクトルを生成します。

  2. マルチクリップ埋め込み(Multi-Clip Embedding):ビデオ全体にわたる2秒間のクリップから複数の埋め込みを生成します。

マルチクリップ埋め込みでは、2つの評価戦略を採用しています:

  • ビデオレベル:すべてのクリップの埋め込みを平均化して、単一のビデオ表現を作成します。

  • クリップレベル:各クリップが獲得した投票を合計して、最終的なクラスを決定します。

__wf_reserved_inherit
結果と分析

表6は、異なるモデルおよび埋め込み戦略におけるKNN分類の結果を示しています。主な観察結果は以下の通りです:

  • TWLV-Iは、Kinetics-400(K400)およびSomething-Something-v2(SSv2)の双方のデータセットにおいて、特に対象モデルが同等規模のものと比較した際に、極めて競争力のある性能を示しています。

  • Uniform(一律)埋め込みの設定において、TWLV-I-ViT-BはK400で57.51%、SSv2で19.82%のTop-1精度を達成し、同一のアーキテクチャを持つUMT_s2を凌駕しています。

  • TWLV-I-ViT-Lは強力な結果を示しており、K400で65.97%、SSv2で19.47%のTop-1精度を達成し、いくつかのより大規模なモデルを上回っています。

それにもかかわらず、アテンティブプロービングでの結果とは異なり、KNN評価においてTWLV-IはK400およびSSv2の双方でInternVideo2に一歩及ばない結果となりました。これは以下を示唆しています:

  1. TWLV-Iの埋め込みをノンパラメトリックな方法で活用する余地がまだ残されていること。

  2. 特に長時間のビデオ(単一クリップの長さを大幅に超えるもの)について、その埋め込みを効果的に表現する方法に関する更なる研究が必要であること。

これらの結果は、ビデオ表現の複雑さと、異なる評価手法のすべてにわたって普遍的に強力な埋め込みを構築することの難しさを物語っています。

3.6 - SSv2を用いた事前トレーニング

V-JEPAなどのモデルとの公平な比較を行い、事前トレーニングに動き中心のデータを取り込むことの影響を評価するため、私たちはSomething-Something-v2 (SSv2) データセットをTWLV-Iの事前トレーニングフェーズに組み込む追加の実験を行いました。

私たちは、元のデータセット群に加えて事前トレーニング用データにSSv2を組み込み、TWLV-I(ViT-Lアーキテクチャ)のバリアントをトレーニングしました。これにより、この追加データが様々なベンチマークや評価に与える影響を直接比較できます。

結果と分析

このSSv2を組み込んで拡張されたモデルの評価結果は、表3、表5、および表6の下部に示されています。主な発見は以下の通りです:

  1. SSv2パフォーマンスの進歩:すべての評価方法(リニアプロービング、アテンティブプロービング、およびKNN)を通じて、そのモデルはSSv2ベンチマークにおいて大幅な進化を遂げています。たとえば、リニアプロービング(表3)では、SSv2でのTop-1精度が46.41%から48.14%に上昇しました。

  2. 全体の総合的性能向上:事前トレーニングにSSv2を含めることで、他のベンチマークにおいても性能向上が見られました。これは、動き中心のデータを追加したことで、モデルの全体的なビデオ理解能力が向上したことを示唆しています。

  3. 専門特化モデルとの比較:性能が改善されたものの、動き中心のSSv2における事前トレーニング拡張モデルのKNN性能は、同テスト上で依然としてV-JEPAおよびInternVideo2に対して遅れをとっています。これは、TWLV-Iのパッチレベルの表現能力は強力である一方、ビデオレベルでの表現力には改善の余地があることを示しています。

  4. 表現性能におけるトレードオフ:結果は、TWLV-Iのパッチレベルとビデオレベルの表現において、潜在的な不均衡がある可能性を浮き彫りにしています。この顕著なギャップへの対処は、今後のモデル拡張に際しての重要フォーカスとなるはずです。

これらの発見は、堅牢なビデオ基盤モデルの開発において多様な事前トレーニングデータの存在が極めて重要であることを強調しています。また、外観中心のベンチマークでの高い性能を維持しつつ、動き中心のタスクにおいて特定の専門モデルにより良く対抗するために、TWLV-Iを改良できる具体的な領域を指示してくれています。

4 - ImageNet 分類

ビデオ基盤モデルの汎用性と、それらが一般的な画像認識モデルとして機能する可能性を評価するために、ImageNet分類タスクにおけるTWLV-Iの性能評価を行いました。このベンチマークは、静止画像を処理・理解するモデルの能力についての洞察を提供し、これは包括的なビデオ理解システムを構築する上でも不可欠な要素です。

4.1 - 結果と分析

ImageNetの分類結果は、表3(リニアプロービング)および表5(アテンティブプロービング)の最後の列に示されています。主な観察結果は以下の通りです:

  1. 外観中心のタスクとの相関関係:一般的に、外観中心の動画動作認識タスク(例: Kinetics-400)で優れたスコアを達成するモデルは、ImageNetベンチマークにおいても強力な性能を発揮します。この相関関係は、ビデオ理解のために学習された特徴が、静止画分類タスクにも効果的に転移できることを示唆しています。

  2. TWLV-Iのパフォーマンス

    • リニアプロービング(表3)において、TWLV-I-ViT-LはImageNetで72.98%のTop-1精度を達成し、競争力はあるもののトップには至っていません。

    • アテンティブプロービング(表5)では、TWLV-I-ViT-Lは79.19%のTop-1精度へと性能が向上しており、アテンションメカニズムを介した学習済み特徴のさらなる有効活用を示してくれています。

  3. 専門特化モデルとの比較:TWLV-Iはビデオベースのタスクにおいて強固なパフォーマンスを発揮している一方で、いくつかの特定目的のモデルと比較するとImageNet分類のスコアには目に見えるギャップがあります。たとえば、InternVideo2はImageNetにおいてTWLV-Iを大幅に上回っていますが、ビデオ動作認識タスクにおいてはその性能差は狭まり、場合によっては逆転することもあります。

4.2 - 示唆と洞察

これらの観察に基づき、私たちは次の洞察を得ました:

  1. 静止画像処理における制約:結果から、TWLV-Iは、当該タスクに最適化されたモデルと比較して、静止画像の処理についてある程度の制限があることが示されています。これは、モデルの将来のアップグレード段階における改善余地があることを示します。

  2. 動作情報の活用能力:ImageNetのスコア差をよそに、ビデオタスクにおいてTWLV-Iと他モデルとの性能ギャップが縮まることは、TWLV-Iがビデオ理解において動作情報を非常に効果的に活用していることを示唆しています。この能力は外観ベースの特徴保管と補完し合い、結果として強力なトータルビデオ分析性能をもたらします。

  3. ビデオと画像能力の均衡化:TWLV-Iを単なる動画特化モデルから、さらに前へと進化させるために、今後の研究ではその強力なビデオ分析能力を損なうことなく、単一画像を理解する能力を強化することに焦点を当てるべきです。

総括として、TWLV-Iはビデオ理解タスクにおいて強力な性能を示しているものの、ImageNet分類結果は、静止画像処理におけるいくつかの改良すべき領域を示しています。これらの制約に対処することで、ビデオと画像の双方のドメインにわたって秀でた、より包括的な視覚基盤モデルの実現につながる可能性があります。

5 - 時間の動作ローカライズ

時間の動作ローカライズ(Temporal Action Localization; TAL)はビデオ理解における重要なタスクであり、トリミングされていない一連のビデオの中から特定の動作を特定し、時間的位置を特定することを含みます。このタスクは自動運転、スポーツ分析、コンテンツに基づくビデオ検索などの応用において特に重要です。TALでは、モデルが長くて複雑なビデオを分析し、その中で発生する各動作の時間的な境界と対応するクラス分類ラベルを正確に判定することが求められます。

5.1 - 評価の視点

TALは、主に以下の2つの主要な視点からビデオ基盤モデルを評価します:

  1. 時間的感度:関心のある動作が特定のタイムステップで発生したかどうかを識別する能力。

  2. インスタンス識別能力:フレームごとのセグメントを、完全な一つの動作インスタンスに識別またはグループ化する能力。

TALは本質的に動作中心のタスクとして設計されていますが、私たちの分析によれば、これら2つの側面の効果的な達成において、外観と動きの双方の能力が相乗的に寄与していることが明らかになりました。

5.2 - 手法

私たちは、TWLV-Iおよび他の動画基盤モデルを、以下の2つの著名なTALデータセットにおいて評価しました:

  1. ActivityNet-v1.3

  2. THUMOS14

検出用のヘッドとしてはActionFormerを採用しました。そして、以下の2つの異なる検証方法で評価を行いました:

  1. 自己完結型(Self-contained):モデルの外部サポートを受けることなく、自ら単独で分類と回帰の両方を実行します。

  2. 外部分類器併用型(w/ External Classifier):モデルは二値分類を行い、実際の動作クラスの予測は外部の分類器が行います。

特徴の抽出は、「フレームサンプリング」セクションで説明したマルチクリップ埋め込み手法に従って行われました。

5.3 - 結果と分析

表9と表10はそれぞれ、THUMOS14およびActivityNet-v1.3における包括的な結果を示しています。

__wf_reserved_inherit

THUMOS14(表9)

  • TWLV-I(当社モデル)は、すべての検証指標において、同一スケールの他のモデルを一貫して上回る性能を示しています。

  • TWLV-I-ViT-Lは、自己完結型設定で58.75%、外部分類器併用設定で53.63%という最高の平均mAPを達成しました。

  • 特筆すべきは、TWLV-I-ViT-LがDFNやV-JEPA (ViT-H) のようなより大規模なモデルををも凌駕している点であり、その優れた汎用・一般化能力を証明しています。

__wf_reserved_inherit

ActivityNet-v1.3(表10)

  • TWLV-Iはここでも、そのアーキテクチャの規模感において屈指のパフォーマンスを示しています。

  • TWLV-I-ViT-Lは、平均mAPで34.98%(自己完結型)および39.49%(外部分類器併用型)を記録しました。

  • 驚くべきことに、TWLV-Iは厳格なIoU閾値(例: 0.95)において極めて優れた性能を発揮しており、並外れた時間的感度を有していることが示されています。

5.4 - 主要な洞察

これらの結果に基づき、私たちは次の洞察を得ました:

  1. スケール効率:TWLV-Iのパフォーマンス、特にViT-Lの規模感において他社大容量モデルを打ち負かしている現状は、その効率的な設計アーキテクチャとトレーニング手法を明白に証明しています。

  2. 時間的精密さ:極めて厳しい基準である厳格なIoU閾値(ActivityNetにおける0.95等)での高スコア獲得は、TWLV-Iが誇る突出した時間的感度の鋭さを証明しています。

  3. モデル規模の影響:InternVideo2のトップパフォーマンス、特に自己完結型の評価における実績は、TALタスクにおいて分類と時間的境界の回帰を同時に実行する際、モデルの規模拡張が大きく利益をもたらすことを示唆しています。

  4. 評価戦略:単に「動きの理解」のみに的を絞って正確に測定したい場合は、外部分類器との併用が推奨されます。一方で、外観の理解度をも包含するより網羅的な評価を望む場合は、自己完結型のアプローチが求められます。

  5. 汎化能力:異なる複数のデータセットおよび評価方法にわたるTWLV-Iの終始強力なパフォーマンスは、時間の動作ローカライズ分野における主要バックボーンとしての屈強さを表しています。

これらの結果は、時間の動作ローカライズという極めて複雑な課題に対するTWLV-Iの抜群の有用性を物語っており、時間的感度と動作のまとまり認識の双方においてバランスよく実力を備えていることを明確に示しています。様々なスケールや多様な測定環境において現れたその高い適合能力は、ビデオ理解全般を支える汎用的ベース基盤としての高いポテンシャルを示しています。

6 - 空間・時間の動作ローカライズ

空間・時間の動作ローカライズ(Spatio-Temporal Action Localization; STAL)は、ビデオの中の特定の動作を認識するだけでなく、編集されていないビデオ系列内の空間(画面中のどこか)および時間(いつ発生したか)の双方を正確に検知・特定する、高度で複合的な難関課題です。この課題はアクションの精密な分析が必要とされるシーンで重要視され、外観と動き双方の完全な統合理解がモデル側に問われます。

6.1 - データセットと評価

私たちは、1本あたり15分間の映画から切り出された430個の動画クリップで構成されているAVA v2.2データセットを用いてモデル検証を行っています。キーフレームは毎秒付与され、学習用セットに210,634枚、検証用セットに57,371枚のラベル付きフレームが含まれています。データセットには、各俳優に紐付けられた80個の原子的な基本動作ラベルが含まれています。

この動作評価では、最新のv2.2アノテーションを使用し、Intersection over Union (IoU)の閾値0.5におけるフレーム平均精度(Frame Average Precision; fAP)を取得して比較しています。私たちはエンドツーエンドのSTALフレームワークを採用し、バックボーン側のビジュアルモデル部分を固定した状態でデコーダの追加トレーニングを実行しました。

6.2 - 結果と分析

__wf_reserved_inherit

表11は、STALタスクにおける性能評価を示しています。主な観察結果は以下の通りです:

  • 他モデルとの対比:TWLV-I、UMT、およびInternVideo2は、DFNやV-JEPAより優れた性能を発揮しています。DFNとV-JEPAは他の種類のタスクで全く異なる極端なスコア傾向を見せていましたが、物体としての人物特定と、時間的な動作認識の双方をクリアする必要があるSTALタスクにおいては、その性能は似たような値にとどまっています。

  • 検出局所化における難点

    • V-JEPA:人物などのインスタンスの特定そのものに手こずり、それが後続の動作認識スコアにも波及して悪影響を与えています。

    • DFN:得意とする外観の精緻な理解力により、対象が画像のどこにいるのかを素早く特定できていますが、時間情報の解釈の限界から、そこでどのような動作が行われているかの認識で誤答しています。

  • TWLV-Iの特徴的な強み

    • TWLV-Iは、物体の外観と動作中の物理的変化を極めて高いレベルで調和よく理解することで、STALタスクにおける確固たる強さを現しています。

    • ViT-Lモデルにおいて、TWLV-IはfAP@0.5で27.39を達成しました。これはDFNやV-JEPAを大きくリードし、より構造の大きい巨体モデル群であるInternVideo2の記録に肉薄する性能スコアです。

6.3 - 主要な洞察

これらの観察に基づき、私たちは次の洞察を得ました:

  1. 調和のとれた深い読解:今回の好成績は、TWLV-Iが時空間情報を極めて適切に理解できていることを示す十分な証拠であり、精度の高い時空間ローカライズを実現する上でも要となります。

  2. 全般的なビデオ判定価値:終始シームレスにエンドツーエンドで行われるSTAL検定は、空間と時間の2つの次元におけるパフォーマンスを高い再現性を持って明らかにする包括的なモデル審査手法と言えます。

  3. 手法の有効性検証:TWLV-IがUMTやInternVideo2と並んで好成績を残している現状は、空間位置特定と動作分析の2つの異なる目標を同時に処理する能力の現れであり、外観のみ、あるいは動作のみといった限定的な一方を追求した他社モデルとは一線を画しています。

これらの裏付けは、時空間の複雑なシーンを正確に記述する必要がある高度な難題(STAL等)を解決するために、外観情報と動作変化情報の双方が一つの脳(モデル)の中にバランスよく統合されていることが如何に決定的であるかを語っています。

7 - 時間の動作セグメンテーション

時間の動作セグメンテーション(Temporal Action Segmentation; TAS)は、編集されていない長時間のビデオから人間の複雑な活動の全貌を読み解くために非常に重要とされている応用課題です。セキュリティ監視、ハイライト映像などの要約作成、作業スキルの機械的審査など、広範な産業でその活躍が期待されています。TASでは、トリミングされていないビデオを入力として直接流し込み、それぞれのフレームに一連の正しいアクションのクラス分類ラベルを追加していく作業を行います。

7.1 - 表記比較基準とアプローチ

私たちは、TASの性能を判定すべく以下の3つの高難度検証基準を用意しました:

  1. 50Salads:調理の手順において、細々とした変化を伴う複雑な一連の処理を含んでいます。

  2. GTEA:一人称の目の高さで撮影した、複雑な身の回り仕事の一連のプロセスを記録しています。

  3. Breakfast:引いた位置からも撮影された、全身でキッチン作業をこなす長時間の全体構成データです。

TASのデコーダ部分としてはASFormerを使用しました。閾値10、25、および50のもとで測定されたF1スコアの平均値を「mF1」として評価に採用しています。マルチクリップ埋め込みを用いて特徴を抽出し、空間次元プーリングを施すことで時間軸のみを滑らかに残しています。

7.2 - 結果と分析

__wf_reserved_inherit

表12は、これら3つのテスト条件のもとで実施したTAS試験の結果を詳細を伝えています:

  • 50Salads:TWLV-Iは、ViT-Bで80.69、ViT-Lで80.60のmF1スコアをマークしました。これは、UMTやDFNといった外観重視モデルや、動作変化を専門としたV-JEPAをも完全に跳ね除ける数値です。また、エディットおよび予測適合率の項目についても、TWLV-Iの手法が正解データ配列に極めて整合していることを明らかにしています。

  • GTEA:TWLV-Iはさらに強さを示し、ViT-Bで88.26、ViT-Lで88.43のmF1スコアを記録して競合を大きく引き離しました。これは、一瞬で移り変わるアクションの正確なセグメンテーションを必要とする、一人称主観視点の動画において真価が浮き彫りになることを証明しています。

  • Breakfast:被写体が遥か遠くにフレームインする視野角の広いこのシーンでも、TWLV-Iは実力を落とすことなく、ViT-Bで52.18、ViT-Lで50.66という好ましいmF1スコアを獲得しています。目まぐるしく変化するカメラ視野の切り替わりに対しても、その対応柔軟性が高水準に維持されています。

7.3 - 主要な洞察

これらの結果に基づき、私たちは次の洞察を得ました:

  1. 完成されたオールラウンダーとしての実力:データの多様性によらずあらゆる分類群で最高峰に位置するTWLV-Iの一貫した強さは、外観の把握力と動作の持続変化を漏らさず記述する能力のバランスが非常に良好であることを意味しています。

  2. 実際の推移への適合精度:エディットスコアおよびmF1スコアが高水準にまとまっていることは、TWLV-Iが予測したアクションの流れ全体(系列)が、実際のビデオ内で人間の動作した現実の順序に正確に合致していることを意味し、将来的なオンサイト実装における安全・信頼性の高さを示しています。

  3. 視野角変化に対する屈強さ:上空からの撮影、手元を映す一人称主観カメラなど、極端な画角変更があっても他製品以上のスコアを叩き出し続ける事実は、いかなる用途でも現場を選びにくい柔軟性のある頑丈なモデルであることを実証しています。

  4. InternVideo2とのベンチマーク性能比較:特定のアングルのデータにおいて、TWLV-IはInternVideo2に類似する好成績を取り分けて現していますが、広範囲にまたがる複数データセットを前にしても性能がブレることのなく、常に一貫した優秀さを維持する確実性は、総合的なポテンシャルの高さをはっきりと映し出しています。

これらの評価により、時系列動作セグメンテーション(TAS)の非常に挑戦的な検証において、TWLV-Iがビデオ解析を応用可能とする多大なる可能性を備えていることが確かに認められました。

8 - 埋め込み空間の可視化

TWLV-Iや他社基盤モデルのビジュアル表現能力がどのように構造化されているかを詳しく探索するため、私たちはt-SNEおよび線形判別分析(LDA)を用いたビジュアル確認実験を実施しました。これにより、作成された埋め込みベクトルが「外観情報」と「動き情報」の各々の側面をどれほど精緻に描写できているかが理解できます。

8.1 - t-SNEを用いた各評価データセット上のマッピング

t-SNEを用いて、Kinetics-400 (K400) および Something-Something-v2 (SSv2) 検証用セットにおける埋め込みベクトル分布をマッピングしました。また、色分けは異なるアクションクラスを表しています。

__wf_reserved_inherit

Kinetics-400(図6)

  • TWLV-I, UMT, および InternVideo2:これらのモデルは同じ特性をもつ動作どうしが1つのブロックのように固まりを構築し、境界線を容易に引くことができるきれいなクラスタリングを示しました。これは、外観に基づいて表現が異なる多数の動作群を驚くほどきれいに判定できていることを意味します。

  • V-JEPA:打って変わって、各動作クラスをごちゃ混ぜに描いてしまい、特徴空間を明確に分割することができていません。静止構造(外観ターゲット)をきれいに捕捉できていない性質が読み取れます。

__wf_reserved_inherit

Something-Something-v2(図7)

  • 全モデルの傾向:面白いことに、TWLV-IやV-JEPAも含め、どのモデルもSSv2のような高度に動きが重視されるデータセットにおいては、一目で分かるようなクラスタリングを表示できませんでした。これは、他の手法に比べ、そもそもSSv2の分類スコアがどの製品でも総じて低い実情と重なっています。

  • そのことが暗示する意味:このプロットによる描画結果は、動きそのものの質的違いを明確なベクトルのまとまりの中に落とし込んで表現することが技術的に如何に困難であるかを雄弁に物語っており、ブレイクスルーを呼び起こす今後の革新的アプローチが待ち望まれます。

8.2 - 動作の方向に対する感度検証

よりミクロなレベルにおいて、モデルが動きをどのように知覚しているかを理解するために、私たちはSSv2から「何かを押し上げる」「何かを引き下げる」といった、動作の物理的方向の読解が無ければおよそ解答不可能な、特定の動作ペアに注目しました。

私たちは、通常の正再生動画から切り出した動画ベクトルと、それを時間軸に対して逆転させた逆再生動画の埋め込みベクトルを抽出し、線形判別分析(LDA)を用いてプロットしました。この検証では、外観が全く同じである動画どうしの順逆方向について、純粋に時間的経過の順序だけでその差異を埋め込みベクトル空間上で分離できるかどうかをテストできます。

__wf_reserved_inherit

結果(図8および図9)

  • TWLV-I:正再生と逆再生の動画が交じることなく極めて良好に二極反転の空間位置を保っており、時間方向の違いをベクトルの差異の形で確実に記述できていることを実証しています。

  • V-JEPA:ここでも正逆識別において最も広い距離感(明確さ)を獲得しています。これは、同モデルが事前トレーニング時から意図的にSSv2データセットを多量に摂取している実績に起因すると考えられます。

  • UMT および InternVideo2:埋め込みの正負領域での重複が大きく分離困難に陥っています。これは、静止画像の精緻な理解を得意とする一方で、時間方向に対してはほぼ感度を持たない(動作変化に対して無頓着な)設計上の構造を示しています。

__wf_reserved_inherit

8.3 - 主要な洞察

これらの観察に基づき、私たちは次の洞察を得ました:

  1. 外観と運動変化を同時に記述する能力:TWLV-Iは、静止画を基準とする認識分類力(K400の図から顕著)と、動作方向による時間秩序変化の知覚力(順逆分析から顕著)の双方を高レベルで併せ持つ、類稀なるオールラウンド性能を持っていることがビジュアルからも明らかになりました。

  2. 動作の質的表現(モデリング)のための課題:SSv2のクラスタリングで全ての競合が描いたカオティックなプロット図は、運動表現のみで多様なクラス群をきれいに定常分離していく作業が今なおどれほど高難易度であるかを示し、ビデオ分野における最大のテーマとして残されています。

  3. 時間変化に対する鋭敏な解釈力:正逆方向のビデオを即座に引き裂くTWLV-Iのおおきな分離能力は、ただ物理的な情報を見るだけでなく、動画ならではの微細な時間フレームの前後変化にまで高い感度で反応を返せていることを意味し、高度な動作記述の足がかりとなります。

  4. 各社モデルの個別得意分野:プロットにより、それぞれの製品群が得意とする設計方針の違いが鮮明になり、外観を高度に見抜くモデルがある一方で、時間的運動のみをうまく感知するような尖った得意領域に特化するなどの現状が浮き彫りになり得ます。

これらの特徴的な視覚マッピングによる可視化手法は、TWLV-Iの脳がどのように特徴を獲得しているかを視覚的に雄弁に説いてくれており、今後の改善策を計画するための重要な技術基盤となります。

9 - 今後の開発テーマ

今後の展望として、TWLV-Iの実用拡大、およびビデオ基盤モデル一般を劇的に変革し、応用領域を広げるためのいくつかの有望な発展レーンが存在します。これらは、モデル能力の大幅補強、スコア改善、さらに多領域における産業実装の加速を目指すものです。

9.1 - モデルスケールの拡張

これまでのところ、主に以下の2つのモジュール構成を中心にリリースしてきました:ViT-BおよびViT-L。しかしながら、当社のTWLV-I-ViT-Lは、一回り体が大きい他社製のViT-HやViT-gの記録と同等、場合によってはそれを超える良好な数値を叩き出しています。この効率の良さは、今後モデルを拡張した場合、さらなる大幅なポテンシャル向上の余白があることを意味します:

  1. 極大規模アーキテクチャの導入:TWLV-Iをより極大サイズのモデルへと引き上げることで、多様な検証ベンチマークにおけるスコアを飛躍的にレベルアップさせることが大いに期待されます。

  2. 内製の極大データセットの構築:自社で囲い込みを行って獲得した並外れた規模の大容量学習資源を使用することで、さらに柔軟であらゆる変化に強い強固なベースを育むことが可能です。これは未体験の難題や新たなシーンをモデルが難なく見抜く手助けとなります。

  3. 高効率スケーリング設計:スパースアテンション構造やMixture-of-Experts (MoE) と言われるマルチネットワーク構造などの高効率スケーリング手法を採用することで、開発リソース資源を際限なく食いつぶすことなく、極端な機能アップグレードを安定して実現させられます。

9.2 - 画像埋め込み機能の大幅強化

TWLV-Iはビデオに関わる項目で強い優位性を現したものの、単一の画像そのものの埋め込みを表現する精度に関しては、さらに向上させられる余地が残っています:

  1. 静止フレームの読解力強化:ビデオから切り出した1枚のフレームそのものを正確に把握する精度を強化することは非常に合理的です。この能力が磨かれれば、ビデオの得意さと画像の得意さが統合され、TWLV-Iは総合的に完璧なビジュアル認識プラットフォームとなり得ます。

  2. 転移学習アプローチの探索:動画上で構築された「動作変化を前提とした知覚表現」を、うまく静止画における分類タスクの補助特徴へと転移する学習アプローチが構築できれば、一般的な画像AIタスクにおける信頼性を容易に格上げできます。

  3. 単一フレームワークでの統合学習:同一のシステム構成のままで、ビデオからの入力と静止画からの入力のいずれでも変わらぬ適合率をたたき出す、シームレスな統合アーキテクチャの変更を推進します。

9.3 - モダリティレンジの拡張

さらに、TWLV-Iとしての利便性を全方位的にレベルアップさせ、AI産業自体の需要とより強固に噛み合わせるために、モダリティレンジを着実に拡張することが非常に重要です:

  1. マルチモダルの活用促進:ビデオと引き当てられる文章推薦(ビデオテキスト検索)や、動画を正確に文字に直すビデオキャプションなど、極めて複雑な多元タスクを処理できるように改良します。これにより、卓越した映像把握力を生かしたまま、テキストと調和的に交信できるようになります。

  2. ビデオLMMとしての位置づけ構築:TWLV-Iの構造をビジュアル側にとって最適なビジョンエンコーダとして位置付け、先進的なビデオ・大規模言語モデル(VLM)との高水準な接ぎ木を実現します。高度なテキスト理解力とのシームレスな融合が可能となります。

  3. 音声特徴の統合理解:動画内の時間変化に伴う「音声変化(オーディオ)」を映像と時間補正した状態で統合することで、音と映像のタイミングマッチング、音の出どころイベントの検出など、さらに応用度をました技術を実現します。

  4. テスト手法の体系化と基準設定:これらの極めて応用的なマルチモダル性能について、信頼性高くスコア検証していけるよう、独自の統合的な判定テスト手法や新たな検証基準を設け、その安定性を保証していきます。

これらの将来像を追うことで、TWLV-Iが提供するバリューを「ビデオ専用のベース」から、「様々な周辺状況に対して瞬時に協調できる究極の知覚システム」へと引き上げることを想定しています。この発展は、現在実現されている機能群での性能を引き上げるのみならず、自動応答アシスタント、次世代のコンテンツクリエイト事業、革新的な人間とロボットのインターフェース構築といった未来的な産業へ決定的な道を開きます。

10 - おわりに

私たちは今回の体系的なビデオ検証において、絵画的な美しさ(外観)と移り変わる変化(動き)の2つの要素の調和が、映像解釈という広大で豊かな目的をクリアするためにいかに決定的であるかを詳述してきました。私たちの取り組みは、以下の素晴らしいブレイクスルーと発見をもたらしています:

  1. 多角的で包括的な測定規格:動画の時間的ローカライズから一連のアクションシーケンス抽出まで、あらゆる側面においてモデルの能力を均一な視点で測定できる、信頼性の高い規格を提供しています。

  2. 既存モデルの顕著な改善余白:一連の周到な検証プロセスにより、他モデル群が動作と外観のいずれか一方のみの知覚に依存し、両者を共にハイパフォーマンスに両立することがいかに苦手であるかを明らかにし、この分野におけるミッシングリンクを特定しました。

  3. 満を持してのTWLV-Iの紹介:これらの業界の不均衡に対して最適な解を与えるべく、外観と動作の両方を同時に、そして高解像度に把握する新世代のアプローチ「TWLV-I」を投入しました。

  4. 抜群の埋め込み品質:TWLV-Iが生む埋め込みベクトルは、高度な下流タスクを非常に簡便にいなす高い適用力を見せており、実用化の検証コストを劇的に圧縮します。

  5. 汎用的で強力な検証用フレームワーク:本ブログでお披露目された多様な検証とプロット比較法は、今後のビデオ基盤モデルの基礎テスト規格となる得るよう、業界コミュニティへ開示されています。

  6. 将来のイノベーションプラン:今後の研究をドライブするために、モデルの大容量化、画像識別のブラッシュアップ、さらには音響やテキスト等の他系統とのマルチリンガル的な統合を進めていきます。

  7. 業界の目指すべき座標の提示:外観性能のみの偏重、動きのみの過学習を克服し、双方をひとつの体にバランスよく共存させる姿勢を示すことで、ビデオ理解領域が目指すべき進路を設定できたと自負しています。

要約すれば、TWLV-Iは万能型でかつ不屈の動画基盤モデルを作るうえで、記念碑的な飛躍を示すモデルです。外観知覚と動作知覚を絶妙に調和させることで、これまで想像さえ難しかった、高次元の動画理解と多角的な用途への扉が開かれました。私たちは、ここで開示された評価スキームやアイデアが多くの研究者をエンパワーし、新しい視点、そしてより本質に迫るアプローチで今後の課題に取り組んでもらえることを切に願っています。

この先、こうした完璧な統合基盤がさらに成熟していくプロセスは、ビデオを取り扱う多くのソフトウェア群のブレイクスルーにつながり、AIが生活シーンを支える究極のパートナーへと変貌していくために重要となります。私たちは世界中のリサーチャーとともにこの挑戦の地盤を盤石なものとし、ビデオAIが切り開く素晴らしい未来へのフロンティアを共に開いていくことを歓迎します。

Twelve Labs チーム

本研究開発は、Twelve Labs ML ResearchおよびML Dataチームの厚い支援のもと、核となる以下の主要執筆者たちの均等な(equal contributionという素晴らしい連携による)献身的な貢献を通じて達成されました。

主要な執筆者・研究代表

Hyeongmin Lee, MLリサーチャー(Research Scientist)

Jin-Young Kim, MLリサーチャー(Research Scientist)

Kyungjune Baek, MLリサーチャー(Research Scientist)

Jihwan Kim, MLリサーチャー(Research Scientist)

Aiden Lee, 最高技術責任者(CTO)

コントリビューター(アルファベット順表記)

Aaron (Jangwon) Lee, MLデータ・インターン\

Calvin (Minjoon) Seo, チーフサイエンティスト(Chief Scientist)

Cooper (Seokjin) Han, MLリサーチャー(Research Scientist)

Daniel (GeunOh) Kim, MLデータエンジニア

Flynn (Jiho) Jang, MLリサーチャー(Research Scientist)

Ian (Soonwoo) Kwon, MLリサーチャー(Research Scientist)

Jay Suh, MLデータエンジニア

Jay (Jaehyuk) Yi, MLリサーチャー(Research Scientist)

Jayden (Junwan) Kim, リサーチ・インターン

Jeff (Jongseok) Kim, MLリサーチャー(Research Scientist)

Kyle (Seungjoon) Park, MLリサーチャー(Research Scientist)

Leo (Daewoo) Kim, MLリサーチャー(Research Scientist)

Mars (Seongsu) Ha, MLリサーチャー(Research Scientist)

Max (JongMok) Kim, MLリサーチャー(Research Scientist)

Ray (Raehyuk) Jung, MLリサーチャー(Research Scientist)

William (Hyojun) Go, MLリサーチャー(Research Scientist)

引用

本プロジェクトおよび私たちの論文が皆様の研究の助けとなりましたら、ぜひスターボタンを押して引用をお願いいたします:

@inproceedings{twelvelabs2024twlv,
  title={TWLV-I: Analysis and Insights from Holistic Evaluation on Video Foundation Models},
  author={Twelve Labs},
  year={2024}
}