リサーチ
ビデオ理解アプリケーションの過去、現在、そして未来

ジェームズ・リー
ビデオ理解は、オブジェクト検出や追跡といった限定的な低レベルのタスクから、分類、セマンティック検索、質疑応答、字幕生成などの高レベルの機能へと進化を遂げ、現在ではマルチモーダルなビデオ基盤モデルが次なるフロンティアとして浮上しています。
ビデオ理解は、オブジェクト検出や追跡といった限定的な低レベルのタスクから、分類、セマンティック検索、質疑応答、字幕生成などの高レベルの機能へと進化を遂げ、現在ではマルチモーダルなビデオ基盤モデルが次なるフロンティアとして浮上しています。

この記事の内容
ニュースレターに登録する
ニュースレターに登録する
ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします
ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします
AIを活用してビデオを検索、分析、探索します。
2023/05/15
30分
記事へのリンクをコピー
動画理解の分野に関わる上で、今ほどエキサイティングな時期はありません。過去10年間、最先端のニューラルネットワークアーキテクチャの開発により、この分野は飛躍的な進歩を遂げ、その勢いは現在も衰える兆しを見せていません。最近では、顔認識ソフトウェアや動画作成ツールなどの進歩により、メディアからこれまでにないほど多くの洞察を得られるようになり、大きな盛り上がりを見せています。しかし、これらは実現可能なことのほんの表面をなぞったに過ぎません。動画内から魅力的なクリップを抽出することや、さらに既存の映像に基づいて新しいインタラクティブな体験を創出することなどに関しては、まだ実現されていない可能性が数多く残されています。
基盤モデルがどのようにマルチモーダル化していくかに関する最初の記事では、動画モダリティを扱う上での独自の課題について議論しました。この記事では、動画理解の研究がこれまでにどれだけ進歩したか、どのような可能性が未開発のまま残されているか、そして今後はどこへ向かうのかをレビューすることで、このテーマをさらに深く調査します。
1 - 過去:低レベルの動画知覚タスクの解決
動画の「知覚(Perception)」と「理解(Understanding)」のタスクの違いを強調しておくことは重要です。
動画知覚タスクとは、動画データから色、テクスチャ、動きなどの低レベルの基本特徴量を抽出することです。これらのタスクは多くの場合、コンピュータビジョン技術に基づいており、そのゴールは、さらに分析可能な動画の視覚的コンテンツの表現を提供することです。
一方で、動画理解タスクとは、動画内のオブジェクト、アクション、イベントの認識など、動画データの高レベルの処理を含みます。これらのタスクでは、フレーム間の文脈情報や時間的関係を捉えることができる、より高度なモデルが必要になることがよくあります。
一般的に、動画の知覚は動画理解の前提条件です。なぜなら、より高レベルの処理に必要な入力データを提供するからです。2013年以降、ディープラーニングとコンピュータビジョンが急速に普及し、動画知覚タスクにAIを利用する人が増えました。これは従来、オブジェクトの検出、追跡、セグメンテーションが可能な畳み込みニューラルネットワーク(ConvNet)を通じて達成されてきました。
1.1 - 動画オブジェクト検出
動画オブジェクト検出は、近年ますます注目を集めている魅力的な研究分野です。この技術は、静止画からオブジェクトを検出するという従来の一般的なアプローチとは異なり、動画ストリームの中からオブジェクトを検出します。動画ストリーム内のオブジェクト検出では、一連のフレームを分析し、それらのフレーム内に現れるオブジェクトを特定します。オブジェクトが移動したり、サイズが変化したり、動画内の他のオブジェクトによって部分的に遮られたりすることがあるため、これは複雑なプロセスになる可能性があります。
しかし、高度なコンピュータビジョン技術と機械学習アルゴリズムの助けにより、動画オブジェクト検出は、セキュリティや監視からロボティクス、自動運転車にいたるまで、幅広いアプリケーションにとって非常に効果的なツールとなっています。このタスクでは、RetinaNet、YOLO(You Only Look Once)、CenterNet、SSD(Single Shot Multibox Detector)、および領域提案(R-CNN、Fast-RCNN、Faster RCNN、Cascade R-CNN)などのニューラルネットワークアーキテクチャが広く使用されています。

従来の動画内オブジェクト検出手法は、各画像フレームを個別に分析するものでした。しかし、このアプローチは、特徴量の重複抽出につながる隣接フレーム間の類似性を考慮しないため、遅くて非効率的です。また、動きやブレ、遮蔽(オクルージョン)、時間の経過に伴う位置の変化などにより、一部のフレームの品質が低下し、そのようなフレームにおけるオブジェクト検出の精度が低くなる可能性があります。
これらの欠点を克服するために、研究者たちは現在、時間の経過に伴う動画データの整合性を活用するディープラーニングソリューションに焦点を当てています。下の図に示すように、時間情報の利用と動画スニペットから抽出された特徴量の統合に基づいて、動画オブジェクト検出器は、フローベース(Deep Feature Flow、Flow-Guided Feature Aggregation、Impression Network)、LSTMベース(Looking Fast and Slow、LSTM-SSD、LSTMNet)、アテンションベース(Relation Distillation Network、Memory Enhanced Global-Local Aggregation、Progressive Sparse Local Attention)、トラッキングベース(Detect or Track、Cascaded Tracked Detector、Cooperative Detection and Tracking)、および上記の複数の方法を組み合わせたその他の方法(Spatial-Temporal Sampling Network、Spatial-Temporal Memory Network)に分類できます。

1.2 - 動画オブジェクトトラッキング
動画オブジェクトトラッキングとは、動画シーケンスにおいて時間の経過に伴うオブジェクトの軌跡を推定することです。この技術は、セキュリティ、エンターテインメント、スポーツなど、多くの分野で重要です。動画内のオブジェクトの動きを正確に追跡することで、行動パターンの分析、異常の検出、将来の動きの予測などを行うことができます。例えばセキュリティ分野では、動画オブジェクトトラッキングによって不審な行動を検出したり、個人の動きを追跡したりすることで、潜在的な脅威を特定するのに役立ちます。エンターテインメント分野では、特殊効果の作成やインタラクティブな体験を実現するために使用できます。スポーツ分野では、個人またはチーム全体のパフォーマンスを分析するのに役立ち、戦略的な計画や選手の育成に貴重な洞察を提供します。

主なアプローチとして、検出ベース(detection-based)とマッチングベース(matching-based)の2つがあります。
検出ベースの手法(SORTやDeep SORTなど)は、まず各フレームでオブジェクトを検出し、その後、さまざまな基準に基づいてフレーム間でそれらを関連付けます。これらは遮蔽や外観の変化に対してロバストである一方、誤検出(ファルスポジティブ)が発生しやすく、高品質な検出器を必要とします。
マッチングベースの手法(Siamese networksや相関フィルタなど)は、フレーム間の類似度指標を学習し、それを利用して特徴量に基づいてオブジェクトをマッチングします。これらはより効率的で、部分的な遮蔽にも対応できますが、長期的なトラッキングに苦戦することがあり、ターゲットクラスごとに微調整が必要になる場合があります。
動画オブジェクトトラッキングは、遮蔽、照明の変化、モーションブラーなどの課題があるため、アプリケーションごとに手法やパラメータを慎重に選択する必要がある難しいタスクです。現在は検出ベースの手法が最も正確ですが、複雑なシナリオにおけるスケーラビリティやロバスト性の面で制限がある場合があります。マッチングベースの手法は、より効率的で汎用的なソリューションを提供する可能性がありますが、継続的な改善が必要です。
1.3 - 動画インスタンスセグメンテーション
動画インスタンスセグメンテーションは、動画内のインスタンスを同時に検出、セグメンテーション、および追跡する難易度の高いタスクです。これは、画像のインスタンスセグメンテーション問題を動画ドメインに拡張したものです。このタスクにより、動画編集、自動運転、拡張現実(AR)など、動画レベルのオブジェクトマスクを必要とするアプリケーションの可能性が広がります。
例えば、以下の動画インスタンスセグメンテーションのイラストは、動画内の画像フレーム、動画インスタンスのアノテーション、および動画インスタンスの予測を示しています。動画シーケンス内の関心のあるオブジェクトをセグメンテーションするために、動画インスタンスセグメンテーションがどのように使用されるかを示しています。

動画インスタンスセグメンテーションが画像インスタンスセグメンテーションよりも難しいのは、個々のフレームでのインスタンスセグメンテーションだけでなく、フレーム間でのインスタンスの追跡も要求されるためです。一方で、動画コンテンツは単一の画像よりも、異なるオブジェクトの運動パターンや時間的一貫性などの豊富な情報を含んでいるため、オブジェクトの認識やセグメンテーションのためのより多くのヒントを提供します。
動画インスタンスセグメンテーションを行う主な方法には、2ステージ(two-stage)と1ステージ(one-stage)の2つがあります。
2ステージの手法(Mask R-CNNやMaskTrack R-CNNなど)は、まずオブジェクトの候補領域を検出し、その後マスクヘッドを使用してインスタンスセグメンテーションマスクを生成します。これらは最先端の性能を達成する一方で、計算コストが高く、動作が遅くなる可能性があります。
1ステージの手法(YOLACTやHTCなど)は、検出とセグメンテーションを単一のステージで組み合わせ、アンカーフリーのデザインを使用することで速度と精度を向上させます。しかし、詳細なセグメンテーションに苦戦することがあり、2ステージの手法よりも誤検出率が高くなる可能性があります。
アプリケーションに最適なアプローチを選択するには、精度、速度、メモリ要件の間のトレードオフを考慮してください。2ステージの手法はより正確ですが低速であり、1ステージの手法は高速ですが精度が劣る場合があります。
最近、動画オブジェクトの追跡とセグメンテーションのために設計された、Track-Anythingという新しいツールが登場しました。これはSAM(Segment Anything Model)に基づいて開発されており、ユーザーのクリック操作のみで、追跡およびセグメンテーションを行う対象を任意に指定できます。

背景として、SAMは画像セグメンテーション用の基盤モデルです。プロンプトエンジニアリングを使用して、多様な下流のセグメンテーション問題に適応する、プロンプト可能なセグメンテーションタスクに焦点を当てています。11万枚のライセンス画像における10億個以上のマスク(これまでリリースされた中で最大のセマンティックセグメンテーションデータセット)でトレーニングされたSAMは、エッジ検出、オブジェクト候補領域の生成、インスタンスセグメンテーションなどの多くのゼロショットタスクを完了できます。
Track-Anythingは、SAMの力を動画モダリティにもたらします。追跡中、ユーザーは追跡したいオブジェクトを柔軟に変更したり、曖昧さがある場合には関心領域を修正したりできます。これらの特徴により、Track-Anythingは以下のような用途に適しています。
カット変わり(ショットチェンジ)がある動画のオブジェクト追跡およびセグメンテーション。
動画オブジェクトの追跡およびセグメンテーションのためのビジュアル型開発とデータアノテーション。
動画のインペインティングや編集など、オブジェクト中心の下流動画タスク。

この発展を考慮すると、動画のセグメンテーションと追跡のためのさらなる基盤モデルが近いうちに登場することが予想されます。
1.4 - 動画知覚の限界
動画知覚タスクは近年大きく進歩しているものの、その有効性にはまだいくつかの限界があります。
動画知覚タスクの大きな制限の1つは、新しいタスクが導入されたときに、新しいクラスやラベルを定義するのが難しいことです。これは、動画知覚モデルが多くの場合、固定されたクラスやラベルのセットでトレーニングされているため、新しいオブジェクトを認識するようにモデルを修正することが難しいためです。これは、ロボティクスや自動運転車のように、新しいオブジェクトが頻繁に登場する動的な環境において特に問題となる可能性があります。この制限に対処するため、研究者たちはインクリメンタルラーニング(逐次学習)やゼロショット学習などを通じて、動画知覚モデルをより柔軟で適応可能にする方法を模索しています。
動画知覚タスクのもう1つの制限は、ドメインシフト(領域変化)が発生したときのロバスト性です。動画知覚モデルは特定のデータセットでトレーニングされることが多いため、分布外(out-of-distribution)の動画データに適用するとパフォーマンスが低下する可能性があります。これは、トレーニングデータセットに存在しない照明、動き、あるいはその他の要因の変化が動画コンテンツに含まれている場合に、特に大きな問題となります。この制限に対処するため、研究者たちはドメイン適応や転移学習などを通じて、動画知覚モデルのロバスト性と汎用性を高める方法を検討しています。
2 - 現在:高レベルの動画理解タスクの処理
動画理解技術は誕生以来、長い道のりを経て、低レベルの動画検出やセグメンテーションタスクから、より高レベルの動画理解タスクへと進化してきました。上述のアプローチは、狭い範囲のタスクに限定されており、非効率性があったため、タグの付け忘れ、オブジェクトの誤ラベル、不正確さなどが頻繁に発生していました。現在のプログラミングアプローチは進化し、分類、検索、質問応答、キャプション生成といった、より幅広いタスクを処理できるようになり、そのパワーを活用する機会がさらに増えています。
2.1 - 動画分類
動画分類とは、動画コンテンツを分析してカテゴリに分類するプロセスです。これには、オブジェクト、人物、アクション、またはシーンを認識し、それらをスポーツ、ニュース、音楽、エンターテインメント、教育などの定義されたカテゴリに分類することが含まれます。これを行うには、動画の特徴量(色、動き、空間レイアウト、オーディオコンテンツ)を抽出して認識するシステムを設計・構築し、それらを使用して分類精度を向上させます。
動作認識(Action Recognition)と動作ローカライゼーション(Action Localization)は、動画分類の重要な研究サブドメインです。
動作認識(Action Recognition)

動画動作認識とは、与えられた動画シーケンスにおいて被写体が行っている動作を特定するタスクです。これには、動画フレームを分析して、どのような動作が行われているか、またそれがいつ始まり、いつ終わるかを特定することが含まれます。動画動作認識は、ビデオ監視、スポーツ分析など、さまざまな分野に応用されています。監視分野では、異常な行動や不審な活動を検出できます。スポーツ分野では、動画からキーフレームを抽出してアスリートの動きを追跡し、フォームを修正することができます。
効果的な動画動作認識アルゴリズムの開発は、いくつかの大きな課題に直面しています。
第一に、人間の動作を捉えた動画は、クラス内およびクラス間のばらつきが非常に大きいです。同じ動作であっても、人によって異なる速度や、さまざまな視点から行われます。
第二に、人間の動作を認識するには、短期的な動作特有の動き情報と、長期的な時間情報の両方を同時に理解する必要があります。単一の畳み込みニューラルネットワークを使用する代わりに、多様な視点に対応できる高度なモデルが必要になる場合があります。
最後に、トレーニングと推論の両方において計算コストが高いため、動作認識モデルの開発やデプロイへのハードルとなっています。

大規模なデータセットの利用可能性とディープラーニングの急速な進歩により、動画の動作を認識するためのディープラーニングベースのモデルは急速な成長を遂げています。例えば、動画の時間情報をモデル化するデフォルトの選択肢はConvNetであり、DeepVideo、Two-Stream Networks、Non-Local、SlowFastなどのモデルがありました。しかし最近では、さらに大規模なデータセットに拡張できる計算効率の良さから、研究者たちはTransformerアーキテクチャに注目しており、Video Swin TransformerやTimeSformerなどのモデルが登場しています。
動作ローカライゼーション(Action Localization)

動作ローカライゼーション(時空間動作認識とも呼ばれる)は、動画の一連のフレームにおいてどのような動作が行われているかを分類し、その個々の動作を空間的および時間的の両方で位置特定するタスクです。位置特定はバウンディングボックスやマスクを使用して視覚化できます。近年、計算リソースの利用可能性の向上や、ConvNetアーキテクチャの新たな進歩により、このタスクへの関心が高まっています。
動作ローカライゼーションは、動画全体を通じて動作を追跡することや、動作が発生している時間枠を特定することなど、動作認識で見られる通常の課題に直面します。しかし、それ以外にも以下のような多くの追加の課題があります。
動画内の背景の雑音(バックグラウンドクラッター)や、オブジェクトの遮蔽(オクルージョン)
候補オブジェクトの数に応じたシーンの空間的な複雑さ
不規則なカメラワークが存在する中でのフレーム間の動作のリンク
動作のオプティカルフローの予測

動画における動作ローカライゼーションに対処するために、いくつかの手法や技術が使用されています。そのほとんどは、RGBピクセル値、オプティカルフロー、骨格グラフなど、類似した特徴を巧みに利用しています。これらには、action proposal networks(アクション提案ネットワーク)、figure-centric models(フィギュア中心モデル)、deformable parts models(変形可能パーツモデル)、graph-based models(グラフベースのモデル)、およびspatiotemporal convolutions(時空間畳み込み)などがあります。
2.2 - 動画テキスト検索(Video-Text Retrieval)

動画テキスト検索は、与えられた文章のセマンティクス(意味)に関連する最も適切な動画を見つけること(およびその逆)を目的とします。これには、膨大な数の動画とテキストのペアのコンテンツを分析し、そこに含まれるマルチモーダル情報を十分に発掘して、2つのモダリティが整合しているかどうかを判断することが求められます。マルチメディア情報の爆発的な増加に伴い、動画テキスト検索は、ユーザーが自分のニーズに合ったアイテムを素早く検索するのに役立つ強力なツールとなっています。
一般的に、動画テキスト検索タスクは、動画表現抽出、テキスト表現抽出、特徴量埋め込みとマッチング、目的関数の4つの部分に分けることができます。
動画表現抽出は、動画の特徴表現を捉えます。これらの抽出器は、時空間的性質に応じて、空間的または時間的のいずれかになります。特に、Transformerベースの手法(CLIP4Clip、CLIP2Video、Cooperative Hierarchical Transformer、X-CLIP、Frozen In Time、TimeSformerなど)は、空間表現と時間表現の両方を捉える上で優れた性能を示しています。
さらに、動画にはマルチモーダル情報(動き、音声、顔の特徴量など)が含まれているため、通常は各モダリティの特徴量を抽出するために追加の専門家(Expert)モデルが使用され、これらを統合してより包括的な動画表現を生成します。その例として、Collaborative ExpertsやMixture-of-Embeddings Expertsが挙げられます。

テキスト表現抽出は、テキストの特徴量を抽出することを指します。抽出器は主に、BERT、RoBERTa、ALBERT、DistilBERTなどの事前学習済み言語モデルに基づいて構築されています。
動画テキスト検索タスクは近年急速に発展しています。しかし、完全でロバストな動画特徴量をどのように抽出するか、動画とテキスト検索の間のクロスモーダルなギャップにどう対処するか、そしてこれらのモデルのトレーニング時間と検索効率をどのように短縮するかなど、いくつかの本質的な課題がまだ残されています。
2.3 - 動画質問応答(Video Question-Answering)
動画質問応答(Video QA)は、質問と動画に基づいて正しい答えを予測するものです。Video QAは、視覚と言語の理解(Vision-Language Understanding)の研究のおかげで、より一般的になってきました。その期待される用途は、ダイナミックな視覚世界について自然言語を使って対話できるAIを開発することです。しかし、質問に正しく答えるために動画を包括的に理解することは、QAモデルにとって大きな課題となっています。これには、視覚的なオブジェクト、アクション、アクティビティ、イベントを認識するだけでなく、それらの意味的、空間的、時間的、および因果関係を推論することも含まれます。

VideoQAタスクは、主に「選択肢式QA(multi-choice QA)」と「自由回答式QA(open-ended QA)」の2つのタイプに分類できます。
選択肢式QAでは、モデルに各質問に対するいくつかの選択肢が与えられ、その中から正しいものを選択します。
自由回答式QAでは、特定のデータセットに応じて、分類(最も普及している)、言語生成(一語一語生成)、または回帰(カウント用)などがあります。分類ベースの自由回答式QAでは、モデルが「動画と質問」のペアを、事前に定義されたグローバルな回答セットのいずれかに分類します。生成ベースの自由回答式QAでは、モデルが語彙セットから次の単語を予測して、特定の長さの回答を形成します。回帰ベースの自由回答式QAでは、モデルが正解(グラウンドトゥルース)に近い整数値の回答を算出します。

上に示したように、動画質問応答の一般的なフレームワークは、動画エンコーダー、質問エンコーダー、クロスモーダル相互作用、回答デコーダーの4つのコンポーネントで構成されています。
動画エンコーダーは、フレームの外観とクリップの動きを共同で捉えることにより、生の動画から特徴量を抽出します。これらの特徴量は、通常、事前学習済みの2Dまたは3Dニューラルネットワークを使用して取得されます。
質問エンコーダーは、GloVeやBERTの特徴量などのトークンレベルの表現を抽出します。
次に、連続モデル(Transformerなど)が視覚と言語の連続データを処理し、クロスモーダル相互作用を促進します。
最後に、回答デコーダーは、提供された複数の選択肢から正しい回答を選択する1ウェイ分類器(選択肢式QA向け)、事前に定義されたグローバルな回答セットから回答を選択するNウェイ分類器、または回答を一語一語生成する言語生成器(自由回答式QA向け)になります。
他の動画タスクと比較して、質問応答は、時間ドメインおよび空間ドメインにおける詳細(ファイングレイン)および大まか(コースグレイン)な表現、ならびに事実に基づく質問や推論問題など、さまざまな精度(粒度)のレベルで動画を包括的に理解することが求められます。

多様なVideo QA技術には、メモリネットワーク(Memory Networks)、Transformers、グラフニューラルネットワーク、モジュラーネットワーク、およびニューロ・シンボリック(Neuro-Symbolic)アーキテクチャが含まれます。特に、PSAC、MMFT-BERT、ClipBERT、Just Ask、MERLOT、VIOLETなどのTransformerベースのアーキテクチャは、より少ない計算リソースで、より優れた説明可能性を提供しながら、詳細な動画推論を行うための強力な能力を実証しています。
2.4 - 動画キャプション生成
動画キャプション生成は、動画シーケンスの意味関係や意図を捉えるために、その内容を説明するプロセスです。この技術から恩恵を受ける可能性のあるアプリケーションの数は、例えばコンテンツ検索システム、スマートビデオ監視、人間とコンピュータのインターフェースシステムなど、非常に膨大です。画像キャプション生成と比較して、動画キャプション生成は、オブジェクト間の関係を特定したり、アクションを検出したりする上で時間変数が極めて重要になるため、格段に難易度が高くなります。

上の図は、動画キャプション生成タスクにおける典型的なソリューションの全体像を示しています。これにはエンコーダー・デコーダー(encoder-decoder)フレームワーク(最も効率的で有益なシーケンス・ツー・シーケンスのモデリング技術)が使用されています。
ビジュアルエンコーダーは動画から特徴量を抽出し、デコーダーはそれをテキスト形式に変換して説明文を生成します。(時間的および空間的な特性のために)2Dまたは3DのConvNetやアテンションメカニズムなどのさまざまな技術を使用してこれらの特徴量を取得します。さらに、音声、オプティカルフロー、特徴量マップなどの他の特徴量を考慮することもできます。
言語デコーダーは、RNN、LSTM、GRU、Transformerなどのアーキテクチャを使用して翻訳タスクを実行します。
トレーニング中、モデルは提供されたキャプション(正解)に非常に近づくまで、キャプション生成の精度を徐々に高めていきます。より具体的には、アテンションメカニズムによってモデルがより多くの情報を学習し、より適切な文を予測できるようになります。

初期の手法は標準的なエンコーダー・デコーダーフレームワークに依存していましたが、Transformerアーキテクチャの台頭により、最近の動画キャプション生成技術に大きな革新がもたらされました。これらの技術は、Universal Transformers、Masked Transformers、Two-View Transformers、Bidirectional Transformers、Vision Transformersなど、異なる多様なTransformerのバリアントを使用しています。
これらのモデルによって作成される説明文は向上していますが、人間の手によるものとはまだ同等ではありません。このようにコンピュータによって生成されるキャプションを改善するためには、人間の知識を取り入れることが重要です。モデルが動画、音声、字幕などの複数の情報源から学習すると、何が起こっているのかをよりよく理解して説明できるようになり、全体としてより優れたキャプションを作成できるようになります。
3 - 未来:動画基盤モデルによるマルチモーダル化
基盤モデルは自然言語処理(NLP)やコンピュータビジョンにおいて非常に普及していますが、動画理解におけるその可能性はいまだ十分に発揮されていません。これは、大量の動画データを効率的に処理・分析することの難しさや、動画理解を向上させるために異なるモダリティを効果的に組み合わせることの難しさが一因となっています。しかし、エンターテインメント、教育、監視など、さまざまな業界における開発者の多様なユースケースやニーズを背景に、実世界の製品への動画理解の応用に対する関心は高まっています。
動画理解の向上が期待できる研究分野の一つとして、音声、テキスト、視覚などの異なるモダリティの強みを組み合わせるハイブリッドモデルの開発が挙げられます。これらの「マルチモーダル」基盤モデルは、未指導学習や自己指導学習といった技術を活用して、異なるモダリティから特徴量を抽出し、動画コンテンツをより包括的に理解することができます。
ごく最近発表された、さまざまなマルチモーダル動画基盤モデルを簡単に紹介しましょう。
3.1 - VideoCoCa

VideoCoCAは、微調整(ファインチューニング)を必要とせずに、既存の対照的キャプショナー(いわゆる CoCa)を活用する動画テキストモデリングへのアプローチです。このモデルは、対照的キャプション生成モデルを使用して候補となる文を生成し、それを Transformer ベースのモデルによってスコア付けすることでこれを達成します。Transformer ベースのモデルは、対象の動画への関連性に基づいて、候補となる文をスコア付けするようにトレーニングされます。
著者らは、VideoCoCaをさまざまなデータセットでテストし、ゼロショット動画分類、ゼロショット動画テキスト検索、動画キャプション生成、および(微調整後の)動画質問応答において、最先端の手法と比較して競争力のある性能を達成しました。また、アブレーションスタディ(系統的除去実験)を行い、対照的キャプション生成がVideoCoCaの重要なコンポーネントであることを示しました。
3.2 - Merlot-Reserve

MERLOT Reserveは、動画フレーム、テキスト、音声を共同で推論することにより、動画のマルチモーダルなニューラルスクリプト知識表現を学習するモデルです。このモデルは、時間に沿って、また(音声、字幕、動画フレームなどの)複数のモダリティにわたって動画を表現するように設計されています。このモデルは、テキストと音声の自己指導から学習するための新しい対照的マスクスパン学習(contrastive masked span learning)目的を通じて、2,000万本以上のYouTube動画でトレーニングされています。その結果、動画の異なる要素間の意味的および時間的関係を捉えることができ、幅広い動画理解タスクに使用できる動画コンテンツの豊富な表現を学習することが可能になります。
著者らは、複数のベンチマークでMERLOT Reserveを評価し、最先端の手法を上回り、クロスドメインデータセット(視覚的コモンセンス推論、シチュエーション推論、動作予測、動画QA)においても高い性能を達成することを示しました。また、アブレーションスタディを実施し、スクリプト知識(script knowledge)に関する事前学習がMERLOT Reserveにとって極めて重要であることを示しました。さらに、MERLOT Reserveが学習した表現を分析し、動画コンテンツの有意義な意味構造や文法構造を捉えることができることを示しました。
3.3 - Vid2Seq

Vid2Seqは、音声解説付きの動画で事前学習された、シングルステージの密な(Dense)動画キャプションモデルです。このモデルは、数分間の未トリミング動画のフレームと文字起こしされた音声を入力として受け取ります。そして、単一のトークンシーケンスを予測することにより、密なイベントキャプションを動画内の一時的な位置特定(時間的位置情報)と共に出力します。このモデルのアーキテクチャは、T5言語モデルを特別なタイムトークンで拡張したもので、同一の出力シーケンス内でイベントの境界とテキストによる説明をシームレスに予測できるようにします。
Vid2Seqは、大規模に容易に入手できる、HowTo100M内のラベルなし音声解説付き動画を使用して事前学習されています。特に、著者らは、幅広いドメインをカバーする1,800万本の音声解説付き動画を含むYT-Temporal-1Bデータセットを使用しています。これらのラベルなし音声解説付き動画から、著者らは文字起こしされた音声の文章境界を擬似イベント境界として再定義し、文字起こしされた音声文章を擬似イベントキャプションとして使用しました。
Vid2Seqは、ActivityNet-Captions、YouCook2、Video Timeline Tagsを含む、標準的な密なイベントキャプション生成のベンチマークで最先端の性能を達成しています。また、フューショット(Few-shot)の密な動画キャプション生成設定、動画段落キャプション生成タスク、および標準的な動画キャプション生成タスクに対しても優れた汎用性を示しています。
結論
動画理解技術はこれまでの10年間、最先端のニューラルネットワークアーキテクチャの開発に支えられ、著しい進歩を遂げてきました。かつて動画理解は、オブジェクト検出、セグメンテーション、トラッキングといった低レベルの知覚タスクに限定されていました。しかし現在のプログラミングアプローチでは、分類、検索、質問応答、キャプション生成といった、高レベルの理解タスクを処理できるようになり、そのパワーを活用する機会がさらに増えています。さらに、マルチモーダル動画基盤モデルも登場しつつあり、動画理解技術の未来は非常に有望です。
Twelve Labsでは、マルチモーダル動画理解のための基盤モデルを開発しています。私たちの目標は、最も高度な動画理解インフラにより、開発者が人間と同じように見て、聞いて、世界を理解できるプログラムを構築できるように支援することです。さらに詳しく知りたい方は、https://playground.twelvelabs.io/ で登録を行い、私たちの Multimodal Minds Discord コミュニティに参加して、マルチモーダルAIのあらゆることについてチャットしましょう!
動画理解の分野に関わる上で、今ほどエキサイティングな時期はありません。過去10年間、最先端のニューラルネットワークアーキテクチャの開発により、この分野は飛躍的な進歩を遂げ、その勢いは現在も衰える兆しを見せていません。最近では、顔認識ソフトウェアや動画作成ツールなどの進歩により、メディアからこれまでにないほど多くの洞察を得られるようになり、大きな盛り上がりを見せています。しかし、これらは実現可能なことのほんの表面をなぞったに過ぎません。動画内から魅力的なクリップを抽出することや、さらに既存の映像に基づいて新しいインタラクティブな体験を創出することなどに関しては、まだ実現されていない可能性が数多く残されています。
基盤モデルがどのようにマルチモーダル化していくかに関する最初の記事では、動画モダリティを扱う上での独自の課題について議論しました。この記事では、動画理解の研究がこれまでにどれだけ進歩したか、どのような可能性が未開発のまま残されているか、そして今後はどこへ向かうのかをレビューすることで、このテーマをさらに深く調査します。
1 - 過去:低レベルの動画知覚タスクの解決
動画の「知覚(Perception)」と「理解(Understanding)」のタスクの違いを強調しておくことは重要です。
動画知覚タスクとは、動画データから色、テクスチャ、動きなどの低レベルの基本特徴量を抽出することです。これらのタスクは多くの場合、コンピュータビジョン技術に基づいており、そのゴールは、さらに分析可能な動画の視覚的コンテンツの表現を提供することです。
一方で、動画理解タスクとは、動画内のオブジェクト、アクション、イベントの認識など、動画データの高レベルの処理を含みます。これらのタスクでは、フレーム間の文脈情報や時間的関係を捉えることができる、より高度なモデルが必要になることがよくあります。
一般的に、動画の知覚は動画理解の前提条件です。なぜなら、より高レベルの処理に必要な入力データを提供するからです。2013年以降、ディープラーニングとコンピュータビジョンが急速に普及し、動画知覚タスクにAIを利用する人が増えました。これは従来、オブジェクトの検出、追跡、セグメンテーションが可能な畳み込みニューラルネットワーク(ConvNet)を通じて達成されてきました。
1.1 - 動画オブジェクト検出
動画オブジェクト検出は、近年ますます注目を集めている魅力的な研究分野です。この技術は、静止画からオブジェクトを検出するという従来の一般的なアプローチとは異なり、動画ストリームの中からオブジェクトを検出します。動画ストリーム内のオブジェクト検出では、一連のフレームを分析し、それらのフレーム内に現れるオブジェクトを特定します。オブジェクトが移動したり、サイズが変化したり、動画内の他のオブジェクトによって部分的に遮られたりすることがあるため、これは複雑なプロセスになる可能性があります。
しかし、高度なコンピュータビジョン技術と機械学習アルゴリズムの助けにより、動画オブジェクト検出は、セキュリティや監視からロボティクス、自動運転車にいたるまで、幅広いアプリケーションにとって非常に効果的なツールとなっています。このタスクでは、RetinaNet、YOLO(You Only Look Once)、CenterNet、SSD(Single Shot Multibox Detector)、および領域提案(R-CNN、Fast-RCNN、Faster RCNN、Cascade R-CNN)などのニューラルネットワークアーキテクチャが広く使用されています。

従来の動画内オブジェクト検出手法は、各画像フレームを個別に分析するものでした。しかし、このアプローチは、特徴量の重複抽出につながる隣接フレーム間の類似性を考慮しないため、遅くて非効率的です。また、動きやブレ、遮蔽(オクルージョン)、時間の経過に伴う位置の変化などにより、一部のフレームの品質が低下し、そのようなフレームにおけるオブジェクト検出の精度が低くなる可能性があります。
これらの欠点を克服するために、研究者たちは現在、時間の経過に伴う動画データの整合性を活用するディープラーニングソリューションに焦点を当てています。下の図に示すように、時間情報の利用と動画スニペットから抽出された特徴量の統合に基づいて、動画オブジェクト検出器は、フローベース(Deep Feature Flow、Flow-Guided Feature Aggregation、Impression Network)、LSTMベース(Looking Fast and Slow、LSTM-SSD、LSTMNet)、アテンションベース(Relation Distillation Network、Memory Enhanced Global-Local Aggregation、Progressive Sparse Local Attention)、トラッキングベース(Detect or Track、Cascaded Tracked Detector、Cooperative Detection and Tracking)、および上記の複数の方法を組み合わせたその他の方法(Spatial-Temporal Sampling Network、Spatial-Temporal Memory Network)に分類できます。

1.2 - 動画オブジェクトトラッキング
動画オブジェクトトラッキングとは、動画シーケンスにおいて時間の経過に伴うオブジェクトの軌跡を推定することです。この技術は、セキュリティ、エンターテインメント、スポーツなど、多くの分野で重要です。動画内のオブジェクトの動きを正確に追跡することで、行動パターンの分析、異常の検出、将来の動きの予測などを行うことができます。例えばセキュリティ分野では、動画オブジェクトトラッキングによって不審な行動を検出したり、個人の動きを追跡したりすることで、潜在的な脅威を特定するのに役立ちます。エンターテインメント分野では、特殊効果の作成やインタラクティブな体験を実現するために使用できます。スポーツ分野では、個人またはチーム全体のパフォーマンスを分析するのに役立ち、戦略的な計画や選手の育成に貴重な洞察を提供します。

主なアプローチとして、検出ベース(detection-based)とマッチングベース(matching-based)の2つがあります。
検出ベースの手法(SORTやDeep SORTなど)は、まず各フレームでオブジェクトを検出し、その後、さまざまな基準に基づいてフレーム間でそれらを関連付けます。これらは遮蔽や外観の変化に対してロバストである一方、誤検出(ファルスポジティブ)が発生しやすく、高品質な検出器を必要とします。
マッチングベースの手法(Siamese networksや相関フィルタなど)は、フレーム間の類似度指標を学習し、それを利用して特徴量に基づいてオブジェクトをマッチングします。これらはより効率的で、部分的な遮蔽にも対応できますが、長期的なトラッキングに苦戦することがあり、ターゲットクラスごとに微調整が必要になる場合があります。
動画オブジェクトトラッキングは、遮蔽、照明の変化、モーションブラーなどの課題があるため、アプリケーションごとに手法やパラメータを慎重に選択する必要がある難しいタスクです。現在は検出ベースの手法が最も正確ですが、複雑なシナリオにおけるスケーラビリティやロバスト性の面で制限がある場合があります。マッチングベースの手法は、より効率的で汎用的なソリューションを提供する可能性がありますが、継続的な改善が必要です。
1.3 - 動画インスタンスセグメンテーション
動画インスタンスセグメンテーションは、動画内のインスタンスを同時に検出、セグメンテーション、および追跡する難易度の高いタスクです。これは、画像のインスタンスセグメンテーション問題を動画ドメインに拡張したものです。このタスクにより、動画編集、自動運転、拡張現実(AR)など、動画レベルのオブジェクトマスクを必要とするアプリケーションの可能性が広がります。
例えば、以下の動画インスタンスセグメンテーションのイラストは、動画内の画像フレーム、動画インスタンスのアノテーション、および動画インスタンスの予測を示しています。動画シーケンス内の関心のあるオブジェクトをセグメンテーションするために、動画インスタンスセグメンテーションがどのように使用されるかを示しています。

動画インスタンスセグメンテーションが画像インスタンスセグメンテーションよりも難しいのは、個々のフレームでのインスタンスセグメンテーションだけでなく、フレーム間でのインスタンスの追跡も要求されるためです。一方で、動画コンテンツは単一の画像よりも、異なるオブジェクトの運動パターンや時間的一貫性などの豊富な情報を含んでいるため、オブジェクトの認識やセグメンテーションのためのより多くのヒントを提供します。
動画インスタンスセグメンテーションを行う主な方法には、2ステージ(two-stage)と1ステージ(one-stage)の2つがあります。
2ステージの手法(Mask R-CNNやMaskTrack R-CNNなど)は、まずオブジェクトの候補領域を検出し、その後マスクヘッドを使用してインスタンスセグメンテーションマスクを生成します。これらは最先端の性能を達成する一方で、計算コストが高く、動作が遅くなる可能性があります。
1ステージの手法(YOLACTやHTCなど)は、検出とセグメンテーションを単一のステージで組み合わせ、アンカーフリーのデザインを使用することで速度と精度を向上させます。しかし、詳細なセグメンテーションに苦戦することがあり、2ステージの手法よりも誤検出率が高くなる可能性があります。
アプリケーションに最適なアプローチを選択するには、精度、速度、メモリ要件の間のトレードオフを考慮してください。2ステージの手法はより正確ですが低速であり、1ステージの手法は高速ですが精度が劣る場合があります。
最近、動画オブジェクトの追跡とセグメンテーションのために設計された、Track-Anythingという新しいツールが登場しました。これはSAM(Segment Anything Model)に基づいて開発されており、ユーザーのクリック操作のみで、追跡およびセグメンテーションを行う対象を任意に指定できます。

背景として、SAMは画像セグメンテーション用の基盤モデルです。プロンプトエンジニアリングを使用して、多様な下流のセグメンテーション問題に適応する、プロンプト可能なセグメンテーションタスクに焦点を当てています。11万枚のライセンス画像における10億個以上のマスク(これまでリリースされた中で最大のセマンティックセグメンテーションデータセット)でトレーニングされたSAMは、エッジ検出、オブジェクト候補領域の生成、インスタンスセグメンテーションなどの多くのゼロショットタスクを完了できます。
Track-Anythingは、SAMの力を動画モダリティにもたらします。追跡中、ユーザーは追跡したいオブジェクトを柔軟に変更したり、曖昧さがある場合には関心領域を修正したりできます。これらの特徴により、Track-Anythingは以下のような用途に適しています。
カット変わり(ショットチェンジ)がある動画のオブジェクト追跡およびセグメンテーション。
動画オブジェクトの追跡およびセグメンテーションのためのビジュアル型開発とデータアノテーション。
動画のインペインティングや編集など、オブジェクト中心の下流動画タスク。

この発展を考慮すると、動画のセグメンテーションと追跡のためのさらなる基盤モデルが近いうちに登場することが予想されます。
1.4 - 動画知覚の限界
動画知覚タスクは近年大きく進歩しているものの、その有効性にはまだいくつかの限界があります。
動画知覚タスクの大きな制限の1つは、新しいタスクが導入されたときに、新しいクラスやラベルを定義するのが難しいことです。これは、動画知覚モデルが多くの場合、固定されたクラスやラベルのセットでトレーニングされているため、新しいオブジェクトを認識するようにモデルを修正することが難しいためです。これは、ロボティクスや自動運転車のように、新しいオブジェクトが頻繁に登場する動的な環境において特に問題となる可能性があります。この制限に対処するため、研究者たちはインクリメンタルラーニング(逐次学習)やゼロショット学習などを通じて、動画知覚モデルをより柔軟で適応可能にする方法を模索しています。
動画知覚タスクのもう1つの制限は、ドメインシフト(領域変化)が発生したときのロバスト性です。動画知覚モデルは特定のデータセットでトレーニングされることが多いため、分布外(out-of-distribution)の動画データに適用するとパフォーマンスが低下する可能性があります。これは、トレーニングデータセットに存在しない照明、動き、あるいはその他の要因の変化が動画コンテンツに含まれている場合に、特に大きな問題となります。この制限に対処するため、研究者たちはドメイン適応や転移学習などを通じて、動画知覚モデルのロバスト性と汎用性を高める方法を検討しています。
2 - 現在:高レベルの動画理解タスクの処理
動画理解技術は誕生以来、長い道のりを経て、低レベルの動画検出やセグメンテーションタスクから、より高レベルの動画理解タスクへと進化してきました。上述のアプローチは、狭い範囲のタスクに限定されており、非効率性があったため、タグの付け忘れ、オブジェクトの誤ラベル、不正確さなどが頻繁に発生していました。現在のプログラミングアプローチは進化し、分類、検索、質問応答、キャプション生成といった、より幅広いタスクを処理できるようになり、そのパワーを活用する機会がさらに増えています。
2.1 - 動画分類
動画分類とは、動画コンテンツを分析してカテゴリに分類するプロセスです。これには、オブジェクト、人物、アクション、またはシーンを認識し、それらをスポーツ、ニュース、音楽、エンターテインメント、教育などの定義されたカテゴリに分類することが含まれます。これを行うには、動画の特徴量(色、動き、空間レイアウト、オーディオコンテンツ)を抽出して認識するシステムを設計・構築し、それらを使用して分類精度を向上させます。
動作認識(Action Recognition)と動作ローカライゼーション(Action Localization)は、動画分類の重要な研究サブドメインです。
動作認識(Action Recognition)

動画動作認識とは、与えられた動画シーケンスにおいて被写体が行っている動作を特定するタスクです。これには、動画フレームを分析して、どのような動作が行われているか、またそれがいつ始まり、いつ終わるかを特定することが含まれます。動画動作認識は、ビデオ監視、スポーツ分析など、さまざまな分野に応用されています。監視分野では、異常な行動や不審な活動を検出できます。スポーツ分野では、動画からキーフレームを抽出してアスリートの動きを追跡し、フォームを修正することができます。
効果的な動画動作認識アルゴリズムの開発は、いくつかの大きな課題に直面しています。
第一に、人間の動作を捉えた動画は、クラス内およびクラス間のばらつきが非常に大きいです。同じ動作であっても、人によって異なる速度や、さまざまな視点から行われます。
第二に、人間の動作を認識するには、短期的な動作特有の動き情報と、長期的な時間情報の両方を同時に理解する必要があります。単一の畳み込みニューラルネットワークを使用する代わりに、多様な視点に対応できる高度なモデルが必要になる場合があります。
最後に、トレーニングと推論の両方において計算コストが高いため、動作認識モデルの開発やデプロイへのハードルとなっています。

大規模なデータセットの利用可能性とディープラーニングの急速な進歩により、動画の動作を認識するためのディープラーニングベースのモデルは急速な成長を遂げています。例えば、動画の時間情報をモデル化するデフォルトの選択肢はConvNetであり、DeepVideo、Two-Stream Networks、Non-Local、SlowFastなどのモデルがありました。しかし最近では、さらに大規模なデータセットに拡張できる計算効率の良さから、研究者たちはTransformerアーキテクチャに注目しており、Video Swin TransformerやTimeSformerなどのモデルが登場しています。
動作ローカライゼーション(Action Localization)

動作ローカライゼーション(時空間動作認識とも呼ばれる)は、動画の一連のフレームにおいてどのような動作が行われているかを分類し、その個々の動作を空間的および時間的の両方で位置特定するタスクです。位置特定はバウンディングボックスやマスクを使用して視覚化できます。近年、計算リソースの利用可能性の向上や、ConvNetアーキテクチャの新たな進歩により、このタスクへの関心が高まっています。
動作ローカライゼーションは、動画全体を通じて動作を追跡することや、動作が発生している時間枠を特定することなど、動作認識で見られる通常の課題に直面します。しかし、それ以外にも以下のような多くの追加の課題があります。
動画内の背景の雑音(バックグラウンドクラッター)や、オブジェクトの遮蔽(オクルージョン)
候補オブジェクトの数に応じたシーンの空間的な複雑さ
不規則なカメラワークが存在する中でのフレーム間の動作のリンク
動作のオプティカルフローの予測

動画における動作ローカライゼーションに対処するために、いくつかの手法や技術が使用されています。そのほとんどは、RGBピクセル値、オプティカルフロー、骨格グラフなど、類似した特徴を巧みに利用しています。これらには、action proposal networks(アクション提案ネットワーク)、figure-centric models(フィギュア中心モデル)、deformable parts models(変形可能パーツモデル)、graph-based models(グラフベースのモデル)、およびspatiotemporal convolutions(時空間畳み込み)などがあります。
2.2 - 動画テキスト検索(Video-Text Retrieval)

動画テキスト検索は、与えられた文章のセマンティクス(意味)に関連する最も適切な動画を見つけること(およびその逆)を目的とします。これには、膨大な数の動画とテキストのペアのコンテンツを分析し、そこに含まれるマルチモーダル情報を十分に発掘して、2つのモダリティが整合しているかどうかを判断することが求められます。マルチメディア情報の爆発的な増加に伴い、動画テキスト検索は、ユーザーが自分のニーズに合ったアイテムを素早く検索するのに役立つ強力なツールとなっています。
一般的に、動画テキスト検索タスクは、動画表現抽出、テキスト表現抽出、特徴量埋め込みとマッチング、目的関数の4つの部分に分けることができます。
動画表現抽出は、動画の特徴表現を捉えます。これらの抽出器は、時空間的性質に応じて、空間的または時間的のいずれかになります。特に、Transformerベースの手法(CLIP4Clip、CLIP2Video、Cooperative Hierarchical Transformer、X-CLIP、Frozen In Time、TimeSformerなど)は、空間表現と時間表現の両方を捉える上で優れた性能を示しています。
さらに、動画にはマルチモーダル情報(動き、音声、顔の特徴量など)が含まれているため、通常は各モダリティの特徴量を抽出するために追加の専門家(Expert)モデルが使用され、これらを統合してより包括的な動画表現を生成します。その例として、Collaborative ExpertsやMixture-of-Embeddings Expertsが挙げられます。

テキスト表現抽出は、テキストの特徴量を抽出することを指します。抽出器は主に、BERT、RoBERTa、ALBERT、DistilBERTなどの事前学習済み言語モデルに基づいて構築されています。
動画テキスト検索タスクは近年急速に発展しています。しかし、完全でロバストな動画特徴量をどのように抽出するか、動画とテキスト検索の間のクロスモーダルなギャップにどう対処するか、そしてこれらのモデルのトレーニング時間と検索効率をどのように短縮するかなど、いくつかの本質的な課題がまだ残されています。
2.3 - 動画質問応答(Video Question-Answering)
動画質問応答(Video QA)は、質問と動画に基づいて正しい答えを予測するものです。Video QAは、視覚と言語の理解(Vision-Language Understanding)の研究のおかげで、より一般的になってきました。その期待される用途は、ダイナミックな視覚世界について自然言語を使って対話できるAIを開発することです。しかし、質問に正しく答えるために動画を包括的に理解することは、QAモデルにとって大きな課題となっています。これには、視覚的なオブジェクト、アクション、アクティビティ、イベントを認識するだけでなく、それらの意味的、空間的、時間的、および因果関係を推論することも含まれます。

VideoQAタスクは、主に「選択肢式QA(multi-choice QA)」と「自由回答式QA(open-ended QA)」の2つのタイプに分類できます。
選択肢式QAでは、モデルに各質問に対するいくつかの選択肢が与えられ、その中から正しいものを選択します。
自由回答式QAでは、特定のデータセットに応じて、分類(最も普及している)、言語生成(一語一語生成)、または回帰(カウント用)などがあります。分類ベースの自由回答式QAでは、モデルが「動画と質問」のペアを、事前に定義されたグローバルな回答セットのいずれかに分類します。生成ベースの自由回答式QAでは、モデルが語彙セットから次の単語を予測して、特定の長さの回答を形成します。回帰ベースの自由回答式QAでは、モデルが正解(グラウンドトゥルース)に近い整数値の回答を算出します。

上に示したように、動画質問応答の一般的なフレームワークは、動画エンコーダー、質問エンコーダー、クロスモーダル相互作用、回答デコーダーの4つのコンポーネントで構成されています。
動画エンコーダーは、フレームの外観とクリップの動きを共同で捉えることにより、生の動画から特徴量を抽出します。これらの特徴量は、通常、事前学習済みの2Dまたは3Dニューラルネットワークを使用して取得されます。
質問エンコーダーは、GloVeやBERTの特徴量などのトークンレベルの表現を抽出します。
次に、連続モデル(Transformerなど)が視覚と言語の連続データを処理し、クロスモーダル相互作用を促進します。
最後に、回答デコーダーは、提供された複数の選択肢から正しい回答を選択する1ウェイ分類器(選択肢式QA向け)、事前に定義されたグローバルな回答セットから回答を選択するNウェイ分類器、または回答を一語一語生成する言語生成器(自由回答式QA向け)になります。
他の動画タスクと比較して、質問応答は、時間ドメインおよび空間ドメインにおける詳細(ファイングレイン)および大まか(コースグレイン)な表現、ならびに事実に基づく質問や推論問題など、さまざまな精度(粒度)のレベルで動画を包括的に理解することが求められます。

多様なVideo QA技術には、メモリネットワーク(Memory Networks)、Transformers、グラフニューラルネットワーク、モジュラーネットワーク、およびニューロ・シンボリック(Neuro-Symbolic)アーキテクチャが含まれます。特に、PSAC、MMFT-BERT、ClipBERT、Just Ask、MERLOT、VIOLETなどのTransformerベースのアーキテクチャは、より少ない計算リソースで、より優れた説明可能性を提供しながら、詳細な動画推論を行うための強力な能力を実証しています。
2.4 - 動画キャプション生成
動画キャプション生成は、動画シーケンスの意味関係や意図を捉えるために、その内容を説明するプロセスです。この技術から恩恵を受ける可能性のあるアプリケーションの数は、例えばコンテンツ検索システム、スマートビデオ監視、人間とコンピュータのインターフェースシステムなど、非常に膨大です。画像キャプション生成と比較して、動画キャプション生成は、オブジェクト間の関係を特定したり、アクションを検出したりする上で時間変数が極めて重要になるため、格段に難易度が高くなります。

上の図は、動画キャプション生成タスクにおける典型的なソリューションの全体像を示しています。これにはエンコーダー・デコーダー(encoder-decoder)フレームワーク(最も効率的で有益なシーケンス・ツー・シーケンスのモデリング技術)が使用されています。
ビジュアルエンコーダーは動画から特徴量を抽出し、デコーダーはそれをテキスト形式に変換して説明文を生成します。(時間的および空間的な特性のために)2Dまたは3DのConvNetやアテンションメカニズムなどのさまざまな技術を使用してこれらの特徴量を取得します。さらに、音声、オプティカルフロー、特徴量マップなどの他の特徴量を考慮することもできます。
言語デコーダーは、RNN、LSTM、GRU、Transformerなどのアーキテクチャを使用して翻訳タスクを実行します。
トレーニング中、モデルは提供されたキャプション(正解)に非常に近づくまで、キャプション生成の精度を徐々に高めていきます。より具体的には、アテンションメカニズムによってモデルがより多くの情報を学習し、より適切な文を予測できるようになります。

初期の手法は標準的なエンコーダー・デコーダーフレームワークに依存していましたが、Transformerアーキテクチャの台頭により、最近の動画キャプション生成技術に大きな革新がもたらされました。これらの技術は、Universal Transformers、Masked Transformers、Two-View Transformers、Bidirectional Transformers、Vision Transformersなど、異なる多様なTransformerのバリアントを使用しています。
これらのモデルによって作成される説明文は向上していますが、人間の手によるものとはまだ同等ではありません。このようにコンピュータによって生成されるキャプションを改善するためには、人間の知識を取り入れることが重要です。モデルが動画、音声、字幕などの複数の情報源から学習すると、何が起こっているのかをよりよく理解して説明できるようになり、全体としてより優れたキャプションを作成できるようになります。
3 - 未来:動画基盤モデルによるマルチモーダル化
基盤モデルは自然言語処理(NLP)やコンピュータビジョンにおいて非常に普及していますが、動画理解におけるその可能性はいまだ十分に発揮されていません。これは、大量の動画データを効率的に処理・分析することの難しさや、動画理解を向上させるために異なるモダリティを効果的に組み合わせることの難しさが一因となっています。しかし、エンターテインメント、教育、監視など、さまざまな業界における開発者の多様なユースケースやニーズを背景に、実世界の製品への動画理解の応用に対する関心は高まっています。
動画理解の向上が期待できる研究分野の一つとして、音声、テキスト、視覚などの異なるモダリティの強みを組み合わせるハイブリッドモデルの開発が挙げられます。これらの「マルチモーダル」基盤モデルは、未指導学習や自己指導学習といった技術を活用して、異なるモダリティから特徴量を抽出し、動画コンテンツをより包括的に理解することができます。
ごく最近発表された、さまざまなマルチモーダル動画基盤モデルを簡単に紹介しましょう。
3.1 - VideoCoCa

VideoCoCAは、微調整(ファインチューニング)を必要とせずに、既存の対照的キャプショナー(いわゆる CoCa)を活用する動画テキストモデリングへのアプローチです。このモデルは、対照的キャプション生成モデルを使用して候補となる文を生成し、それを Transformer ベースのモデルによってスコア付けすることでこれを達成します。Transformer ベースのモデルは、対象の動画への関連性に基づいて、候補となる文をスコア付けするようにトレーニングされます。
著者らは、VideoCoCaをさまざまなデータセットでテストし、ゼロショット動画分類、ゼロショット動画テキスト検索、動画キャプション生成、および(微調整後の)動画質問応答において、最先端の手法と比較して競争力のある性能を達成しました。また、アブレーションスタディ(系統的除去実験)を行い、対照的キャプション生成がVideoCoCaの重要なコンポーネントであることを示しました。
3.2 - Merlot-Reserve

MERLOT Reserveは、動画フレーム、テキスト、音声を共同で推論することにより、動画のマルチモーダルなニューラルスクリプト知識表現を学習するモデルです。このモデルは、時間に沿って、また(音声、字幕、動画フレームなどの)複数のモダリティにわたって動画を表現するように設計されています。このモデルは、テキストと音声の自己指導から学習するための新しい対照的マスクスパン学習(contrastive masked span learning)目的を通じて、2,000万本以上のYouTube動画でトレーニングされています。その結果、動画の異なる要素間の意味的および時間的関係を捉えることができ、幅広い動画理解タスクに使用できる動画コンテンツの豊富な表現を学習することが可能になります。
著者らは、複数のベンチマークでMERLOT Reserveを評価し、最先端の手法を上回り、クロスドメインデータセット(視覚的コモンセンス推論、シチュエーション推論、動作予測、動画QA)においても高い性能を達成することを示しました。また、アブレーションスタディを実施し、スクリプト知識(script knowledge)に関する事前学習がMERLOT Reserveにとって極めて重要であることを示しました。さらに、MERLOT Reserveが学習した表現を分析し、動画コンテンツの有意義な意味構造や文法構造を捉えることができることを示しました。
3.3 - Vid2Seq

Vid2Seqは、音声解説付きの動画で事前学習された、シングルステージの密な(Dense)動画キャプションモデルです。このモデルは、数分間の未トリミング動画のフレームと文字起こしされた音声を入力として受け取ります。そして、単一のトークンシーケンスを予測することにより、密なイベントキャプションを動画内の一時的な位置特定(時間的位置情報)と共に出力します。このモデルのアーキテクチャは、T5言語モデルを特別なタイムトークンで拡張したもので、同一の出力シーケンス内でイベントの境界とテキストによる説明をシームレスに予測できるようにします。
Vid2Seqは、大規模に容易に入手できる、HowTo100M内のラベルなし音声解説付き動画を使用して事前学習されています。特に、著者らは、幅広いドメインをカバーする1,800万本の音声解説付き動画を含むYT-Temporal-1Bデータセットを使用しています。これらのラベルなし音声解説付き動画から、著者らは文字起こしされた音声の文章境界を擬似イベント境界として再定義し、文字起こしされた音声文章を擬似イベントキャプションとして使用しました。
Vid2Seqは、ActivityNet-Captions、YouCook2、Video Timeline Tagsを含む、標準的な密なイベントキャプション生成のベンチマークで最先端の性能を達成しています。また、フューショット(Few-shot)の密な動画キャプション生成設定、動画段落キャプション生成タスク、および標準的な動画キャプション生成タスクに対しても優れた汎用性を示しています。
結論
動画理解技術はこれまでの10年間、最先端のニューラルネットワークアーキテクチャの開発に支えられ、著しい進歩を遂げてきました。かつて動画理解は、オブジェクト検出、セグメンテーション、トラッキングといった低レベルの知覚タスクに限定されていました。しかし現在のプログラミングアプローチでは、分類、検索、質問応答、キャプション生成といった、高レベルの理解タスクを処理できるようになり、そのパワーを活用する機会がさらに増えています。さらに、マルチモーダル動画基盤モデルも登場しつつあり、動画理解技術の未来は非常に有望です。
Twelve Labsでは、マルチモーダル動画理解のための基盤モデルを開発しています。私たちの目標は、最も高度な動画理解インフラにより、開発者が人間と同じように見て、聞いて、世界を理解できるプログラムを構築できるように支援することです。さらに詳しく知りたい方は、https://playground.twelvelabs.io/ で登録を行い、私たちの Multimodal Minds Discord コミュニティに参加して、マルチモーダルAIのあらゆることについてチャットしましょう!
動画理解の分野に関わる上で、今ほどエキサイティングな時期はありません。過去10年間、最先端のニューラルネットワークアーキテクチャの開発により、この分野は飛躍的な進歩を遂げ、その勢いは現在も衰える兆しを見せていません。最近では、顔認識ソフトウェアや動画作成ツールなどの進歩により、メディアからこれまでにないほど多くの洞察を得られるようになり、大きな盛り上がりを見せています。しかし、これらは実現可能なことのほんの表面をなぞったに過ぎません。動画内から魅力的なクリップを抽出することや、さらに既存の映像に基づいて新しいインタラクティブな体験を創出することなどに関しては、まだ実現されていない可能性が数多く残されています。
基盤モデルがどのようにマルチモーダル化していくかに関する最初の記事では、動画モダリティを扱う上での独自の課題について議論しました。この記事では、動画理解の研究がこれまでにどれだけ進歩したか、どのような可能性が未開発のまま残されているか、そして今後はどこへ向かうのかをレビューすることで、このテーマをさらに深く調査します。
1 - 過去:低レベルの動画知覚タスクの解決
動画の「知覚(Perception)」と「理解(Understanding)」のタスクの違いを強調しておくことは重要です。
動画知覚タスクとは、動画データから色、テクスチャ、動きなどの低レベルの基本特徴量を抽出することです。これらのタスクは多くの場合、コンピュータビジョン技術に基づいており、そのゴールは、さらに分析可能な動画の視覚的コンテンツの表現を提供することです。
一方で、動画理解タスクとは、動画内のオブジェクト、アクション、イベントの認識など、動画データの高レベルの処理を含みます。これらのタスクでは、フレーム間の文脈情報や時間的関係を捉えることができる、より高度なモデルが必要になることがよくあります。
一般的に、動画の知覚は動画理解の前提条件です。なぜなら、より高レベルの処理に必要な入力データを提供するからです。2013年以降、ディープラーニングとコンピュータビジョンが急速に普及し、動画知覚タスクにAIを利用する人が増えました。これは従来、オブジェクトの検出、追跡、セグメンテーションが可能な畳み込みニューラルネットワーク(ConvNet)を通じて達成されてきました。
1.1 - 動画オブジェクト検出
動画オブジェクト検出は、近年ますます注目を集めている魅力的な研究分野です。この技術は、静止画からオブジェクトを検出するという従来の一般的なアプローチとは異なり、動画ストリームの中からオブジェクトを検出します。動画ストリーム内のオブジェクト検出では、一連のフレームを分析し、それらのフレーム内に現れるオブジェクトを特定します。オブジェクトが移動したり、サイズが変化したり、動画内の他のオブジェクトによって部分的に遮られたりすることがあるため、これは複雑なプロセスになる可能性があります。
しかし、高度なコンピュータビジョン技術と機械学習アルゴリズムの助けにより、動画オブジェクト検出は、セキュリティや監視からロボティクス、自動運転車にいたるまで、幅広いアプリケーションにとって非常に効果的なツールとなっています。このタスクでは、RetinaNet、YOLO(You Only Look Once)、CenterNet、SSD(Single Shot Multibox Detector)、および領域提案(R-CNN、Fast-RCNN、Faster RCNN、Cascade R-CNN)などのニューラルネットワークアーキテクチャが広く使用されています。

従来の動画内オブジェクト検出手法は、各画像フレームを個別に分析するものでした。しかし、このアプローチは、特徴量の重複抽出につながる隣接フレーム間の類似性を考慮しないため、遅くて非効率的です。また、動きやブレ、遮蔽(オクルージョン)、時間の経過に伴う位置の変化などにより、一部のフレームの品質が低下し、そのようなフレームにおけるオブジェクト検出の精度が低くなる可能性があります。
これらの欠点を克服するために、研究者たちは現在、時間の経過に伴う動画データの整合性を活用するディープラーニングソリューションに焦点を当てています。下の図に示すように、時間情報の利用と動画スニペットから抽出された特徴量の統合に基づいて、動画オブジェクト検出器は、フローベース(Deep Feature Flow、Flow-Guided Feature Aggregation、Impression Network)、LSTMベース(Looking Fast and Slow、LSTM-SSD、LSTMNet)、アテンションベース(Relation Distillation Network、Memory Enhanced Global-Local Aggregation、Progressive Sparse Local Attention)、トラッキングベース(Detect or Track、Cascaded Tracked Detector、Cooperative Detection and Tracking)、および上記の複数の方法を組み合わせたその他の方法(Spatial-Temporal Sampling Network、Spatial-Temporal Memory Network)に分類できます。

1.2 - 動画オブジェクトトラッキング
動画オブジェクトトラッキングとは、動画シーケンスにおいて時間の経過に伴うオブジェクトの軌跡を推定することです。この技術は、セキュリティ、エンターテインメント、スポーツなど、多くの分野で重要です。動画内のオブジェクトの動きを正確に追跡することで、行動パターンの分析、異常の検出、将来の動きの予測などを行うことができます。例えばセキュリティ分野では、動画オブジェクトトラッキングによって不審な行動を検出したり、個人の動きを追跡したりすることで、潜在的な脅威を特定するのに役立ちます。エンターテインメント分野では、特殊効果の作成やインタラクティブな体験を実現するために使用できます。スポーツ分野では、個人またはチーム全体のパフォーマンスを分析するのに役立ち、戦略的な計画や選手の育成に貴重な洞察を提供します。

主なアプローチとして、検出ベース(detection-based)とマッチングベース(matching-based)の2つがあります。
検出ベースの手法(SORTやDeep SORTなど)は、まず各フレームでオブジェクトを検出し、その後、さまざまな基準に基づいてフレーム間でそれらを関連付けます。これらは遮蔽や外観の変化に対してロバストである一方、誤検出(ファルスポジティブ)が発生しやすく、高品質な検出器を必要とします。
マッチングベースの手法(Siamese networksや相関フィルタなど)は、フレーム間の類似度指標を学習し、それを利用して特徴量に基づいてオブジェクトをマッチングします。これらはより効率的で、部分的な遮蔽にも対応できますが、長期的なトラッキングに苦戦することがあり、ターゲットクラスごとに微調整が必要になる場合があります。
動画オブジェクトトラッキングは、遮蔽、照明の変化、モーションブラーなどの課題があるため、アプリケーションごとに手法やパラメータを慎重に選択する必要がある難しいタスクです。現在は検出ベースの手法が最も正確ですが、複雑なシナリオにおけるスケーラビリティやロバスト性の面で制限がある場合があります。マッチングベースの手法は、より効率的で汎用的なソリューションを提供する可能性がありますが、継続的な改善が必要です。
1.3 - 動画インスタンスセグメンテーション
動画インスタンスセグメンテーションは、動画内のインスタンスを同時に検出、セグメンテーション、および追跡する難易度の高いタスクです。これは、画像のインスタンスセグメンテーション問題を動画ドメインに拡張したものです。このタスクにより、動画編集、自動運転、拡張現実(AR)など、動画レベルのオブジェクトマスクを必要とするアプリケーションの可能性が広がります。
例えば、以下の動画インスタンスセグメンテーションのイラストは、動画内の画像フレーム、動画インスタンスのアノテーション、および動画インスタンスの予測を示しています。動画シーケンス内の関心のあるオブジェクトをセグメンテーションするために、動画インスタンスセグメンテーションがどのように使用されるかを示しています。

動画インスタンスセグメンテーションが画像インスタンスセグメンテーションよりも難しいのは、個々のフレームでのインスタンスセグメンテーションだけでなく、フレーム間でのインスタンスの追跡も要求されるためです。一方で、動画コンテンツは単一の画像よりも、異なるオブジェクトの運動パターンや時間的一貫性などの豊富な情報を含んでいるため、オブジェクトの認識やセグメンテーションのためのより多くのヒントを提供します。
動画インスタンスセグメンテーションを行う主な方法には、2ステージ(two-stage)と1ステージ(one-stage)の2つがあります。
2ステージの手法(Mask R-CNNやMaskTrack R-CNNなど)は、まずオブジェクトの候補領域を検出し、その後マスクヘッドを使用してインスタンスセグメンテーションマスクを生成します。これらは最先端の性能を達成する一方で、計算コストが高く、動作が遅くなる可能性があります。
1ステージの手法(YOLACTやHTCなど)は、検出とセグメンテーションを単一のステージで組み合わせ、アンカーフリーのデザインを使用することで速度と精度を向上させます。しかし、詳細なセグメンテーションに苦戦することがあり、2ステージの手法よりも誤検出率が高くなる可能性があります。
アプリケーションに最適なアプローチを選択するには、精度、速度、メモリ要件の間のトレードオフを考慮してください。2ステージの手法はより正確ですが低速であり、1ステージの手法は高速ですが精度が劣る場合があります。
最近、動画オブジェクトの追跡とセグメンテーションのために設計された、Track-Anythingという新しいツールが登場しました。これはSAM(Segment Anything Model)に基づいて開発されており、ユーザーのクリック操作のみで、追跡およびセグメンテーションを行う対象を任意に指定できます。

背景として、SAMは画像セグメンテーション用の基盤モデルです。プロンプトエンジニアリングを使用して、多様な下流のセグメンテーション問題に適応する、プロンプト可能なセグメンテーションタスクに焦点を当てています。11万枚のライセンス画像における10億個以上のマスク(これまでリリースされた中で最大のセマンティックセグメンテーションデータセット)でトレーニングされたSAMは、エッジ検出、オブジェクト候補領域の生成、インスタンスセグメンテーションなどの多くのゼロショットタスクを完了できます。
Track-Anythingは、SAMの力を動画モダリティにもたらします。追跡中、ユーザーは追跡したいオブジェクトを柔軟に変更したり、曖昧さがある場合には関心領域を修正したりできます。これらの特徴により、Track-Anythingは以下のような用途に適しています。
カット変わり(ショットチェンジ)がある動画のオブジェクト追跡およびセグメンテーション。
動画オブジェクトの追跡およびセグメンテーションのためのビジュアル型開発とデータアノテーション。
動画のインペインティングや編集など、オブジェクト中心の下流動画タスク。

この発展を考慮すると、動画のセグメンテーションと追跡のためのさらなる基盤モデルが近いうちに登場することが予想されます。
1.4 - 動画知覚の限界
動画知覚タスクは近年大きく進歩しているものの、その有効性にはまだいくつかの限界があります。
動画知覚タスクの大きな制限の1つは、新しいタスクが導入されたときに、新しいクラスやラベルを定義するのが難しいことです。これは、動画知覚モデルが多くの場合、固定されたクラスやラベルのセットでトレーニングされているため、新しいオブジェクトを認識するようにモデルを修正することが難しいためです。これは、ロボティクスや自動運転車のように、新しいオブジェクトが頻繁に登場する動的な環境において特に問題となる可能性があります。この制限に対処するため、研究者たちはインクリメンタルラーニング(逐次学習)やゼロショット学習などを通じて、動画知覚モデルをより柔軟で適応可能にする方法を模索しています。
動画知覚タスクのもう1つの制限は、ドメインシフト(領域変化)が発生したときのロバスト性です。動画知覚モデルは特定のデータセットでトレーニングされることが多いため、分布外(out-of-distribution)の動画データに適用するとパフォーマンスが低下する可能性があります。これは、トレーニングデータセットに存在しない照明、動き、あるいはその他の要因の変化が動画コンテンツに含まれている場合に、特に大きな問題となります。この制限に対処するため、研究者たちはドメイン適応や転移学習などを通じて、動画知覚モデルのロバスト性と汎用性を高める方法を検討しています。
2 - 現在:高レベルの動画理解タスクの処理
動画理解技術は誕生以来、長い道のりを経て、低レベルの動画検出やセグメンテーションタスクから、より高レベルの動画理解タスクへと進化してきました。上述のアプローチは、狭い範囲のタスクに限定されており、非効率性があったため、タグの付け忘れ、オブジェクトの誤ラベル、不正確さなどが頻繁に発生していました。現在のプログラミングアプローチは進化し、分類、検索、質問応答、キャプション生成といった、より幅広いタスクを処理できるようになり、そのパワーを活用する機会がさらに増えています。
2.1 - 動画分類
動画分類とは、動画コンテンツを分析してカテゴリに分類するプロセスです。これには、オブジェクト、人物、アクション、またはシーンを認識し、それらをスポーツ、ニュース、音楽、エンターテインメント、教育などの定義されたカテゴリに分類することが含まれます。これを行うには、動画の特徴量(色、動き、空間レイアウト、オーディオコンテンツ)を抽出して認識するシステムを設計・構築し、それらを使用して分類精度を向上させます。
動作認識(Action Recognition)と動作ローカライゼーション(Action Localization)は、動画分類の重要な研究サブドメインです。
動作認識(Action Recognition)

動画動作認識とは、与えられた動画シーケンスにおいて被写体が行っている動作を特定するタスクです。これには、動画フレームを分析して、どのような動作が行われているか、またそれがいつ始まり、いつ終わるかを特定することが含まれます。動画動作認識は、ビデオ監視、スポーツ分析など、さまざまな分野に応用されています。監視分野では、異常な行動や不審な活動を検出できます。スポーツ分野では、動画からキーフレームを抽出してアスリートの動きを追跡し、フォームを修正することができます。
効果的な動画動作認識アルゴリズムの開発は、いくつかの大きな課題に直面しています。
第一に、人間の動作を捉えた動画は、クラス内およびクラス間のばらつきが非常に大きいです。同じ動作であっても、人によって異なる速度や、さまざまな視点から行われます。
第二に、人間の動作を認識するには、短期的な動作特有の動き情報と、長期的な時間情報の両方を同時に理解する必要があります。単一の畳み込みニューラルネットワークを使用する代わりに、多様な視点に対応できる高度なモデルが必要になる場合があります。
最後に、トレーニングと推論の両方において計算コストが高いため、動作認識モデルの開発やデプロイへのハードルとなっています。

大規模なデータセットの利用可能性とディープラーニングの急速な進歩により、動画の動作を認識するためのディープラーニングベースのモデルは急速な成長を遂げています。例えば、動画の時間情報をモデル化するデフォルトの選択肢はConvNetであり、DeepVideo、Two-Stream Networks、Non-Local、SlowFastなどのモデルがありました。しかし最近では、さらに大規模なデータセットに拡張できる計算効率の良さから、研究者たちはTransformerアーキテクチャに注目しており、Video Swin TransformerやTimeSformerなどのモデルが登場しています。
動作ローカライゼーション(Action Localization)

動作ローカライゼーション(時空間動作認識とも呼ばれる)は、動画の一連のフレームにおいてどのような動作が行われているかを分類し、その個々の動作を空間的および時間的の両方で位置特定するタスクです。位置特定はバウンディングボックスやマスクを使用して視覚化できます。近年、計算リソースの利用可能性の向上や、ConvNetアーキテクチャの新たな進歩により、このタスクへの関心が高まっています。
動作ローカライゼーションは、動画全体を通じて動作を追跡することや、動作が発生している時間枠を特定することなど、動作認識で見られる通常の課題に直面します。しかし、それ以外にも以下のような多くの追加の課題があります。
動画内の背景の雑音(バックグラウンドクラッター)や、オブジェクトの遮蔽(オクルージョン)
候補オブジェクトの数に応じたシーンの空間的な複雑さ
不規則なカメラワークが存在する中でのフレーム間の動作のリンク
動作のオプティカルフローの予測

動画における動作ローカライゼーションに対処するために、いくつかの手法や技術が使用されています。そのほとんどは、RGBピクセル値、オプティカルフロー、骨格グラフなど、類似した特徴を巧みに利用しています。これらには、action proposal networks(アクション提案ネットワーク)、figure-centric models(フィギュア中心モデル)、deformable parts models(変形可能パーツモデル)、graph-based models(グラフベースのモデル)、およびspatiotemporal convolutions(時空間畳み込み)などがあります。
2.2 - 動画テキスト検索(Video-Text Retrieval)

動画テキスト検索は、与えられた文章のセマンティクス(意味)に関連する最も適切な動画を見つけること(およびその逆)を目的とします。これには、膨大な数の動画とテキストのペアのコンテンツを分析し、そこに含まれるマルチモーダル情報を十分に発掘して、2つのモダリティが整合しているかどうかを判断することが求められます。マルチメディア情報の爆発的な増加に伴い、動画テキスト検索は、ユーザーが自分のニーズに合ったアイテムを素早く検索するのに役立つ強力なツールとなっています。
一般的に、動画テキスト検索タスクは、動画表現抽出、テキスト表現抽出、特徴量埋め込みとマッチング、目的関数の4つの部分に分けることができます。
動画表現抽出は、動画の特徴表現を捉えます。これらの抽出器は、時空間的性質に応じて、空間的または時間的のいずれかになります。特に、Transformerベースの手法(CLIP4Clip、CLIP2Video、Cooperative Hierarchical Transformer、X-CLIP、Frozen In Time、TimeSformerなど)は、空間表現と時間表現の両方を捉える上で優れた性能を示しています。
さらに、動画にはマルチモーダル情報(動き、音声、顔の特徴量など)が含まれているため、通常は各モダリティの特徴量を抽出するために追加の専門家(Expert)モデルが使用され、これらを統合してより包括的な動画表現を生成します。その例として、Collaborative ExpertsやMixture-of-Embeddings Expertsが挙げられます。

テキスト表現抽出は、テキストの特徴量を抽出することを指します。抽出器は主に、BERT、RoBERTa、ALBERT、DistilBERTなどの事前学習済み言語モデルに基づいて構築されています。
動画テキスト検索タスクは近年急速に発展しています。しかし、完全でロバストな動画特徴量をどのように抽出するか、動画とテキスト検索の間のクロスモーダルなギャップにどう対処するか、そしてこれらのモデルのトレーニング時間と検索効率をどのように短縮するかなど、いくつかの本質的な課題がまだ残されています。
2.3 - 動画質問応答(Video Question-Answering)
動画質問応答(Video QA)は、質問と動画に基づいて正しい答えを予測するものです。Video QAは、視覚と言語の理解(Vision-Language Understanding)の研究のおかげで、より一般的になってきました。その期待される用途は、ダイナミックな視覚世界について自然言語を使って対話できるAIを開発することです。しかし、質問に正しく答えるために動画を包括的に理解することは、QAモデルにとって大きな課題となっています。これには、視覚的なオブジェクト、アクション、アクティビティ、イベントを認識するだけでなく、それらの意味的、空間的、時間的、および因果関係を推論することも含まれます。

VideoQAタスクは、主に「選択肢式QA(multi-choice QA)」と「自由回答式QA(open-ended QA)」の2つのタイプに分類できます。
選択肢式QAでは、モデルに各質問に対するいくつかの選択肢が与えられ、その中から正しいものを選択します。
自由回答式QAでは、特定のデータセットに応じて、分類(最も普及している)、言語生成(一語一語生成)、または回帰(カウント用)などがあります。分類ベースの自由回答式QAでは、モデルが「動画と質問」のペアを、事前に定義されたグローバルな回答セットのいずれかに分類します。生成ベースの自由回答式QAでは、モデルが語彙セットから次の単語を予測して、特定の長さの回答を形成します。回帰ベースの自由回答式QAでは、モデルが正解(グラウンドトゥルース)に近い整数値の回答を算出します。

上に示したように、動画質問応答の一般的なフレームワークは、動画エンコーダー、質問エンコーダー、クロスモーダル相互作用、回答デコーダーの4つのコンポーネントで構成されています。
動画エンコーダーは、フレームの外観とクリップの動きを共同で捉えることにより、生の動画から特徴量を抽出します。これらの特徴量は、通常、事前学習済みの2Dまたは3Dニューラルネットワークを使用して取得されます。
質問エンコーダーは、GloVeやBERTの特徴量などのトークンレベルの表現を抽出します。
次に、連続モデル(Transformerなど)が視覚と言語の連続データを処理し、クロスモーダル相互作用を促進します。
最後に、回答デコーダーは、提供された複数の選択肢から正しい回答を選択する1ウェイ分類器(選択肢式QA向け)、事前に定義されたグローバルな回答セットから回答を選択するNウェイ分類器、または回答を一語一語生成する言語生成器(自由回答式QA向け)になります。
他の動画タスクと比較して、質問応答は、時間ドメインおよび空間ドメインにおける詳細(ファイングレイン)および大まか(コースグレイン)な表現、ならびに事実に基づく質問や推論問題など、さまざまな精度(粒度)のレベルで動画を包括的に理解することが求められます。

多様なVideo QA技術には、メモリネットワーク(Memory Networks)、Transformers、グラフニューラルネットワーク、モジュラーネットワーク、およびニューロ・シンボリック(Neuro-Symbolic)アーキテクチャが含まれます。特に、PSAC、MMFT-BERT、ClipBERT、Just Ask、MERLOT、VIOLETなどのTransformerベースのアーキテクチャは、より少ない計算リソースで、より優れた説明可能性を提供しながら、詳細な動画推論を行うための強力な能力を実証しています。
2.4 - 動画キャプション生成
動画キャプション生成は、動画シーケンスの意味関係や意図を捉えるために、その内容を説明するプロセスです。この技術から恩恵を受ける可能性のあるアプリケーションの数は、例えばコンテンツ検索システム、スマートビデオ監視、人間とコンピュータのインターフェースシステムなど、非常に膨大です。画像キャプション生成と比較して、動画キャプション生成は、オブジェクト間の関係を特定したり、アクションを検出したりする上で時間変数が極めて重要になるため、格段に難易度が高くなります。

上の図は、動画キャプション生成タスクにおける典型的なソリューションの全体像を示しています。これにはエンコーダー・デコーダー(encoder-decoder)フレームワーク(最も効率的で有益なシーケンス・ツー・シーケンスのモデリング技術)が使用されています。
ビジュアルエンコーダーは動画から特徴量を抽出し、デコーダーはそれをテキスト形式に変換して説明文を生成します。(時間的および空間的な特性のために)2Dまたは3DのConvNetやアテンションメカニズムなどのさまざまな技術を使用してこれらの特徴量を取得します。さらに、音声、オプティカルフロー、特徴量マップなどの他の特徴量を考慮することもできます。
言語デコーダーは、RNN、LSTM、GRU、Transformerなどのアーキテクチャを使用して翻訳タスクを実行します。
トレーニング中、モデルは提供されたキャプション(正解)に非常に近づくまで、キャプション生成の精度を徐々に高めていきます。より具体的には、アテンションメカニズムによってモデルがより多くの情報を学習し、より適切な文を予測できるようになります。

初期の手法は標準的なエンコーダー・デコーダーフレームワークに依存していましたが、Transformerアーキテクチャの台頭により、最近の動画キャプション生成技術に大きな革新がもたらされました。これらの技術は、Universal Transformers、Masked Transformers、Two-View Transformers、Bidirectional Transformers、Vision Transformersなど、異なる多様なTransformerのバリアントを使用しています。
これらのモデルによって作成される説明文は向上していますが、人間の手によるものとはまだ同等ではありません。このようにコンピュータによって生成されるキャプションを改善するためには、人間の知識を取り入れることが重要です。モデルが動画、音声、字幕などの複数の情報源から学習すると、何が起こっているのかをよりよく理解して説明できるようになり、全体としてより優れたキャプションを作成できるようになります。
3 - 未来:動画基盤モデルによるマルチモーダル化
基盤モデルは自然言語処理(NLP)やコンピュータビジョンにおいて非常に普及していますが、動画理解におけるその可能性はいまだ十分に発揮されていません。これは、大量の動画データを効率的に処理・分析することの難しさや、動画理解を向上させるために異なるモダリティを効果的に組み合わせることの難しさが一因となっています。しかし、エンターテインメント、教育、監視など、さまざまな業界における開発者の多様なユースケースやニーズを背景に、実世界の製品への動画理解の応用に対する関心は高まっています。
動画理解の向上が期待できる研究分野の一つとして、音声、テキスト、視覚などの異なるモダリティの強みを組み合わせるハイブリッドモデルの開発が挙げられます。これらの「マルチモーダル」基盤モデルは、未指導学習や自己指導学習といった技術を活用して、異なるモダリティから特徴量を抽出し、動画コンテンツをより包括的に理解することができます。
ごく最近発表された、さまざまなマルチモーダル動画基盤モデルを簡単に紹介しましょう。
3.1 - VideoCoCa

VideoCoCAは、微調整(ファインチューニング)を必要とせずに、既存の対照的キャプショナー(いわゆる CoCa)を活用する動画テキストモデリングへのアプローチです。このモデルは、対照的キャプション生成モデルを使用して候補となる文を生成し、それを Transformer ベースのモデルによってスコア付けすることでこれを達成します。Transformer ベースのモデルは、対象の動画への関連性に基づいて、候補となる文をスコア付けするようにトレーニングされます。
著者らは、VideoCoCaをさまざまなデータセットでテストし、ゼロショット動画分類、ゼロショット動画テキスト検索、動画キャプション生成、および(微調整後の)動画質問応答において、最先端の手法と比較して競争力のある性能を達成しました。また、アブレーションスタディ(系統的除去実験)を行い、対照的キャプション生成がVideoCoCaの重要なコンポーネントであることを示しました。
3.2 - Merlot-Reserve

MERLOT Reserveは、動画フレーム、テキスト、音声を共同で推論することにより、動画のマルチモーダルなニューラルスクリプト知識表現を学習するモデルです。このモデルは、時間に沿って、また(音声、字幕、動画フレームなどの)複数のモダリティにわたって動画を表現するように設計されています。このモデルは、テキストと音声の自己指導から学習するための新しい対照的マスクスパン学習(contrastive masked span learning)目的を通じて、2,000万本以上のYouTube動画でトレーニングされています。その結果、動画の異なる要素間の意味的および時間的関係を捉えることができ、幅広い動画理解タスクに使用できる動画コンテンツの豊富な表現を学習することが可能になります。
著者らは、複数のベンチマークでMERLOT Reserveを評価し、最先端の手法を上回り、クロスドメインデータセット(視覚的コモンセンス推論、シチュエーション推論、動作予測、動画QA)においても高い性能を達成することを示しました。また、アブレーションスタディを実施し、スクリプト知識(script knowledge)に関する事前学習がMERLOT Reserveにとって極めて重要であることを示しました。さらに、MERLOT Reserveが学習した表現を分析し、動画コンテンツの有意義な意味構造や文法構造を捉えることができることを示しました。
3.3 - Vid2Seq

Vid2Seqは、音声解説付きの動画で事前学習された、シングルステージの密な(Dense)動画キャプションモデルです。このモデルは、数分間の未トリミング動画のフレームと文字起こしされた音声を入力として受け取ります。そして、単一のトークンシーケンスを予測することにより、密なイベントキャプションを動画内の一時的な位置特定(時間的位置情報)と共に出力します。このモデルのアーキテクチャは、T5言語モデルを特別なタイムトークンで拡張したもので、同一の出力シーケンス内でイベントの境界とテキストによる説明をシームレスに予測できるようにします。
Vid2Seqは、大規模に容易に入手できる、HowTo100M内のラベルなし音声解説付き動画を使用して事前学習されています。特に、著者らは、幅広いドメインをカバーする1,800万本の音声解説付き動画を含むYT-Temporal-1Bデータセットを使用しています。これらのラベルなし音声解説付き動画から、著者らは文字起こしされた音声の文章境界を擬似イベント境界として再定義し、文字起こしされた音声文章を擬似イベントキャプションとして使用しました。
Vid2Seqは、ActivityNet-Captions、YouCook2、Video Timeline Tagsを含む、標準的な密なイベントキャプション生成のベンチマークで最先端の性能を達成しています。また、フューショット(Few-shot)の密な動画キャプション生成設定、動画段落キャプション生成タスク、および標準的な動画キャプション生成タスクに対しても優れた汎用性を示しています。
結論
動画理解技術はこれまでの10年間、最先端のニューラルネットワークアーキテクチャの開発に支えられ、著しい進歩を遂げてきました。かつて動画理解は、オブジェクト検出、セグメンテーション、トラッキングといった低レベルの知覚タスクに限定されていました。しかし現在のプログラミングアプローチでは、分類、検索、質問応答、キャプション生成といった、高レベルの理解タスクを処理できるようになり、そのパワーを活用する機会がさらに増えています。さらに、マルチモーダル動画基盤モデルも登場しつつあり、動画理解技術の未来は非常に有望です。
Twelve Labsでは、マルチモーダル動画理解のための基盤モデルを開発しています。私たちの目標は、最も高度な動画理解インフラにより、開発者が人間と同じように見て、聞いて、世界を理解できるプログラムを構築できるように支援することです。さらに詳しく知りたい方は、https://playground.twelvelabs.io/ で登録を行い、私たちの Multimodal Minds Discord コミュニティに参加して、マルチモーダルAIのあらゆることについてチャットしましょう!




