リサーチ
ビデオ理解(Video Understanding)ユースケースの紹介

ジェームズ・リー
ビデオ理解(Video understanding)は、AIを活用してビデオコンテンツの検索、分類、双方向の対話を可能にする技術です。この記事では、セマンティックビデオ検索、分類、クラスタリング、要約、Q&Aなどの主要なユースケースと、マルチモーダルモデルがこれらをどのように実現しているかについて解説します。
ビデオ理解(Video understanding)は、AIを活用してビデオコンテンツの検索、分類、双方向の対話を可能にする技術です。この記事では、セマンティックビデオ検索、分類、クラスタリング、要約、Q&Aなどの主要なユースケースと、マルチモーダルモデルがこれらをどのように実現しているかについて解説します。

この記事の内容
ニュースレターに登録する
ニュースレターに登録する
ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします
ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします
AIを活用してビデオを検索、分析、探索します。
2023/10/03
13分
記事へのリンクをコピー
今日のデジタル時代において、ビデオは私たちの生活に欠かせないものとなり、かつてないほど私たちの関心と想像力を惹きつけています。オンラインビデオコンテンツの爆発的な増加に伴い、ビデオを理解し分析することの必要性がますます重要になってきています。そこで登場したのが、ビデオに埋め込まれている豊富な視覚情報を解読するために、人工知能と機械学習の力を活用する魅力的な分野、ビデオ理解(video understanding)です。
前回の記事では、学術的な観点からビデオ理解の進化を振り返りました。この記事では、ビデオ理解を巡る魅力的なツアーに出発し、その多様なユースケースを探究していきます。
1 - 言語理解からビデオ理解へ
自然言語理解のための機械学習モデルの進化は、Transformer型アーキテクチャの導入のおかげで、近年著しい進歩を遂げました。オリジナルのアーキテクチャから、BERT(Bidirectional Encoder Representations from Transformers)やGPT(Generative Pre-trained Transformer)といった、さまざまなモデルが登場しました。

BERT型アーキテクチャは、埋め込み表現(Embedding)のユースケースに焦点を当てており、大規模な教師なしデータから文脈化された単語埋め込みを生成します。これらの埋め込みは、テキスト分類、感情分析、固有表現抽出など、さまざまなNLP(自然言語処理)タスクに使用できます。BERTの双方向の特性により、対象となる単語の左右両方向から文脈をとらえることができ、より正確で意味のある埋め込み表現が実現します。実社会におけるBERTの応用例としては、検索エンジンの検索結果の改善、チャットボットの理解力向上、コンテンツ推奨システムの最適化などが挙げられます。
その一方で、GPT型アーキテクチャは生成型(Generative)のユースケースを駆動します。これは、与えられた入力に基づいて、人間が書いたようなテキストを生成するものです。GPT-3のようなGPTモデルは、膨大なデータで学習されており、一貫性があり文脈に即したテキストを生成することができます。これらのモデルは、テキストの要約、質問への回答、ビジュアルの生成など、さまざまなタスクに使用できます。実社会におけるGPTの応用例としては、カスタマーサービス支援、コンテンツ生成、言語翻訳などが挙げられます。
ビデオ理解のためのモデルの進化は、言語理解と同様の軌跡をたどってきました。ビデオの埋め込み表現を活用するユースケースを駆動するために、ビデオ基盤モデル(Video foundation models)が登場しました。これらのモデルは、BERTやGPTのような言語領域の基盤モデルで採用されているのと同様の原則を用いて、ビデオデータから学習します。これらは、ビデオ検索、ビデオ分類、動作認識、時間的ローカライズ(Temporal Localization)など、さまざまなビデオ理解タスクのための埋め込み表現を生成できます。

ビデオ基盤モデルに加えて、ビデオからテキストへの生成を伴うユースケースを駆動する「ビデオ・言語モデル(video-language models)」も台頭しています。言語における対となるモデルと同様に、これらのモデルはビデオとテキスト記述の大規模なペアデータセットで学習されます。ビデオからテキストへの生成タスクには、ビデオのキャプション生成やビデオQ&A(質問回答)などがあり、ビデオ+テキスト、音声、あるいはオーディオといったマルチモーダルな入力に基づいて、適切なテキスト回答を出力することがモデルに求められます。ビデオ・言語モデルの開発は、コンピュータビジョンと自然言語処理の力を組み合わせて複雑な課題を解決する、ハイブリッドビジョン・言語モデルの成功に影響を受けています。
2 - ビデオ基盤モデル
2.1 - ビデオ埋め込みの魔法
ビデオ埋め込み(Video embeddings)とは、ビデオをより低次元のベクトル空間で表現したもので、各ビデオは数値ベクトルとして表されます。これらの埋め込み表現は、ビデオの意味的な内容や視覚的特徴をとらえるため、基盤モデルはビデオの内容を理解することができます。

ビデオ埋め込みの普及は、ベクトル埋め込みのマルチモーダルな進化に起因しています。従来、ベクトル埋め込みはテキスト、画像、音声データのみに焦点を当てていました。しかし、マルチメディアコンテンツの台頭とTransformer型アーキテクチャの多用途性により、共通の潜在空間の中で視覚情報、テキスト情報、聴覚情報をとらえることができる埋め込み表現の開発へとシフトしてきました。
マルチモーダル埋め込み(Multimodal embeddings)は、ビデオ内の異なるモダリティを組み合わせて、包括的な表現を作成します。これらの埋め込みは、視覚、テキスト、音声の手がかりを取り入れることで、ビデオコンテンツのより包括的な理解を提供します。その結果、ビデオ検索、分類、クラスタリングなど、さまざまな分野で幅広い用途に応用可能になります。
2.2 - ビデオ検索

ビデオ理解の最も魅力的な側面の1つは、ビデオを検索可能にし、その内容に基づいて分類できる能力です。膨大なコレクションの中から、その視覚的要素やキーワードを説明するだけで、特定のビデオを見つけられるところを想像してみてください。ビデオ検索は、ビデオの意味情報を分析するタスクであり、これにより特定のビデオコンテンツを効率的かつ正確に取得(検索)できるようになります。これは、ユーザーが膨大なビデオライブラリをナビゲートし、ビデオを視聴することなく探しているビデオを見つけるのを手助けする上で、極めて重要な役割を果たしています。
課題
実用のためのビデオ検索ソリューションを開発するには、いくつかの課題があります。第1に、ビデオは往々にして視覚情報と聴覚情報を併せ持っているため、検索プロセスがより複雑になります。さらに、ビデオの内部には固有の時間軸(Temporal Dimension)が存在します。視覚的要素と音声的要素の関係性が時間とともにどのように変化していくかが、ビデオであることの基盤となる豊かな文脈を生み出すのです。
ビデオ理解においては、モダリティが異なれば意味も異なる場合があり、モデルは各モダリティのニュアンスやコンテキストを考慮して全体的な意味を解釈する必要があります。例えば、ある人が笑っているものの悲しそうに見えたり、否定的なことを言っていたりする場合、モデルはその人の全体的な感情を正確に判断する必要があります。これには、視覚的な表情、身振り手振り、話された言葉、そしてビデオ全体のコンテキストを考慮し、異なるモダリティ間の微妙な合図と相互作用をとらえて分析することがモデルに求められます。このレベルの理解を達成することは、高度なマルチモーダル基盤モデルや、さまざまなデータソースを統合してビデオの豊かで多次元的な性質をとらえることを必要とする、複雑なタスクです。
第2に、ユーザーの意図を理解すること、および関連性の高い検索結果を提供することも、ビデオ検索におけるもう1つの課題です。正確でパーソナライズされたビデオ検索結果を届けるために、ユーザーのクエリ(検索指示)、好み、およびコンテキストを解釈するには、高度な推奨(レコメンデーション)および関連性ランキングのアルゴリズムが必要です。このタスクは、ユーザー生成コンテンツ、ゲーム、スポーツなど、異なるビデオドメインにおいてさらに難しくなり、各ドメインには独自の語彙、文脈、およびユーザーの行動パターンが存在します。ユーザーの期待に応える正確で最新の検索結果を保証するためには、常に変化するトレンドや好みを伴うこれらのドメインの動的な性質を特に考慮しながら、アルゴリズムを適切に適応させることが必要です。
最後に、実社会のビデオ検索アプリケーションは、多くの場合大規模なビデオライブラリを扱うため、効率的なインデックス作成と検索メカニズムが必要になります。効果的なビデオ検索のためには、大量のビデオデータと、関連情報を検索するために必要な遅延時間(レイテンシ)を処理できる、スケーラブルなアルゴリズムとインフラを開発することが極めて重要です。
ユースケース
ビデオ検索エンジンは、コンテンツベースの分析、オブジェクト検出、テキスト認識などのさまざまな技術を使用して、内容に基づいてビデオのインデックスを作成し検索します。ビデオ全体を視聴する必要がなくなるため、ビデオ検索は時間を節約し、ビデオ内の特定の情報や瞬間を見つける効率を向上させます。
ビデオ検索技術の実社会での例には、以下のようなものがあります:
YouTube:最大級のビデオ共有プラットフォームの1つとして、YouTubeは強力なビデオ検索エンジンを提供しています。ユーザーはキーワード、タイトル、または特定のカテゴリに基づいてビデオを検索できます。
専門的なアーカイブサイト:特定の種類のビデオに焦点を当てた、専用のビデオ検索エンジンがあります。例えば、NASAのアーカイブサイトなどです。これらのプラットフォームでは、ユーザーは特定のトピックやイベントに関連するビデオを検索できます。
企業向けビデオ検索ツール:組織は、社内のビデオライブラリにインデックスを付けて検索するために、ビデオ検索ツールを使用することがよくあります。これらのツールを使用すると、従業員は、トレーニング、ナレッジ共有、調査などのさまざまな目的で、ビデオ内の特定のビデオや瞬間を見つけることができます。
上で述べた従来のビデオ検索エンジンは、ビデオ検索へのアプローチにおいて限界があります。これらのエンジンは、ビデオのインデックス作成と検索のために、主にキーワードマッチングとメタデータ分析に依存しています。これらの技術はある程度効果的ですが、ビデオコンテンツのより包括的な理解を提供できるマルチモーダルな技術を活用していません。キーワードとメタデータのみに焦点を当てることで、これらの検索エンジンは、検索体験を大幅に向上させる可能性のあるビデオ内の重要な視覚的・聴覚的合図を見逃す可能性があります。
Twelve Labsのビデオ検索API
Twelve Labsのビデオ理解プラットフォームは、キーワード、メタデータ、または書き起こし(トランスクリプション)といった単一のデータタイプのみに依存する限界を超えたビデオ検索ソリューションを提供します。画像、音、話された言葉、画面上のテキストなど、利用可能なあらゆる形態の情報を同時に統合することにより、当社のソリューションはこれらの要素間の複雑な関係をとらえ、より人間に近い解釈を実現します。これは、ユニモーダル(単一のモダリティ)の手法では見落とされがちなより細かい詳細を検出するように設計されており、基本的なターゲットの特定を超えてビデオシーンのより深い理解を実現します。さらに、自然言語によるクエリに対応しているため、日頃の会話と同じくらい直感的に対話することができます。
当社の検索機能の詳細については、この2パートからなるチュートリアル(パート1およびパート2)をご覧ください。
2.3 - ビデオ分類

ビデオ分類(Video classification)は、あらかじめ定義されたクラスやトピックにビデオを自動的に分類することで、ビデオ理解を一歩進めます。ビデオ基盤モデルは、ビデオ内の意味的特徴、オブジェクト、およびアクティビティを分析することにより、ビデオをスポーツ、ニュース、エンターテインメント、またはドキュメンタリーに分類できます。これはコンテンツ作成者やビデオプラットフォームに利益をもたらすだけでなく、ユーザーの関心や好みに基づいてパーソナライズされた推奨(レコメンデーション)を提供することで、ユーザーエクスペリエンスを向上させます。
課題
実用のためのビデオ分類モデルを構築することには、いくつかの課題が伴います。第1に、ビデオ分類用のラベル付きデータセットを作成することは、多大な労力と時間がかかる場合があります。ビデオには、オブジェクト、シーン、アクションなど、分類タスクで正確にラベル付けする必要がある、さまざまな視覚的要素が含まれることがあります。これには、人間のアノテーター(ラベル付け作業者)がビデオをフレーム単位で注意深く視聴し分析して、適切なラベルを割り当てる必要があります。画像とは異なり、ビデオには時間的な次元があり、ビデオのコンテキストは時間とともに変化する可能性があります。アノテーターは、正しいラベルを割り当てるためにビデオシーケンス全体を考慮する必要があり、これがラベル付けプロセスを複雑にし、時間を増加させます。

ビデオ分類におけるもう1つの課題は、現在の技術が固定されたクラスの体系(タキソノミー)に依存していることであり、これは特定のユースケースやドメインに適応させることが難しい場合が多いという点です。例えば、YouTubeのようなプラットフォームのコンテンツ作成者は、所有するビデオをその内容をよりよく表す詳細なカテゴリに分類したいと考えるかもしれません。しかし、YouTubeが提供するデフォルドの15カテゴリでは、作成される多様なビデオを正確に分類するのに十分ではない可能性があります。この制限は、さまざまな業界やコンテンツ作成者の独自の要件により良く対応できる、より柔軟でカスタマイズ可能な分類システムの必要性を浮き彫りにしています。
ユースケース
ビデオ分類は、さまざまな業界で多様な用途に使用されています。
監視とセキュリティ:ビデオ分類は監視システムで使用され、ビデオ映像に記録された特定のアクションや行動を特定し分類します。これは、異常の検出、不審なアクティビティの認識、およびセキュリティ対策の強化に役立ちます。
コンテンツモデレーション(健全化):ビデオ分類は、コンテンツモデレーションにおいて、その内容に基づいてビデオを自動的に特定および分類するために活用できます。これにより、プラットフォームや組織はコミュニティガイドラインを適用し、不適切または有害なコンテンツを検出し、安全で良好なユーザーエクスペリエンスを保証することができます。
スポーツ分析:ビデオ分類は、スポーツにおいて選手のパフォーマンス分析に使用されます。ゲーム中の選手のさまざまなアクションや動きを特定し分類するのに役立ち、コーチやアナリストがトレーニングや戦略策定のための洞察を得ることを可能にします。
自動ビデオ編集:ビデオ分類は、システムがビデオ内のさまざまなシーンやイベントを自動的に特定してセグメント化する、自動ビデオ編集に活用できます。これにより、編集プロセスが簡素化され、コンテンツ作成者の時間が節約されます。
コンテキスト広告:ビデオ分類は、ビデオの内容を分析し、それらを関連性の高い広告と一致させることで、コンテキスト広告において重要な役割を果たすことができます。これにより、広告主はターゲットオーディエンスをより効果的にターゲットに設定し、ビデオコンテンツの関心やコンテキストに合ったパーソナライズされた広告を配信できるようになります。
Twelve Labsのビデオ分類API
歴史的に、ビデオ分類はあらかじめ定められたクラスのセットに制限されており、主にイベント、アクション、オブジェクト、および同様の属性の認識をターゲットとしていました。しかし、Twelve Labsのビデオ理解プラットフォームでは、モデルを再学習させることなく分類の基準をカスタマイズできるようになり、モデルトレーニングに伴う複雑さが解消されました。
当プラットフォームは、階層的な構造を使用してビデオを分類します:
クラスのグループが構造の最上位レベルを構成し、各グループは複数のクラスで構成されます。
クラスは組織の主要な単位として機能するもので、ビデオがこれらのクラスへと分類されます。
各クラスには、その特徴を定義する複数のプロンプトが含まれています。プロンプトは分類システムの構成要素として機能し、その内容に基づいてビデオを関連するクラスへ正確に振り分けることを可能にします。
当社の分類機能の詳細については、こちらのチュートリアルをご覧ください。
2.4 - ビデオクラスタリング
ビデオクラスタリングは、ラベル付きデータを使用せずに、内容の類似性に基づいてビデオをグループ化するタスクです。これには、ビデオ内の視覚的および時間的情報をとらえるビデオ埋め込みの抽出が含まれます。これらの埋め込みは、ビデオ間の類似性を測定し、それらをクラスターにグループ化するために使用されます。

これは、通常テキスト内の単語やフレーズの頻度に基づいて、文書が高次元ベクトルとして表現されるテキストクラスタリングと並行していると見なすことができます。どちらのタスクでも、目標は類似したコンテンツをグループ化し、データの分析、分類、および理解を容易にすることです。
課題
ビデオクラスタリングの実行には、いくつかの制限的技術課題があります。ビデオは複数のフレームを持つ高次元データであるため、クラスタリングプロセスにかかる計算コストが高くなります。各フレームから抽出される膨大な数の特徴量が、クラスタリングアルゴリズムの複雑さを増大させます。
さらに、ビデオデータに適したクラスタリング基準や類似性の尺度の決定は、主観的になることがあります。異なるクラスタリングアルゴリズムやパラメータ設定は異なる結果をもたらす可能性があるため、意味のあるクラスターを達成するには注意深い選択と評価が必要となります。
ユースケース
ビデオクラスタリングは、ビデオのトピックモデリングや自動ビデオカテゴリ化など、さまざまなアプリケーションの改善に役立ちます。
ビデオトピックモデリングでは、同様のトピックを持つビデオをクラスター化できるため、より効果的なビデオコンテンツ分析や、トレンドやパターンの特定が可能になります。これは、大量のビデオデータを迅速かつ正確に分析する必要があるソーシャルメディア分析などのアプリケーションで特に役立ちます。
自動ビデオカテゴリ化では、手動でのラベル付けを必要とせずに、内容の類似性に基づいてビデオをカテゴリへとクラスター化できます。これは、ビデオコンテンツベースの検索データベース、オンラインビデオのインデキシングとフィルタリング、ビデオのアーカイブなどのさまざまなアプリケーションで役立ちます。(注意:ビデオ対ビデオ検索(Video-to-Video Search)は、Twelve Labsの製品ロードマップに掲載されている機能であり、ビデオを自動的にカテゴリ化できるようになります。詳細については、support@twelvelabs.ioまでお問い合わせください)
ビデオコンテンツ推奨(レコメンデーション)では、ビデオクラスタリングにより、パーソナライズされたビデオ推奨の作成が可能になります。ベクトル空間において、ビデオ埋め込みをユーザーのメタデータや視聴履歴などの他のタイプのデータと組み合わせることで、高度にパーソナライズされた推奨情報を生成できます。このアプローチは、ユーザーが自分の関心や好みに合った、関連性のある魅力的なビデオを発見するのに役立ちます。
3 - ビデオ・言語(Video-Language)モデリング

3.1 - マルチモーダルLLMの台頭
マルチモーダル大規模言語モデル(LLM)研究の台頭は、テキスト、画像、音声、ビデオなどのさまざまなタイプのデータを同時に処理し理解する必要性によって推進されてきました。テキストデータで学習された従来のLLMは、マルチモーダルなタスクの処理に限界があります。一方で、マルチモーダルLLMは、同じメカニズムを使用してすべてのタイプのデータを処理できるため、より正確で文脈に即した出力をもたらします。これにより、複数のモダリティからの情報を取り入れた回答をモデルが生成できるため、AIアプリケーションの新しい可能性が開かれました。
ビデオ・言語モデリング(Video-language modeling)は、マルチモーダルLLMの特定のアプリケーションであり、ビデオコンテンツに対するテキストベースの要約、説明、または回答の理解と生成に焦点を当てています。この研究分野は、視覚的な理解とテキストによる理解との間のギャップを埋めることを目的としているため、包括的なビデオ理解に不可欠です。共通の埋め込み空間におけるテキストデータとビデオデータのこの統合により、モデルはより文脈に即した有益な出力を生成できるようになり、さまざまな下流(ダウンストリーム)のタスクにメリットをもたらします。
例えば、VideoBERTやLaViLaのようなモデルを使用してビデオの説明を自動生成し、アクセシビリティと検索性を向上させることができます。これらは、モデルがビデオコンテンツの簡潔なテキスト要約を生成する、ビデオ要約にも適用できます。さらに、Video-ChatGPTのようなモデルは、ビデオに関する人間に近い会話を生成することで、インタラクティブなメディア体験を強化できます。
3.2 - ビデオの説明と要約

ビデオ説明(Video description)は、自然言語で表現されたビデオの完全な説明、またはストーリーを作成するタスクです。これには、ビデオの複数の要素を分析し、ビデオコンテンツとコンテキストを正確にとらえるテキスト記述を生成することが含まれます。一方、ビデオ要約(Video summarization)は、ビデオコンテンツに基づいて簡潔なテキスト要約を生成するタスクです(その際、本質的な情報や重要な瞬間は維持されます)。長いビデオを、最も重要な内容をとらえた簡潔な表現に凝縮し、その表現に一致するテキスト記述を提供します。
ビデオの説明と要約は、ビデオの理解と興味を引きつける度合いの両方を向上させることができます。これらは、視聴者がビデオの内容をよりよく理解するのに役立ちます。特に、視覚障害やその他の障害によってビデオを見たり聞いたりするのが難しい視聴者にとって有用です。さらに、そうしなければ気づかなかったかもしれない追加の文脈や情報を提供することで、視聴者をビデオに惹きつけ続けるのにも役立ちます。

課題
ビデオには、多様なシーン、アクション、イベントが含まれる場合があるため、正確で包括的な説明や要約を生成することが困難になります。したがって、モデルはビデオ内の視覚情報とテキスト情報の間の複雑な関係をとらえなければなりません。
さらに、ビデオの説明と要約には、生成された説明や要約を対応するビデオセグメントに正確に整合させることが求められます。特にペースの速い、または複雑なビデオコンテンツを扱う場合、正確な時間的整合(Temporal Alignment)を達成することは課題です。アテンション(注意)メカニズムを取り入れ、マルチモーダルな情報を活用するモデルは、より正確な時間的整合を示すことが確認されています。
最後に、生成された説明や要約は、正確であるだけでなく、首尾一貫しており、ビデオコンテンツに文脈的に即したものでなければなりません。したがって、モデルは流暢で意味のある文章を生成すると同時に、ビデオの意味と文脈を効果的にとらえる必要があります。
ユースケース
ビデオの説明と要約は、さまざまな業界で多くの用途に使用されています。以下にいくつかの例を挙げます:
メディア・エンターテインメント業界では、映画、テレビ番組、およびその他のビデオコンテンツのプレビューや予告編を作成するために使用できます。これらのプレビューは、コンテンツの簡潔な概要を提供し、視聴者がビデオ全体を観るかどうかを決定するのに役立ちます。
Eコマース業界では、製品ビデオの簡潔な要約やハイライトを提供することで、ショッピング体験を向上させることができます。これにより、顧客はビデオ全体を視聴することなく、製品の主な特徴や利点をすぐに理解できます。
これらは教育・トレーニング部門でも、コンテンツの概要を提供するテキスト記述を伴うビデオ講義やチュートリアルの開発など、有益な用途があります。これにより、学生はビデオ内を移動し、学習目的に最も関連性の高いセクションをすぐに見つけることができます。
これらは、魅力的で有益なビデオコンテンツを作成するためのマーケティング・広告キャンペーンに活用できます。簡潔な説明や要約を提供することで、マーケターは視聴者の注意を引き、重要なメッセージを効果的に伝えることができます。
これらは、ソーシャルメディアプラットフォームやコンテンツ共有ウェブサイトに役立ちます。ユーザーがアップロードしたビデオのキャプションや説明を自動生成することにより、共有ビデオのプレビューやハイライトを自動生成するために使用でき、エンゲージメントとユーザーインタラクションを向上させます。
3.4 - ビデオ質問回答(Q&A)

出典:https://github.com/mbzuai-oryx/Video-ChatGPT
ビデオ質問回答(ビデオQA)は、視覚情報と言語情報(あるいは聴覚情報も含む)の意味論的な推論を通じて、ビデオに関連する質問に回答するタスクです。目標は、ビデオコンテンツに関する特定の質問に回答を提供することです。これにより、ビデオをより幅広いオーディエンス(異なる言語を話す人々を含む)にとってアクセスしやすいものにし、ユーザーがコンテンツと対話できるような双方向の要素を提供することができます。
課題
ビデオQAは、自然言語での複雑な質問に回答することを伴うタスクであり、ビデオコンテンツの深い理解を必要とします。これは、モデルが流暢で意味のある返答を生成する一方で、ビデオの意味論と文脈を効果的にとらえなければならないことを意味します。
正確な回答を生成するために、ビデオQAは視覚情報、音声情報、テキスト情報などの複数のモダリティの統合を必要とします。言い換えると、モデルはマルチモーダルな理解を備えている必要があります。
最後に、ビデオQAには、ビデオ内の異なるイベントやアクション間の時間的関係について推論する能力が必要です。したがって、モデルはビデオの時間的なダイナミクスを効果的にとらえ、異なるイベントやアクションの間の関係性を推論できる必要があります。
ユースケース
ビデオ質問回答は、さまざまな業界で多くの用途に使用されています:
カスタマーサポート:ビデオQAを使用して、ビデオチャットまたはメッセージングを通じてカスタマーサポートを提供できます。顧客が製品やサービスについて質問すると、システムはビデオの内容に基づいてテキストまたは音声による回答を生成できます。
教育コンテンツ:ビデオQAを使用して、インタラクティブな教育コンテンツを作成できます。学生がビデオ講義について質問すると、システムはビデオの内容に基づいてテキストまたは音声による回答を生成できます。
インタラクティブメディア:ビデオQAを使用して、ゲームや仮想現実(VR)環境などのインタラクティブなメディア体験を作成できます。ユーザーがビデオの内容について質問すると、システムは体験の結果に影響を与える回答を生成できます。
Twelve Labsは、ビデオのタイトル、要約、章立て、ハイライトなどの簡潔なテキスト表現を生成できる、新しいGenerate APIの開発に取り組んでいます。単一のモダリティのみの解釈に限定された従来のモデルとは異なり、Generate APIスイートは、視覚、音声、話された言葉、テキスト、およびそれら相互の関係を含むビデオのコンテキスト全体を分析するマルチモーダルLLMを使用しています。素晴らしいリリースを楽しみにお待ちください!
4 - まとめ
ビデオ理解は、マルチメディアコンテンツの時代において不可欠な研究分野となっています。ビデオデータの急速な成長に伴い、ビデオに含まれる膨大な量の情報を理解できるモデルと技術の開発がますます重要になっています。ここで見てきたように、ビデオ理解には、ビデオ検索、ビデオ分類、ビデオクラスタリング、ビデオの説明と要約、ビデオ質問回答など、多数のユースケースが存在します。これらのアプリケーションは、エンターテインメントから教育、カスタマーサポートに至るまで、さまざまな業界に革命をもたらす可能性を秘めています。
ビデオ基盤モデルとビデオ・言語モデルの開発は、ビデオ理解における重要な進歩への道を切り開きました。この分野が進化し続けるにつれて、モデル自体と、それが可能にするアプリケーションの両方において、さらなるイノベーションが期待されます。ビデオコンテンツを全体的に理解できるモデルを開発することで、ビデオデータをよりアクセスしやすく、検索しやすく、有益なものにできます。
Twelve Labsでは、マルチモーダルなビデオ理解のための基盤モデルを開発しています。私たちの目標は、最も先進的なビデオ理解インフラを使用して、開発者が私たちと同じように世界を見て、聞き、理解できるプログラムを構築できるように支援することです。詳細について関心をお持ちの場合は、ぜひhttps://playground.twelvelabs.io/でサインアップし、私たちのMultimodal Minds Discordコミュニティに参加して、マルチモーダルAIのあらゆることについてチャットしましょう!
今日のデジタル時代において、ビデオは私たちの生活に欠かせないものとなり、かつてないほど私たちの関心と想像力を惹きつけています。オンラインビデオコンテンツの爆発的な増加に伴い、ビデオを理解し分析することの必要性がますます重要になってきています。そこで登場したのが、ビデオに埋め込まれている豊富な視覚情報を解読するために、人工知能と機械学習の力を活用する魅力的な分野、ビデオ理解(video understanding)です。
前回の記事では、学術的な観点からビデオ理解の進化を振り返りました。この記事では、ビデオ理解を巡る魅力的なツアーに出発し、その多様なユースケースを探究していきます。
1 - 言語理解からビデオ理解へ
自然言語理解のための機械学習モデルの進化は、Transformer型アーキテクチャの導入のおかげで、近年著しい進歩を遂げました。オリジナルのアーキテクチャから、BERT(Bidirectional Encoder Representations from Transformers)やGPT(Generative Pre-trained Transformer)といった、さまざまなモデルが登場しました。

BERT型アーキテクチャは、埋め込み表現(Embedding)のユースケースに焦点を当てており、大規模な教師なしデータから文脈化された単語埋め込みを生成します。これらの埋め込みは、テキスト分類、感情分析、固有表現抽出など、さまざまなNLP(自然言語処理)タスクに使用できます。BERTの双方向の特性により、対象となる単語の左右両方向から文脈をとらえることができ、より正確で意味のある埋め込み表現が実現します。実社会におけるBERTの応用例としては、検索エンジンの検索結果の改善、チャットボットの理解力向上、コンテンツ推奨システムの最適化などが挙げられます。
その一方で、GPT型アーキテクチャは生成型(Generative)のユースケースを駆動します。これは、与えられた入力に基づいて、人間が書いたようなテキストを生成するものです。GPT-3のようなGPTモデルは、膨大なデータで学習されており、一貫性があり文脈に即したテキストを生成することができます。これらのモデルは、テキストの要約、質問への回答、ビジュアルの生成など、さまざまなタスクに使用できます。実社会におけるGPTの応用例としては、カスタマーサービス支援、コンテンツ生成、言語翻訳などが挙げられます。
ビデオ理解のためのモデルの進化は、言語理解と同様の軌跡をたどってきました。ビデオの埋め込み表現を活用するユースケースを駆動するために、ビデオ基盤モデル(Video foundation models)が登場しました。これらのモデルは、BERTやGPTのような言語領域の基盤モデルで採用されているのと同様の原則を用いて、ビデオデータから学習します。これらは、ビデオ検索、ビデオ分類、動作認識、時間的ローカライズ(Temporal Localization)など、さまざまなビデオ理解タスクのための埋め込み表現を生成できます。

ビデオ基盤モデルに加えて、ビデオからテキストへの生成を伴うユースケースを駆動する「ビデオ・言語モデル(video-language models)」も台頭しています。言語における対となるモデルと同様に、これらのモデルはビデオとテキスト記述の大規模なペアデータセットで学習されます。ビデオからテキストへの生成タスクには、ビデオのキャプション生成やビデオQ&A(質問回答)などがあり、ビデオ+テキスト、音声、あるいはオーディオといったマルチモーダルな入力に基づいて、適切なテキスト回答を出力することがモデルに求められます。ビデオ・言語モデルの開発は、コンピュータビジョンと自然言語処理の力を組み合わせて複雑な課題を解決する、ハイブリッドビジョン・言語モデルの成功に影響を受けています。
2 - ビデオ基盤モデル
2.1 - ビデオ埋め込みの魔法
ビデオ埋め込み(Video embeddings)とは、ビデオをより低次元のベクトル空間で表現したもので、各ビデオは数値ベクトルとして表されます。これらの埋め込み表現は、ビデオの意味的な内容や視覚的特徴をとらえるため、基盤モデルはビデオの内容を理解することができます。

ビデオ埋め込みの普及は、ベクトル埋め込みのマルチモーダルな進化に起因しています。従来、ベクトル埋め込みはテキスト、画像、音声データのみに焦点を当てていました。しかし、マルチメディアコンテンツの台頭とTransformer型アーキテクチャの多用途性により、共通の潜在空間の中で視覚情報、テキスト情報、聴覚情報をとらえることができる埋め込み表現の開発へとシフトしてきました。
マルチモーダル埋め込み(Multimodal embeddings)は、ビデオ内の異なるモダリティを組み合わせて、包括的な表現を作成します。これらの埋め込みは、視覚、テキスト、音声の手がかりを取り入れることで、ビデオコンテンツのより包括的な理解を提供します。その結果、ビデオ検索、分類、クラスタリングなど、さまざまな分野で幅広い用途に応用可能になります。
2.2 - ビデオ検索

ビデオ理解の最も魅力的な側面の1つは、ビデオを検索可能にし、その内容に基づいて分類できる能力です。膨大なコレクションの中から、その視覚的要素やキーワードを説明するだけで、特定のビデオを見つけられるところを想像してみてください。ビデオ検索は、ビデオの意味情報を分析するタスクであり、これにより特定のビデオコンテンツを効率的かつ正確に取得(検索)できるようになります。これは、ユーザーが膨大なビデオライブラリをナビゲートし、ビデオを視聴することなく探しているビデオを見つけるのを手助けする上で、極めて重要な役割を果たしています。
課題
実用のためのビデオ検索ソリューションを開発するには、いくつかの課題があります。第1に、ビデオは往々にして視覚情報と聴覚情報を併せ持っているため、検索プロセスがより複雑になります。さらに、ビデオの内部には固有の時間軸(Temporal Dimension)が存在します。視覚的要素と音声的要素の関係性が時間とともにどのように変化していくかが、ビデオであることの基盤となる豊かな文脈を生み出すのです。
ビデオ理解においては、モダリティが異なれば意味も異なる場合があり、モデルは各モダリティのニュアンスやコンテキストを考慮して全体的な意味を解釈する必要があります。例えば、ある人が笑っているものの悲しそうに見えたり、否定的なことを言っていたりする場合、モデルはその人の全体的な感情を正確に判断する必要があります。これには、視覚的な表情、身振り手振り、話された言葉、そしてビデオ全体のコンテキストを考慮し、異なるモダリティ間の微妙な合図と相互作用をとらえて分析することがモデルに求められます。このレベルの理解を達成することは、高度なマルチモーダル基盤モデルや、さまざまなデータソースを統合してビデオの豊かで多次元的な性質をとらえることを必要とする、複雑なタスクです。
第2に、ユーザーの意図を理解すること、および関連性の高い検索結果を提供することも、ビデオ検索におけるもう1つの課題です。正確でパーソナライズされたビデオ検索結果を届けるために、ユーザーのクエリ(検索指示)、好み、およびコンテキストを解釈するには、高度な推奨(レコメンデーション)および関連性ランキングのアルゴリズムが必要です。このタスクは、ユーザー生成コンテンツ、ゲーム、スポーツなど、異なるビデオドメインにおいてさらに難しくなり、各ドメインには独自の語彙、文脈、およびユーザーの行動パターンが存在します。ユーザーの期待に応える正確で最新の検索結果を保証するためには、常に変化するトレンドや好みを伴うこれらのドメインの動的な性質を特に考慮しながら、アルゴリズムを適切に適応させることが必要です。
最後に、実社会のビデオ検索アプリケーションは、多くの場合大規模なビデオライブラリを扱うため、効率的なインデックス作成と検索メカニズムが必要になります。効果的なビデオ検索のためには、大量のビデオデータと、関連情報を検索するために必要な遅延時間(レイテンシ)を処理できる、スケーラブルなアルゴリズムとインフラを開発することが極めて重要です。
ユースケース
ビデオ検索エンジンは、コンテンツベースの分析、オブジェクト検出、テキスト認識などのさまざまな技術を使用して、内容に基づいてビデオのインデックスを作成し検索します。ビデオ全体を視聴する必要がなくなるため、ビデオ検索は時間を節約し、ビデオ内の特定の情報や瞬間を見つける効率を向上させます。
ビデオ検索技術の実社会での例には、以下のようなものがあります:
YouTube:最大級のビデオ共有プラットフォームの1つとして、YouTubeは強力なビデオ検索エンジンを提供しています。ユーザーはキーワード、タイトル、または特定のカテゴリに基づいてビデオを検索できます。
専門的なアーカイブサイト:特定の種類のビデオに焦点を当てた、専用のビデオ検索エンジンがあります。例えば、NASAのアーカイブサイトなどです。これらのプラットフォームでは、ユーザーは特定のトピックやイベントに関連するビデオを検索できます。
企業向けビデオ検索ツール:組織は、社内のビデオライブラリにインデックスを付けて検索するために、ビデオ検索ツールを使用することがよくあります。これらのツールを使用すると、従業員は、トレーニング、ナレッジ共有、調査などのさまざまな目的で、ビデオ内の特定のビデオや瞬間を見つけることができます。
上で述べた従来のビデオ検索エンジンは、ビデオ検索へのアプローチにおいて限界があります。これらのエンジンは、ビデオのインデックス作成と検索のために、主にキーワードマッチングとメタデータ分析に依存しています。これらの技術はある程度効果的ですが、ビデオコンテンツのより包括的な理解を提供できるマルチモーダルな技術を活用していません。キーワードとメタデータのみに焦点を当てることで、これらの検索エンジンは、検索体験を大幅に向上させる可能性のあるビデオ内の重要な視覚的・聴覚的合図を見逃す可能性があります。
Twelve Labsのビデオ検索API
Twelve Labsのビデオ理解プラットフォームは、キーワード、メタデータ、または書き起こし(トランスクリプション)といった単一のデータタイプのみに依存する限界を超えたビデオ検索ソリューションを提供します。画像、音、話された言葉、画面上のテキストなど、利用可能なあらゆる形態の情報を同時に統合することにより、当社のソリューションはこれらの要素間の複雑な関係をとらえ、より人間に近い解釈を実現します。これは、ユニモーダル(単一のモダリティ)の手法では見落とされがちなより細かい詳細を検出するように設計されており、基本的なターゲットの特定を超えてビデオシーンのより深い理解を実現します。さらに、自然言語によるクエリに対応しているため、日頃の会話と同じくらい直感的に対話することができます。
当社の検索機能の詳細については、この2パートからなるチュートリアル(パート1およびパート2)をご覧ください。
2.3 - ビデオ分類

ビデオ分類(Video classification)は、あらかじめ定義されたクラスやトピックにビデオを自動的に分類することで、ビデオ理解を一歩進めます。ビデオ基盤モデルは、ビデオ内の意味的特徴、オブジェクト、およびアクティビティを分析することにより、ビデオをスポーツ、ニュース、エンターテインメント、またはドキュメンタリーに分類できます。これはコンテンツ作成者やビデオプラットフォームに利益をもたらすだけでなく、ユーザーの関心や好みに基づいてパーソナライズされた推奨(レコメンデーション)を提供することで、ユーザーエクスペリエンスを向上させます。
課題
実用のためのビデオ分類モデルを構築することには、いくつかの課題が伴います。第1に、ビデオ分類用のラベル付きデータセットを作成することは、多大な労力と時間がかかる場合があります。ビデオには、オブジェクト、シーン、アクションなど、分類タスクで正確にラベル付けする必要がある、さまざまな視覚的要素が含まれることがあります。これには、人間のアノテーター(ラベル付け作業者)がビデオをフレーム単位で注意深く視聴し分析して、適切なラベルを割り当てる必要があります。画像とは異なり、ビデオには時間的な次元があり、ビデオのコンテキストは時間とともに変化する可能性があります。アノテーターは、正しいラベルを割り当てるためにビデオシーケンス全体を考慮する必要があり、これがラベル付けプロセスを複雑にし、時間を増加させます。

ビデオ分類におけるもう1つの課題は、現在の技術が固定されたクラスの体系(タキソノミー)に依存していることであり、これは特定のユースケースやドメインに適応させることが難しい場合が多いという点です。例えば、YouTubeのようなプラットフォームのコンテンツ作成者は、所有するビデオをその内容をよりよく表す詳細なカテゴリに分類したいと考えるかもしれません。しかし、YouTubeが提供するデフォルドの15カテゴリでは、作成される多様なビデオを正確に分類するのに十分ではない可能性があります。この制限は、さまざまな業界やコンテンツ作成者の独自の要件により良く対応できる、より柔軟でカスタマイズ可能な分類システムの必要性を浮き彫りにしています。
ユースケース
ビデオ分類は、さまざまな業界で多様な用途に使用されています。
監視とセキュリティ:ビデオ分類は監視システムで使用され、ビデオ映像に記録された特定のアクションや行動を特定し分類します。これは、異常の検出、不審なアクティビティの認識、およびセキュリティ対策の強化に役立ちます。
コンテンツモデレーション(健全化):ビデオ分類は、コンテンツモデレーションにおいて、その内容に基づいてビデオを自動的に特定および分類するために活用できます。これにより、プラットフォームや組織はコミュニティガイドラインを適用し、不適切または有害なコンテンツを検出し、安全で良好なユーザーエクスペリエンスを保証することができます。
スポーツ分析:ビデオ分類は、スポーツにおいて選手のパフォーマンス分析に使用されます。ゲーム中の選手のさまざまなアクションや動きを特定し分類するのに役立ち、コーチやアナリストがトレーニングや戦略策定のための洞察を得ることを可能にします。
自動ビデオ編集:ビデオ分類は、システムがビデオ内のさまざまなシーンやイベントを自動的に特定してセグメント化する、自動ビデオ編集に活用できます。これにより、編集プロセスが簡素化され、コンテンツ作成者の時間が節約されます。
コンテキスト広告:ビデオ分類は、ビデオの内容を分析し、それらを関連性の高い広告と一致させることで、コンテキスト広告において重要な役割を果たすことができます。これにより、広告主はターゲットオーディエンスをより効果的にターゲットに設定し、ビデオコンテンツの関心やコンテキストに合ったパーソナライズされた広告を配信できるようになります。
Twelve Labsのビデオ分類API
歴史的に、ビデオ分類はあらかじめ定められたクラスのセットに制限されており、主にイベント、アクション、オブジェクト、および同様の属性の認識をターゲットとしていました。しかし、Twelve Labsのビデオ理解プラットフォームでは、モデルを再学習させることなく分類の基準をカスタマイズできるようになり、モデルトレーニングに伴う複雑さが解消されました。
当プラットフォームは、階層的な構造を使用してビデオを分類します:
クラスのグループが構造の最上位レベルを構成し、各グループは複数のクラスで構成されます。
クラスは組織の主要な単位として機能するもので、ビデオがこれらのクラスへと分類されます。
各クラスには、その特徴を定義する複数のプロンプトが含まれています。プロンプトは分類システムの構成要素として機能し、その内容に基づいてビデオを関連するクラスへ正確に振り分けることを可能にします。
当社の分類機能の詳細については、こちらのチュートリアルをご覧ください。
2.4 - ビデオクラスタリング
ビデオクラスタリングは、ラベル付きデータを使用せずに、内容の類似性に基づいてビデオをグループ化するタスクです。これには、ビデオ内の視覚的および時間的情報をとらえるビデオ埋め込みの抽出が含まれます。これらの埋め込みは、ビデオ間の類似性を測定し、それらをクラスターにグループ化するために使用されます。

これは、通常テキスト内の単語やフレーズの頻度に基づいて、文書が高次元ベクトルとして表現されるテキストクラスタリングと並行していると見なすことができます。どちらのタスクでも、目標は類似したコンテンツをグループ化し、データの分析、分類、および理解を容易にすることです。
課題
ビデオクラスタリングの実行には、いくつかの制限的技術課題があります。ビデオは複数のフレームを持つ高次元データであるため、クラスタリングプロセスにかかる計算コストが高くなります。各フレームから抽出される膨大な数の特徴量が、クラスタリングアルゴリズムの複雑さを増大させます。
さらに、ビデオデータに適したクラスタリング基準や類似性の尺度の決定は、主観的になることがあります。異なるクラスタリングアルゴリズムやパラメータ設定は異なる結果をもたらす可能性があるため、意味のあるクラスターを達成するには注意深い選択と評価が必要となります。
ユースケース
ビデオクラスタリングは、ビデオのトピックモデリングや自動ビデオカテゴリ化など、さまざまなアプリケーションの改善に役立ちます。
ビデオトピックモデリングでは、同様のトピックを持つビデオをクラスター化できるため、より効果的なビデオコンテンツ分析や、トレンドやパターンの特定が可能になります。これは、大量のビデオデータを迅速かつ正確に分析する必要があるソーシャルメディア分析などのアプリケーションで特に役立ちます。
自動ビデオカテゴリ化では、手動でのラベル付けを必要とせずに、内容の類似性に基づいてビデオをカテゴリへとクラスター化できます。これは、ビデオコンテンツベースの検索データベース、オンラインビデオのインデキシングとフィルタリング、ビデオのアーカイブなどのさまざまなアプリケーションで役立ちます。(注意:ビデオ対ビデオ検索(Video-to-Video Search)は、Twelve Labsの製品ロードマップに掲載されている機能であり、ビデオを自動的にカテゴリ化できるようになります。詳細については、support@twelvelabs.ioまでお問い合わせください)
ビデオコンテンツ推奨(レコメンデーション)では、ビデオクラスタリングにより、パーソナライズされたビデオ推奨の作成が可能になります。ベクトル空間において、ビデオ埋め込みをユーザーのメタデータや視聴履歴などの他のタイプのデータと組み合わせることで、高度にパーソナライズされた推奨情報を生成できます。このアプローチは、ユーザーが自分の関心や好みに合った、関連性のある魅力的なビデオを発見するのに役立ちます。
3 - ビデオ・言語(Video-Language)モデリング

3.1 - マルチモーダルLLMの台頭
マルチモーダル大規模言語モデル(LLM)研究の台頭は、テキスト、画像、音声、ビデオなどのさまざまなタイプのデータを同時に処理し理解する必要性によって推進されてきました。テキストデータで学習された従来のLLMは、マルチモーダルなタスクの処理に限界があります。一方で、マルチモーダルLLMは、同じメカニズムを使用してすべてのタイプのデータを処理できるため、より正確で文脈に即した出力をもたらします。これにより、複数のモダリティからの情報を取り入れた回答をモデルが生成できるため、AIアプリケーションの新しい可能性が開かれました。
ビデオ・言語モデリング(Video-language modeling)は、マルチモーダルLLMの特定のアプリケーションであり、ビデオコンテンツに対するテキストベースの要約、説明、または回答の理解と生成に焦点を当てています。この研究分野は、視覚的な理解とテキストによる理解との間のギャップを埋めることを目的としているため、包括的なビデオ理解に不可欠です。共通の埋め込み空間におけるテキストデータとビデオデータのこの統合により、モデルはより文脈に即した有益な出力を生成できるようになり、さまざまな下流(ダウンストリーム)のタスクにメリットをもたらします。
例えば、VideoBERTやLaViLaのようなモデルを使用してビデオの説明を自動生成し、アクセシビリティと検索性を向上させることができます。これらは、モデルがビデオコンテンツの簡潔なテキスト要約を生成する、ビデオ要約にも適用できます。さらに、Video-ChatGPTのようなモデルは、ビデオに関する人間に近い会話を生成することで、インタラクティブなメディア体験を強化できます。
3.2 - ビデオの説明と要約

ビデオ説明(Video description)は、自然言語で表現されたビデオの完全な説明、またはストーリーを作成するタスクです。これには、ビデオの複数の要素を分析し、ビデオコンテンツとコンテキストを正確にとらえるテキスト記述を生成することが含まれます。一方、ビデオ要約(Video summarization)は、ビデオコンテンツに基づいて簡潔なテキスト要約を生成するタスクです(その際、本質的な情報や重要な瞬間は維持されます)。長いビデオを、最も重要な内容をとらえた簡潔な表現に凝縮し、その表現に一致するテキスト記述を提供します。
ビデオの説明と要約は、ビデオの理解と興味を引きつける度合いの両方を向上させることができます。これらは、視聴者がビデオの内容をよりよく理解するのに役立ちます。特に、視覚障害やその他の障害によってビデオを見たり聞いたりするのが難しい視聴者にとって有用です。さらに、そうしなければ気づかなかったかもしれない追加の文脈や情報を提供することで、視聴者をビデオに惹きつけ続けるのにも役立ちます。

課題
ビデオには、多様なシーン、アクション、イベントが含まれる場合があるため、正確で包括的な説明や要約を生成することが困難になります。したがって、モデルはビデオ内の視覚情報とテキスト情報の間の複雑な関係をとらえなければなりません。
さらに、ビデオの説明と要約には、生成された説明や要約を対応するビデオセグメントに正確に整合させることが求められます。特にペースの速い、または複雑なビデオコンテンツを扱う場合、正確な時間的整合(Temporal Alignment)を達成することは課題です。アテンション(注意)メカニズムを取り入れ、マルチモーダルな情報を活用するモデルは、より正確な時間的整合を示すことが確認されています。
最後に、生成された説明や要約は、正確であるだけでなく、首尾一貫しており、ビデオコンテンツに文脈的に即したものでなければなりません。したがって、モデルは流暢で意味のある文章を生成すると同時に、ビデオの意味と文脈を効果的にとらえる必要があります。
ユースケース
ビデオの説明と要約は、さまざまな業界で多くの用途に使用されています。以下にいくつかの例を挙げます:
メディア・エンターテインメント業界では、映画、テレビ番組、およびその他のビデオコンテンツのプレビューや予告編を作成するために使用できます。これらのプレビューは、コンテンツの簡潔な概要を提供し、視聴者がビデオ全体を観るかどうかを決定するのに役立ちます。
Eコマース業界では、製品ビデオの簡潔な要約やハイライトを提供することで、ショッピング体験を向上させることができます。これにより、顧客はビデオ全体を視聴することなく、製品の主な特徴や利点をすぐに理解できます。
これらは教育・トレーニング部門でも、コンテンツの概要を提供するテキスト記述を伴うビデオ講義やチュートリアルの開発など、有益な用途があります。これにより、学生はビデオ内を移動し、学習目的に最も関連性の高いセクションをすぐに見つけることができます。
これらは、魅力的で有益なビデオコンテンツを作成するためのマーケティング・広告キャンペーンに活用できます。簡潔な説明や要約を提供することで、マーケターは視聴者の注意を引き、重要なメッセージを効果的に伝えることができます。
これらは、ソーシャルメディアプラットフォームやコンテンツ共有ウェブサイトに役立ちます。ユーザーがアップロードしたビデオのキャプションや説明を自動生成することにより、共有ビデオのプレビューやハイライトを自動生成するために使用でき、エンゲージメントとユーザーインタラクションを向上させます。
3.4 - ビデオ質問回答(Q&A)

出典:https://github.com/mbzuai-oryx/Video-ChatGPT
ビデオ質問回答(ビデオQA)は、視覚情報と言語情報(あるいは聴覚情報も含む)の意味論的な推論を通じて、ビデオに関連する質問に回答するタスクです。目標は、ビデオコンテンツに関する特定の質問に回答を提供することです。これにより、ビデオをより幅広いオーディエンス(異なる言語を話す人々を含む)にとってアクセスしやすいものにし、ユーザーがコンテンツと対話できるような双方向の要素を提供することができます。
課題
ビデオQAは、自然言語での複雑な質問に回答することを伴うタスクであり、ビデオコンテンツの深い理解を必要とします。これは、モデルが流暢で意味のある返答を生成する一方で、ビデオの意味論と文脈を効果的にとらえなければならないことを意味します。
正確な回答を生成するために、ビデオQAは視覚情報、音声情報、テキスト情報などの複数のモダリティの統合を必要とします。言い換えると、モデルはマルチモーダルな理解を備えている必要があります。
最後に、ビデオQAには、ビデオ内の異なるイベントやアクション間の時間的関係について推論する能力が必要です。したがって、モデルはビデオの時間的なダイナミクスを効果的にとらえ、異なるイベントやアクションの間の関係性を推論できる必要があります。
ユースケース
ビデオ質問回答は、さまざまな業界で多くの用途に使用されています:
カスタマーサポート:ビデオQAを使用して、ビデオチャットまたはメッセージングを通じてカスタマーサポートを提供できます。顧客が製品やサービスについて質問すると、システムはビデオの内容に基づいてテキストまたは音声による回答を生成できます。
教育コンテンツ:ビデオQAを使用して、インタラクティブな教育コンテンツを作成できます。学生がビデオ講義について質問すると、システムはビデオの内容に基づいてテキストまたは音声による回答を生成できます。
インタラクティブメディア:ビデオQAを使用して、ゲームや仮想現実(VR)環境などのインタラクティブなメディア体験を作成できます。ユーザーがビデオの内容について質問すると、システムは体験の結果に影響を与える回答を生成できます。
Twelve Labsは、ビデオのタイトル、要約、章立て、ハイライトなどの簡潔なテキスト表現を生成できる、新しいGenerate APIの開発に取り組んでいます。単一のモダリティのみの解釈に限定された従来のモデルとは異なり、Generate APIスイートは、視覚、音声、話された言葉、テキスト、およびそれら相互の関係を含むビデオのコンテキスト全体を分析するマルチモーダルLLMを使用しています。素晴らしいリリースを楽しみにお待ちください!
4 - まとめ
ビデオ理解は、マルチメディアコンテンツの時代において不可欠な研究分野となっています。ビデオデータの急速な成長に伴い、ビデオに含まれる膨大な量の情報を理解できるモデルと技術の開発がますます重要になっています。ここで見てきたように、ビデオ理解には、ビデオ検索、ビデオ分類、ビデオクラスタリング、ビデオの説明と要約、ビデオ質問回答など、多数のユースケースが存在します。これらのアプリケーションは、エンターテインメントから教育、カスタマーサポートに至るまで、さまざまな業界に革命をもたらす可能性を秘めています。
ビデオ基盤モデルとビデオ・言語モデルの開発は、ビデオ理解における重要な進歩への道を切り開きました。この分野が進化し続けるにつれて、モデル自体と、それが可能にするアプリケーションの両方において、さらなるイノベーションが期待されます。ビデオコンテンツを全体的に理解できるモデルを開発することで、ビデオデータをよりアクセスしやすく、検索しやすく、有益なものにできます。
Twelve Labsでは、マルチモーダルなビデオ理解のための基盤モデルを開発しています。私たちの目標は、最も先進的なビデオ理解インフラを使用して、開発者が私たちと同じように世界を見て、聞き、理解できるプログラムを構築できるように支援することです。詳細について関心をお持ちの場合は、ぜひhttps://playground.twelvelabs.io/でサインアップし、私たちのMultimodal Minds Discordコミュニティに参加して、マルチモーダルAIのあらゆることについてチャットしましょう!
今日のデジタル時代において、ビデオは私たちの生活に欠かせないものとなり、かつてないほど私たちの関心と想像力を惹きつけています。オンラインビデオコンテンツの爆発的な増加に伴い、ビデオを理解し分析することの必要性がますます重要になってきています。そこで登場したのが、ビデオに埋め込まれている豊富な視覚情報を解読するために、人工知能と機械学習の力を活用する魅力的な分野、ビデオ理解(video understanding)です。
前回の記事では、学術的な観点からビデオ理解の進化を振り返りました。この記事では、ビデオ理解を巡る魅力的なツアーに出発し、その多様なユースケースを探究していきます。
1 - 言語理解からビデオ理解へ
自然言語理解のための機械学習モデルの進化は、Transformer型アーキテクチャの導入のおかげで、近年著しい進歩を遂げました。オリジナルのアーキテクチャから、BERT(Bidirectional Encoder Representations from Transformers)やGPT(Generative Pre-trained Transformer)といった、さまざまなモデルが登場しました。

BERT型アーキテクチャは、埋め込み表現(Embedding)のユースケースに焦点を当てており、大規模な教師なしデータから文脈化された単語埋め込みを生成します。これらの埋め込みは、テキスト分類、感情分析、固有表現抽出など、さまざまなNLP(自然言語処理)タスクに使用できます。BERTの双方向の特性により、対象となる単語の左右両方向から文脈をとらえることができ、より正確で意味のある埋め込み表現が実現します。実社会におけるBERTの応用例としては、検索エンジンの検索結果の改善、チャットボットの理解力向上、コンテンツ推奨システムの最適化などが挙げられます。
その一方で、GPT型アーキテクチャは生成型(Generative)のユースケースを駆動します。これは、与えられた入力に基づいて、人間が書いたようなテキストを生成するものです。GPT-3のようなGPTモデルは、膨大なデータで学習されており、一貫性があり文脈に即したテキストを生成することができます。これらのモデルは、テキストの要約、質問への回答、ビジュアルの生成など、さまざまなタスクに使用できます。実社会におけるGPTの応用例としては、カスタマーサービス支援、コンテンツ生成、言語翻訳などが挙げられます。
ビデオ理解のためのモデルの進化は、言語理解と同様の軌跡をたどってきました。ビデオの埋め込み表現を活用するユースケースを駆動するために、ビデオ基盤モデル(Video foundation models)が登場しました。これらのモデルは、BERTやGPTのような言語領域の基盤モデルで採用されているのと同様の原則を用いて、ビデオデータから学習します。これらは、ビデオ検索、ビデオ分類、動作認識、時間的ローカライズ(Temporal Localization)など、さまざまなビデオ理解タスクのための埋め込み表現を生成できます。

ビデオ基盤モデルに加えて、ビデオからテキストへの生成を伴うユースケースを駆動する「ビデオ・言語モデル(video-language models)」も台頭しています。言語における対となるモデルと同様に、これらのモデルはビデオとテキスト記述の大規模なペアデータセットで学習されます。ビデオからテキストへの生成タスクには、ビデオのキャプション生成やビデオQ&A(質問回答)などがあり、ビデオ+テキスト、音声、あるいはオーディオといったマルチモーダルな入力に基づいて、適切なテキスト回答を出力することがモデルに求められます。ビデオ・言語モデルの開発は、コンピュータビジョンと自然言語処理の力を組み合わせて複雑な課題を解決する、ハイブリッドビジョン・言語モデルの成功に影響を受けています。
2 - ビデオ基盤モデル
2.1 - ビデオ埋め込みの魔法
ビデオ埋め込み(Video embeddings)とは、ビデオをより低次元のベクトル空間で表現したもので、各ビデオは数値ベクトルとして表されます。これらの埋め込み表現は、ビデオの意味的な内容や視覚的特徴をとらえるため、基盤モデルはビデオの内容を理解することができます。

ビデオ埋め込みの普及は、ベクトル埋め込みのマルチモーダルな進化に起因しています。従来、ベクトル埋め込みはテキスト、画像、音声データのみに焦点を当てていました。しかし、マルチメディアコンテンツの台頭とTransformer型アーキテクチャの多用途性により、共通の潜在空間の中で視覚情報、テキスト情報、聴覚情報をとらえることができる埋め込み表現の開発へとシフトしてきました。
マルチモーダル埋め込み(Multimodal embeddings)は、ビデオ内の異なるモダリティを組み合わせて、包括的な表現を作成します。これらの埋め込みは、視覚、テキスト、音声の手がかりを取り入れることで、ビデオコンテンツのより包括的な理解を提供します。その結果、ビデオ検索、分類、クラスタリングなど、さまざまな分野で幅広い用途に応用可能になります。
2.2 - ビデオ検索

ビデオ理解の最も魅力的な側面の1つは、ビデオを検索可能にし、その内容に基づいて分類できる能力です。膨大なコレクションの中から、その視覚的要素やキーワードを説明するだけで、特定のビデオを見つけられるところを想像してみてください。ビデオ検索は、ビデオの意味情報を分析するタスクであり、これにより特定のビデオコンテンツを効率的かつ正確に取得(検索)できるようになります。これは、ユーザーが膨大なビデオライブラリをナビゲートし、ビデオを視聴することなく探しているビデオを見つけるのを手助けする上で、極めて重要な役割を果たしています。
課題
実用のためのビデオ検索ソリューションを開発するには、いくつかの課題があります。第1に、ビデオは往々にして視覚情報と聴覚情報を併せ持っているため、検索プロセスがより複雑になります。さらに、ビデオの内部には固有の時間軸(Temporal Dimension)が存在します。視覚的要素と音声的要素の関係性が時間とともにどのように変化していくかが、ビデオであることの基盤となる豊かな文脈を生み出すのです。
ビデオ理解においては、モダリティが異なれば意味も異なる場合があり、モデルは各モダリティのニュアンスやコンテキストを考慮して全体的な意味を解釈する必要があります。例えば、ある人が笑っているものの悲しそうに見えたり、否定的なことを言っていたりする場合、モデルはその人の全体的な感情を正確に判断する必要があります。これには、視覚的な表情、身振り手振り、話された言葉、そしてビデオ全体のコンテキストを考慮し、異なるモダリティ間の微妙な合図と相互作用をとらえて分析することがモデルに求められます。このレベルの理解を達成することは、高度なマルチモーダル基盤モデルや、さまざまなデータソースを統合してビデオの豊かで多次元的な性質をとらえることを必要とする、複雑なタスクです。
第2に、ユーザーの意図を理解すること、および関連性の高い検索結果を提供することも、ビデオ検索におけるもう1つの課題です。正確でパーソナライズされたビデオ検索結果を届けるために、ユーザーのクエリ(検索指示)、好み、およびコンテキストを解釈するには、高度な推奨(レコメンデーション)および関連性ランキングのアルゴリズムが必要です。このタスクは、ユーザー生成コンテンツ、ゲーム、スポーツなど、異なるビデオドメインにおいてさらに難しくなり、各ドメインには独自の語彙、文脈、およびユーザーの行動パターンが存在します。ユーザーの期待に応える正確で最新の検索結果を保証するためには、常に変化するトレンドや好みを伴うこれらのドメインの動的な性質を特に考慮しながら、アルゴリズムを適切に適応させることが必要です。
最後に、実社会のビデオ検索アプリケーションは、多くの場合大規模なビデオライブラリを扱うため、効率的なインデックス作成と検索メカニズムが必要になります。効果的なビデオ検索のためには、大量のビデオデータと、関連情報を検索するために必要な遅延時間(レイテンシ)を処理できる、スケーラブルなアルゴリズムとインフラを開発することが極めて重要です。
ユースケース
ビデオ検索エンジンは、コンテンツベースの分析、オブジェクト検出、テキスト認識などのさまざまな技術を使用して、内容に基づいてビデオのインデックスを作成し検索します。ビデオ全体を視聴する必要がなくなるため、ビデオ検索は時間を節約し、ビデオ内の特定の情報や瞬間を見つける効率を向上させます。
ビデオ検索技術の実社会での例には、以下のようなものがあります:
YouTube:最大級のビデオ共有プラットフォームの1つとして、YouTubeは強力なビデオ検索エンジンを提供しています。ユーザーはキーワード、タイトル、または特定のカテゴリに基づいてビデオを検索できます。
専門的なアーカイブサイト:特定の種類のビデオに焦点を当てた、専用のビデオ検索エンジンがあります。例えば、NASAのアーカイブサイトなどです。これらのプラットフォームでは、ユーザーは特定のトピックやイベントに関連するビデオを検索できます。
企業向けビデオ検索ツール:組織は、社内のビデオライブラリにインデックスを付けて検索するために、ビデオ検索ツールを使用することがよくあります。これらのツールを使用すると、従業員は、トレーニング、ナレッジ共有、調査などのさまざまな目的で、ビデオ内の特定のビデオや瞬間を見つけることができます。
上で述べた従来のビデオ検索エンジンは、ビデオ検索へのアプローチにおいて限界があります。これらのエンジンは、ビデオのインデックス作成と検索のために、主にキーワードマッチングとメタデータ分析に依存しています。これらの技術はある程度効果的ですが、ビデオコンテンツのより包括的な理解を提供できるマルチモーダルな技術を活用していません。キーワードとメタデータのみに焦点を当てることで、これらの検索エンジンは、検索体験を大幅に向上させる可能性のあるビデオ内の重要な視覚的・聴覚的合図を見逃す可能性があります。
Twelve Labsのビデオ検索API
Twelve Labsのビデオ理解プラットフォームは、キーワード、メタデータ、または書き起こし(トランスクリプション)といった単一のデータタイプのみに依存する限界を超えたビデオ検索ソリューションを提供します。画像、音、話された言葉、画面上のテキストなど、利用可能なあらゆる形態の情報を同時に統合することにより、当社のソリューションはこれらの要素間の複雑な関係をとらえ、より人間に近い解釈を実現します。これは、ユニモーダル(単一のモダリティ)の手法では見落とされがちなより細かい詳細を検出するように設計されており、基本的なターゲットの特定を超えてビデオシーンのより深い理解を実現します。さらに、自然言語によるクエリに対応しているため、日頃の会話と同じくらい直感的に対話することができます。
当社の検索機能の詳細については、この2パートからなるチュートリアル(パート1およびパート2)をご覧ください。
2.3 - ビデオ分類

ビデオ分類(Video classification)は、あらかじめ定義されたクラスやトピックにビデオを自動的に分類することで、ビデオ理解を一歩進めます。ビデオ基盤モデルは、ビデオ内の意味的特徴、オブジェクト、およびアクティビティを分析することにより、ビデオをスポーツ、ニュース、エンターテインメント、またはドキュメンタリーに分類できます。これはコンテンツ作成者やビデオプラットフォームに利益をもたらすだけでなく、ユーザーの関心や好みに基づいてパーソナライズされた推奨(レコメンデーション)を提供することで、ユーザーエクスペリエンスを向上させます。
課題
実用のためのビデオ分類モデルを構築することには、いくつかの課題が伴います。第1に、ビデオ分類用のラベル付きデータセットを作成することは、多大な労力と時間がかかる場合があります。ビデオには、オブジェクト、シーン、アクションなど、分類タスクで正確にラベル付けする必要がある、さまざまな視覚的要素が含まれることがあります。これには、人間のアノテーター(ラベル付け作業者)がビデオをフレーム単位で注意深く視聴し分析して、適切なラベルを割り当てる必要があります。画像とは異なり、ビデオには時間的な次元があり、ビデオのコンテキストは時間とともに変化する可能性があります。アノテーターは、正しいラベルを割り当てるためにビデオシーケンス全体を考慮する必要があり、これがラベル付けプロセスを複雑にし、時間を増加させます。

ビデオ分類におけるもう1つの課題は、現在の技術が固定されたクラスの体系(タキソノミー)に依存していることであり、これは特定のユースケースやドメインに適応させることが難しい場合が多いという点です。例えば、YouTubeのようなプラットフォームのコンテンツ作成者は、所有するビデオをその内容をよりよく表す詳細なカテゴリに分類したいと考えるかもしれません。しかし、YouTubeが提供するデフォルドの15カテゴリでは、作成される多様なビデオを正確に分類するのに十分ではない可能性があります。この制限は、さまざまな業界やコンテンツ作成者の独自の要件により良く対応できる、より柔軟でカスタマイズ可能な分類システムの必要性を浮き彫りにしています。
ユースケース
ビデオ分類は、さまざまな業界で多様な用途に使用されています。
監視とセキュリティ:ビデオ分類は監視システムで使用され、ビデオ映像に記録された特定のアクションや行動を特定し分類します。これは、異常の検出、不審なアクティビティの認識、およびセキュリティ対策の強化に役立ちます。
コンテンツモデレーション(健全化):ビデオ分類は、コンテンツモデレーションにおいて、その内容に基づいてビデオを自動的に特定および分類するために活用できます。これにより、プラットフォームや組織はコミュニティガイドラインを適用し、不適切または有害なコンテンツを検出し、安全で良好なユーザーエクスペリエンスを保証することができます。
スポーツ分析:ビデオ分類は、スポーツにおいて選手のパフォーマンス分析に使用されます。ゲーム中の選手のさまざまなアクションや動きを特定し分類するのに役立ち、コーチやアナリストがトレーニングや戦略策定のための洞察を得ることを可能にします。
自動ビデオ編集:ビデオ分類は、システムがビデオ内のさまざまなシーンやイベントを自動的に特定してセグメント化する、自動ビデオ編集に活用できます。これにより、編集プロセスが簡素化され、コンテンツ作成者の時間が節約されます。
コンテキスト広告:ビデオ分類は、ビデオの内容を分析し、それらを関連性の高い広告と一致させることで、コンテキスト広告において重要な役割を果たすことができます。これにより、広告主はターゲットオーディエンスをより効果的にターゲットに設定し、ビデオコンテンツの関心やコンテキストに合ったパーソナライズされた広告を配信できるようになります。
Twelve Labsのビデオ分類API
歴史的に、ビデオ分類はあらかじめ定められたクラスのセットに制限されており、主にイベント、アクション、オブジェクト、および同様の属性の認識をターゲットとしていました。しかし、Twelve Labsのビデオ理解プラットフォームでは、モデルを再学習させることなく分類の基準をカスタマイズできるようになり、モデルトレーニングに伴う複雑さが解消されました。
当プラットフォームは、階層的な構造を使用してビデオを分類します:
クラスのグループが構造の最上位レベルを構成し、各グループは複数のクラスで構成されます。
クラスは組織の主要な単位として機能するもので、ビデオがこれらのクラスへと分類されます。
各クラスには、その特徴を定義する複数のプロンプトが含まれています。プロンプトは分類システムの構成要素として機能し、その内容に基づいてビデオを関連するクラスへ正確に振り分けることを可能にします。
当社の分類機能の詳細については、こちらのチュートリアルをご覧ください。
2.4 - ビデオクラスタリング
ビデオクラスタリングは、ラベル付きデータを使用せずに、内容の類似性に基づいてビデオをグループ化するタスクです。これには、ビデオ内の視覚的および時間的情報をとらえるビデオ埋め込みの抽出が含まれます。これらの埋め込みは、ビデオ間の類似性を測定し、それらをクラスターにグループ化するために使用されます。

これは、通常テキスト内の単語やフレーズの頻度に基づいて、文書が高次元ベクトルとして表現されるテキストクラスタリングと並行していると見なすことができます。どちらのタスクでも、目標は類似したコンテンツをグループ化し、データの分析、分類、および理解を容易にすることです。
課題
ビデオクラスタリングの実行には、いくつかの制限的技術課題があります。ビデオは複数のフレームを持つ高次元データであるため、クラスタリングプロセスにかかる計算コストが高くなります。各フレームから抽出される膨大な数の特徴量が、クラスタリングアルゴリズムの複雑さを増大させます。
さらに、ビデオデータに適したクラスタリング基準や類似性の尺度の決定は、主観的になることがあります。異なるクラスタリングアルゴリズムやパラメータ設定は異なる結果をもたらす可能性があるため、意味のあるクラスターを達成するには注意深い選択と評価が必要となります。
ユースケース
ビデオクラスタリングは、ビデオのトピックモデリングや自動ビデオカテゴリ化など、さまざまなアプリケーションの改善に役立ちます。
ビデオトピックモデリングでは、同様のトピックを持つビデオをクラスター化できるため、より効果的なビデオコンテンツ分析や、トレンドやパターンの特定が可能になります。これは、大量のビデオデータを迅速かつ正確に分析する必要があるソーシャルメディア分析などのアプリケーションで特に役立ちます。
自動ビデオカテゴリ化では、手動でのラベル付けを必要とせずに、内容の類似性に基づいてビデオをカテゴリへとクラスター化できます。これは、ビデオコンテンツベースの検索データベース、オンラインビデオのインデキシングとフィルタリング、ビデオのアーカイブなどのさまざまなアプリケーションで役立ちます。(注意:ビデオ対ビデオ検索(Video-to-Video Search)は、Twelve Labsの製品ロードマップに掲載されている機能であり、ビデオを自動的にカテゴリ化できるようになります。詳細については、support@twelvelabs.ioまでお問い合わせください)
ビデオコンテンツ推奨(レコメンデーション)では、ビデオクラスタリングにより、パーソナライズされたビデオ推奨の作成が可能になります。ベクトル空間において、ビデオ埋め込みをユーザーのメタデータや視聴履歴などの他のタイプのデータと組み合わせることで、高度にパーソナライズされた推奨情報を生成できます。このアプローチは、ユーザーが自分の関心や好みに合った、関連性のある魅力的なビデオを発見するのに役立ちます。
3 - ビデオ・言語(Video-Language)モデリング

3.1 - マルチモーダルLLMの台頭
マルチモーダル大規模言語モデル(LLM)研究の台頭は、テキスト、画像、音声、ビデオなどのさまざまなタイプのデータを同時に処理し理解する必要性によって推進されてきました。テキストデータで学習された従来のLLMは、マルチモーダルなタスクの処理に限界があります。一方で、マルチモーダルLLMは、同じメカニズムを使用してすべてのタイプのデータを処理できるため、より正確で文脈に即した出力をもたらします。これにより、複数のモダリティからの情報を取り入れた回答をモデルが生成できるため、AIアプリケーションの新しい可能性が開かれました。
ビデオ・言語モデリング(Video-language modeling)は、マルチモーダルLLMの特定のアプリケーションであり、ビデオコンテンツに対するテキストベースの要約、説明、または回答の理解と生成に焦点を当てています。この研究分野は、視覚的な理解とテキストによる理解との間のギャップを埋めることを目的としているため、包括的なビデオ理解に不可欠です。共通の埋め込み空間におけるテキストデータとビデオデータのこの統合により、モデルはより文脈に即した有益な出力を生成できるようになり、さまざまな下流(ダウンストリーム)のタスクにメリットをもたらします。
例えば、VideoBERTやLaViLaのようなモデルを使用してビデオの説明を自動生成し、アクセシビリティと検索性を向上させることができます。これらは、モデルがビデオコンテンツの簡潔なテキスト要約を生成する、ビデオ要約にも適用できます。さらに、Video-ChatGPTのようなモデルは、ビデオに関する人間に近い会話を生成することで、インタラクティブなメディア体験を強化できます。
3.2 - ビデオの説明と要約

ビデオ説明(Video description)は、自然言語で表現されたビデオの完全な説明、またはストーリーを作成するタスクです。これには、ビデオの複数の要素を分析し、ビデオコンテンツとコンテキストを正確にとらえるテキスト記述を生成することが含まれます。一方、ビデオ要約(Video summarization)は、ビデオコンテンツに基づいて簡潔なテキスト要約を生成するタスクです(その際、本質的な情報や重要な瞬間は維持されます)。長いビデオを、最も重要な内容をとらえた簡潔な表現に凝縮し、その表現に一致するテキスト記述を提供します。
ビデオの説明と要約は、ビデオの理解と興味を引きつける度合いの両方を向上させることができます。これらは、視聴者がビデオの内容をよりよく理解するのに役立ちます。特に、視覚障害やその他の障害によってビデオを見たり聞いたりするのが難しい視聴者にとって有用です。さらに、そうしなければ気づかなかったかもしれない追加の文脈や情報を提供することで、視聴者をビデオに惹きつけ続けるのにも役立ちます。

課題
ビデオには、多様なシーン、アクション、イベントが含まれる場合があるため、正確で包括的な説明や要約を生成することが困難になります。したがって、モデルはビデオ内の視覚情報とテキスト情報の間の複雑な関係をとらえなければなりません。
さらに、ビデオの説明と要約には、生成された説明や要約を対応するビデオセグメントに正確に整合させることが求められます。特にペースの速い、または複雑なビデオコンテンツを扱う場合、正確な時間的整合(Temporal Alignment)を達成することは課題です。アテンション(注意)メカニズムを取り入れ、マルチモーダルな情報を活用するモデルは、より正確な時間的整合を示すことが確認されています。
最後に、生成された説明や要約は、正確であるだけでなく、首尾一貫しており、ビデオコンテンツに文脈的に即したものでなければなりません。したがって、モデルは流暢で意味のある文章を生成すると同時に、ビデオの意味と文脈を効果的にとらえる必要があります。
ユースケース
ビデオの説明と要約は、さまざまな業界で多くの用途に使用されています。以下にいくつかの例を挙げます:
メディア・エンターテインメント業界では、映画、テレビ番組、およびその他のビデオコンテンツのプレビューや予告編を作成するために使用できます。これらのプレビューは、コンテンツの簡潔な概要を提供し、視聴者がビデオ全体を観るかどうかを決定するのに役立ちます。
Eコマース業界では、製品ビデオの簡潔な要約やハイライトを提供することで、ショッピング体験を向上させることができます。これにより、顧客はビデオ全体を視聴することなく、製品の主な特徴や利点をすぐに理解できます。
これらは教育・トレーニング部門でも、コンテンツの概要を提供するテキスト記述を伴うビデオ講義やチュートリアルの開発など、有益な用途があります。これにより、学生はビデオ内を移動し、学習目的に最も関連性の高いセクションをすぐに見つけることができます。
これらは、魅力的で有益なビデオコンテンツを作成するためのマーケティング・広告キャンペーンに活用できます。簡潔な説明や要約を提供することで、マーケターは視聴者の注意を引き、重要なメッセージを効果的に伝えることができます。
これらは、ソーシャルメディアプラットフォームやコンテンツ共有ウェブサイトに役立ちます。ユーザーがアップロードしたビデオのキャプションや説明を自動生成することにより、共有ビデオのプレビューやハイライトを自動生成するために使用でき、エンゲージメントとユーザーインタラクションを向上させます。
3.4 - ビデオ質問回答(Q&A)

出典:https://github.com/mbzuai-oryx/Video-ChatGPT
ビデオ質問回答(ビデオQA)は、視覚情報と言語情報(あるいは聴覚情報も含む)の意味論的な推論を通じて、ビデオに関連する質問に回答するタスクです。目標は、ビデオコンテンツに関する特定の質問に回答を提供することです。これにより、ビデオをより幅広いオーディエンス(異なる言語を話す人々を含む)にとってアクセスしやすいものにし、ユーザーがコンテンツと対話できるような双方向の要素を提供することができます。
課題
ビデオQAは、自然言語での複雑な質問に回答することを伴うタスクであり、ビデオコンテンツの深い理解を必要とします。これは、モデルが流暢で意味のある返答を生成する一方で、ビデオの意味論と文脈を効果的にとらえなければならないことを意味します。
正確な回答を生成するために、ビデオQAは視覚情報、音声情報、テキスト情報などの複数のモダリティの統合を必要とします。言い換えると、モデルはマルチモーダルな理解を備えている必要があります。
最後に、ビデオQAには、ビデオ内の異なるイベントやアクション間の時間的関係について推論する能力が必要です。したがって、モデルはビデオの時間的なダイナミクスを効果的にとらえ、異なるイベントやアクションの間の関係性を推論できる必要があります。
ユースケース
ビデオ質問回答は、さまざまな業界で多くの用途に使用されています:
カスタマーサポート:ビデオQAを使用して、ビデオチャットまたはメッセージングを通じてカスタマーサポートを提供できます。顧客が製品やサービスについて質問すると、システムはビデオの内容に基づいてテキストまたは音声による回答を生成できます。
教育コンテンツ:ビデオQAを使用して、インタラクティブな教育コンテンツを作成できます。学生がビデオ講義について質問すると、システムはビデオの内容に基づいてテキストまたは音声による回答を生成できます。
インタラクティブメディア:ビデオQAを使用して、ゲームや仮想現実(VR)環境などのインタラクティブなメディア体験を作成できます。ユーザーがビデオの内容について質問すると、システムは体験の結果に影響を与える回答を生成できます。
Twelve Labsは、ビデオのタイトル、要約、章立て、ハイライトなどの簡潔なテキスト表現を生成できる、新しいGenerate APIの開発に取り組んでいます。単一のモダリティのみの解釈に限定された従来のモデルとは異なり、Generate APIスイートは、視覚、音声、話された言葉、テキスト、およびそれら相互の関係を含むビデオのコンテキスト全体を分析するマルチモーダルLLMを使用しています。素晴らしいリリースを楽しみにお待ちください!
4 - まとめ
ビデオ理解は、マルチメディアコンテンツの時代において不可欠な研究分野となっています。ビデオデータの急速な成長に伴い、ビデオに含まれる膨大な量の情報を理解できるモデルと技術の開発がますます重要になっています。ここで見てきたように、ビデオ理解には、ビデオ検索、ビデオ分類、ビデオクラスタリング、ビデオの説明と要約、ビデオ質問回答など、多数のユースケースが存在します。これらのアプリケーションは、エンターテインメントから教育、カスタマーサポートに至るまで、さまざまな業界に革命をもたらす可能性を秘めています。
ビデオ基盤モデルとビデオ・言語モデルの開発は、ビデオ理解における重要な進歩への道を切り開きました。この分野が進化し続けるにつれて、モデル自体と、それが可能にするアプリケーションの両方において、さらなるイノベーションが期待されます。ビデオコンテンツを全体的に理解できるモデルを開発することで、ビデオデータをよりアクセスしやすく、検索しやすく、有益なものにできます。
Twelve Labsでは、マルチモーダルなビデオ理解のための基盤モデルを開発しています。私たちの目標は、最も先進的なビデオ理解インフラを使用して、開発者が私たちと同じように世界を見て、聞き、理解できるプログラムを構築できるように支援することです。詳細について関心をお持ちの場合は、ぜひhttps://playground.twelvelabs.io/でサインアップし、私たちのMultimodal Minds Discordコミュニティに参加して、マルチモーダルAIのあらゆることについてチャットしましょう!




