リサーチ

基盤モデルはマルチモーダル化しています

ジェームズ・リー

基盤モデルは、BERTやGPTのようなテキストのみのシステムから、言語、画像、動画を共に処理するマルチモーダルなアーキテクチャへと進化しました。この記事では、その移行がどのようにして起こったのか、なぜ動画理解が最も困難な未開拓領域であるのか、そしてそれが今後のAI開発の未来にとって何を意味するのかを詳しく解説します。

基盤モデルは、BERTやGPTのようなテキストのみのシステムから、言語、画像、動画を共に処理するマルチモーダルなアーキテクチャへと進化しました。この記事では、その移行がどのようにして起こったのか、なぜ動画理解が最も困難な未開拓領域であるのか、そしてそれが今後のAI開発の未来にとって何を意味するのかを詳しく解説します。

この記事の内容

No headings found on page

ニュースレターに登録する

ニュースレターに登録する

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

AIを活用してビデオを検索、分析、探索します。

2023/03/31

17分

記事へのリンクをコピー

BERTGPT-3CLIPCodexといった基盤モデル(Foundation Models)の成功により、視覚と言語のモダリティを組み合わせたモデルへの関心が高まっています。これらのハイブリッドな視覚言語モデルは、画像キャプション生成、画像生成、視覚的質問応答などの困難なタスクにおいて素晴らしい能力を示しています。最近では、基盤モデルの原理を用いてビデオデータから学習する、ビデオ基盤モデルという新たなパラダイムが登場しています。

このブログ記事では、基盤モデル、大規模言語モデルおよび視覚言語モデル、そしてビデオ基盤モデルの概要について説明します。基盤モデルのアーキテクチャ、そのトレーニングとファインチューニングのパラダイム、およびスケーリング則(Scaling Laws)について探ります。さらに、視覚言語モデルがどのようにコンピュータビジョンと自然言語処理の力を組み合わせ、複雑な問題の解決に使用されているかについて解説します。最後に、ビデオ基盤モデルと、それがビデオデータの理解と分析をどのように革新しているかについて考察します。

1. 基盤モデルへの緩やかな導入

基盤モデルとは、大規模な自己教師あり学習を用いて、幅広いデータから学習する機械学習モデルの一種です。そのアイデアは、多くの異なるタスクに使用できるモデルを作成することです。大量のデータでトレーニングすることにより、モデルはデータ内の一般的なパターンを学習できます。モデルが特定のタスクに使用されるとき、この知識を利用して迅速に適応することができます。

基盤モデルは、2012年以来普及している深層ニューラルネットワークと、ほぼ同じくらい前から存在する自己教師あり学習を使用しています。両分野における最近の進歩により、より大きく、より複雑なモデルの作成が可能になりました。これらのモデルは、明示的なラベルがないことが多い膨大なデータでトレーニングされます。

その結果、幅広いパターンや関係性を学習できるモデルが得られ、これは多くのタスクに活用できます。これにより、自然言語処理、コンピュータビジョン、マルチモーダルAIが大幅に向上しました。基盤モデルを使用すると、タスクごとに異なるモデルを作成するのではなく、多くのタスクに使用できる1つのモデルを作成できます。これにより、時間とリソースを節約し、多くの分野での進歩を加速させることができます。

転移学習(Transfer Learning)

従来の機械学習(ML)モデルは、ゼロから(それに近い状態で)トレーニングされ、良好なパフォーマンスを発揮するためにドメイン固有の大量のデータセットを必要とします。しかし、データの量が少ない場合は、転移学習のメリットを活用できます。転移学習のアイデアは、あるタスクから学習した「知識」を別のタスクに適用することで、ゼロからトレーニングするほど多くのデータを必要としないようにすることです。深層ニューラルネットワークでは、事前トレーニングが転移学習の支配的なアプローチです。オリジナルのタスク(例:道路上の車を検出する)でモデルをトレーニングし、関心のある別の下流タスク(例:黒いテスラ モデル3を検出する)に合わせてファインチューニングします。

私たちは2014年からコンピュータビジョンの分野でこれを行ってきました。通常は、ImageNetでモデルをトレーニングし、ほとんどのレイヤーを保持したまま、上位3つほどのレイヤーを新しく学習した重みに置き換えます。あるいは、モデルをエンドツーエンドでファインチューニングすることもできます。コンピュータビジョンタスク向けに最も人気のある事前トレーニング済みモデルには、AlexNetResNetMobileNetInceptionEfficientNetYOLOなどがあります。

自然言語処理(NLP)において、事前トレーニングは当初、最初のステップである単語埋め込み(Word Embeddings)のみに限定されていました。言語モデルへの入力は単語です。それらを(単語としてではなく)ベクトルとしてエンコードする1つの方法は、ワンホットエンコーディングによるものです。単語の巨大な行列が与えられた場合、埋め込み行列を作成し、各単語を実数値ベクトル空間に埋め込むことができます。この新しい行列は、数千倍規模の次元に削減されます。おそらく、それらの次元はいくつかの意味的概念に対応しています。

word2vec image

Word2Vecは、2013年にこのようなモデルをトレーニングしました。これは、頻繁に共起する単語を調べました。学習の目的は、それらの埋め込み間のコサイン類似度を最大化することでした。これらの埋め込みに対して、ベクトル演算のクールなデモを行うことができました。たとえば、「王(king)」「男(man)」「女(woman)」という単語を埋め込むと、ベクトル演算を行って、この埋め込み空間内で「女王(queen)」という単語に近いベクトルを得ることができます。

単語は文脈(コンテキスト)によって文中で異なる役割を果たす可能性があるため、単語を正しく埋め込むには、より多くの文脈を確認することが有用です。これを行うと、すべての下流タスクの精度が向上します。2018年には、ELMoULMFiTGPTを含むいくつかのモデルが、言語モデリングを事前トレーニングにどのように使用できるかを実証的に示しました。これら3つの手法は、事前トレーニング済みの言語モデルを採用して、テキスト分類、質問応答、自然言語推論、共参照解決、シーケンスラベル付けなど、NLPの多様なタスクにおいて最先端の結果を達成しました。

Transformers = 基盤モデルの基盤となるアーキテクチャ

Transformersのオリジナル版は、2017年の論文「Attention Is All You Need」で紹介されました。Transformersが登場する前、NLPの最先端技術は、LSTMや広く普及しているSeq2Seqアーキテクチャなどのリカレントニューラルネットワーク(RNN)に基づいており、これらはデータを逐次的(シーケンシャル)に、つまり単語が現れる順に1単語ずつ処理していました。

Transformersの革新性は、言語処理を並列化することにあります。これにより、特定のテキスト本体内のすべてのトークンを、順次ではなく同時に分析できます。Transformersはこの並列化をサポートするために、アテンション(Attention)と呼ばれるAIメカニズムに依存しています。アテンションにより、モデルはテキスト内で遠く離れていても単語間の関係を考慮し、一節の中でどの単語やフレーズに最も注意を払うべきかを決定することができます。

また、並列化により、TransformersはRNNよりも計算効率が大幅に向上し、より大きなデータセットでのトレーニングや、より多くのパラメータを備えた構築が可能になります。今日のTransformerモデルは、その巨大なサイズが特徴です。

Vision Transformers

畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンの分野で支配的なアーキテクチャでした。しかし、NLPにおけるTransformersの成功を受けて、研究者たちはこのアーキテクチャを画像データに適応させ始めました。「An Image is Worth 16 x 16 Words: Transformers For Image Recognition at Scale」という論文では、Transformerアーキテクチャのエンコーダーブロックを画像分類問題に適用する、Vision Transformer(ViT)アーキテクチャを紹介しています。

この研究の著者は、画像をパッチに分割し、これらのパッチの線形埋め込みシーケンスをTransformerへの入力として提供しました。NLP設定におけるトークンと同様に、これらの画像パッチは入力として扱われます。このアーキテクチャには、画像をパッチ化するステム、マルチレイヤーTransformerエンコーダーに基づくボディ、およびグローバル表現を出力ラベルに変換する多層パーセプトロン(MLP)ヘッドが含まれています。ViTは、事前トレーニングのコストを比較的低く抑えながら、多くの画像分類データセットで最先端の結果を達成または更新しています。

ViTは可能性を示しているものの、いくつかの問題もあります。1つの重要な問題は、高解像度の画像にうまく対応できないことです。なぜなら、画像サイズに伴って急速に増加する膨大な計算パワーを必要とするためです。さらに、ViTの固定スケールのトークンは、様々なサイズの視覚要素を伴うタスクには有用ではありません。

Transformerの変種

オリジナルのTransformerアーキテクチャに続いて研究開発が活発に行われ、そのほとんどは上記のような欠点に対処するために標準的なTransformerアーキテクチャを改良したものでした。

2021年、Microsoftの研究者たちは、あらゆるモダリティに適用できる汎用的なTransformerアーキテクチャであるSwin Transformerを発表しました。Swin Transformerは、階層型特徴マップ(Hierarchical feature maps)とシフトウィンドウアテンション(Shifted window attention)という2つの概念を導入しました。

1. このモデルは、高密度な予測のための高度な技術を可能にするために、階層型特徴マップを使用します。画像を分割する重複しないウィンドウ内でローカルにセルフアテンションを計算することにより、線形の計算複雑性を達成しています。これにより、Swin Transformerは様々なビジョンタスクの優れたバックボーンとなっています。
2. シフトウィンドウの使用は、先行するレイヤーのウィンドウを橋渡しすることで、モデリング能力を高めます。この戦略は、実世界のレイテンシ(遅延)の点でも効率的です。ウィンドウ内のすべてのクエリパッチが同じキーセットを共有するため、ハードウェアでのメモリアクセスが容易になります。

Perceiverは、同時期にDeepMindによって作成された別のTransformer変種であり、生物学的なシステムからインスピレーションを得ています。アテンションに基づく原理を使用して、画像、ビデオ、オーディオ、ポイントクラウドなど、様々なタイプの入力を処理します。また、ドメインに関する特定の仮定に依存することなく、複数タイプの入力の組み合わせを処理できます。

Perceiverアーキテクチャは、アテンションのボトルネックを形成する小さな潜在ユニット(Latent units)のセットを導入しています。これにより、総当たり(all-to-all)のアテンションの問題が解消され、非常に深いモデルが可能になります。先行するステップの情報に基づいて、最も関連性の高い入力に注意を向けます。しかし、マルチモーダルの文脈では、あるモダリティからの入力と別のモダリティからの入力を区別することが重要です。明示的な構造の欠如を補うために、著者らは、生物学的ニューラルネットワークで使用される「標識線」戦略と同様に、すべての入力要素に位置およびモダリティ固有の特徴を関連付けています。

2. 大規模言語モデル(Large Language Models)

オリジナルのTransformer論文に続いて、主要なAI研究者たちがこの基礎的な画期的成果を発展させることで、NLPドメインを皮切りに活発なイノベーションが起こりました。

GPTGPT-2はそれぞれ2018年と2019年に登場しました。その名前は「Generative Pre-trained Transformers(生成的な事前トレーニング済みTransformers)」を意味します。これらはデコーダーのみのモデル(decoder-only models)であり、マスクされたセルフアテンション(masked self-attention)を使用します。これは、出力シーケンスのある時点において、シーケンス内のその時点より前に現れた2つの入力シーケンスベクトルにのみ注意を向けることができることを意味します。GPTの埋め込みは分類にも使用できますが、GPTのアプローチは、chatGPTなど、今日の最もよく知られている大規模LLMの核心となっています。

これらのモデルは800万のウェブページでトレーニングされました。最大のモデルは15億のパラメータを持っています。GPT-2がトレーニングされたタスクは、ウェブ上のこれらのテキストすべてにおいて、次の単語を予測することです。彼らは、パラメータ数が増えるにつれて、これがますますうまく機能することを発見しました。

BERTは、Transformersの双方向エンコーダー表現(Bidirectional Encoder Representations for Transformers)として、ほぼ同時期に登場しました。1億1000万のパラメータを持つこれは、予測モデリングタスク向けに設計されたエンコーダーのみのTransformerであり、マスク付き言語モデリング(masked-language modeling)という独自の概念を導入しています。トレーニング中、BERTはシーケンス内のランダムな単語をマスクし、マスクされた単語が何であるかを予測しなければなりません。

T5 (Text-to-Text Transformer)は2020年に登場しました。インプットとアウトプットはいずれもテキスト文字列(Text strings)であるため、モデルが実行する想定のタスクを指定することができます。T5はエンコーダー・デコーダー型のアーキテクチャを持っています。これは、Wikipediaの100倍以上の規模を持つC4データセット(Colossal Clean Crawled Corpus)でトレーニングされました。約100億のパラメータを持っています。

基盤モデルのムーアの法則:スケーリング則

一般的に、スケーリング則(Scaling laws)は、計算バジェット(計算予算)を拡大し続ける(例:モデルを大きくする、またはデータを増やす)につれて、モデルの品質が向上し続けることを予測します。OpenAIは、2020年にTransformer言語モデルのスケーリング則を最初に調査し、スケーリング則が将来のパフォーマンスを予測できることを示しました。彼らの発見は、パフォーマンス ∝ データサイズ x パラメータサイズ x 計算量サイズであることを示しています。

より具体的には、実験により、テストの損失値(Test loss)が、トレーニングに使用されるモデルサイズ、データセットサイズ、および計算量に対して、7桁以上の大きさにわたるトレンドをカバーするべき乗則(Power law)に従うことが明らかになりました。これは、これらの変数間の関係が単純な方程式で説明できることを示唆しており、大規模言語モデルの最適なトレーニング構成を決定するために使用できます。さらに、実験では、ネットワークの幅や深さなどの他の建築的詳細は、広い範囲において影響が最小限であることが示されています。

実験と導出された方程式に基づいて、大容量モデルはサンプル効率が著しく高くなります。言い換えれば、最適な計算効率を達成するトレーニングには、比較的少ない量のデータで非常に大きなモデルをトレーニングし、収束するかなり前にトレーニングを停止することが含まれます。

スケーリング則の論文が発表されて以来、言語モデルの規模を拡大することへの関心が著しく高まりました。2020年における最先端モデルの1つがGPT-3でした。これは1750億のパラメータを持ち、GPT/GPT-2の100倍の大きさでした。そのサイズにより、GPT-3はFew-shot(少数の例示)学習やZero-shot(例示なし)学習において前例のない能力を示します。モデルに与える例が多いほど、そのパフォーマンスは向上しますそして、モデルが大きければ大きいほど、その実力はさらに向上します。

Googleは「Emergent Abilities of Large Language Models」という重要な論文を発表しました。この論文では、小規模なモデルには存在しないが、大規模なモデルに現れる「創発的能力(Emergent abilities)」について探求しています。この論文では、スケールの影響を分析した研究を検証し、様々な計算資源でトレーニングされた異なるサイズのモデルを比較しています。多くのタスクにおいて、モデルの挙動はスケールに伴って予測通りに成長するか、あるいは特定のスケール閾値(たとえば700億パラメータ以上)で、ランダムなパフォーマンスからランダムを超えるものへと予測不可能な形で急上昇します。

2022年、DeepMindは計算最適化されたモデルを作成するための「Chinchilla」スケーリング則を提案しました。これは、OpenAIが最初に提案したものよりも正確なスケーリング則の公式です。

  • 彼らは、7000万から160億のパラメータを持つ400以上の言語モデルを、50億から5000億のトークンでトレーニングしました。モデルパラメータ数から導かれる最適なデータ量を予測することで、モデルおよびトレーニングセットのサイズの公式を導き出しました。ほとんどの大規模言語モデルは「過小トレーニング(undertrained)」状態にあり、十分なデータを見ていないことを意味します。

  • これを検証するために、彼らは2800億のパラメータと3000億のトークンを持つ別の大型モデル、Gopherをトレーニングしました。Chinchillaを使用することで、彼らはパラメータ数を700億に減らす一方、データを4倍の1.4兆トークンに増やしました。パラメータ数が少ないにもかかわらず、ChinchillaはGopherのパフォーマンスを上回り、モデルサイズとトレーニングトークンが等しく重要であることを示唆しました。

スケーリング則のフォーマルおよび実証的な分析以来、さらに多くの言語モデル(LLM)がリリースされています。これらのモデルは、モデルサイズのスケーリング、スパースにアクティベートされたモジュールの使用、およびより多様なソースからの巨大なデータセットでのトレーニングにより、多くのタスクで最先端のFew-shot結果を達成しています。注目すべき例としては、Megatron-LM(83億パラメータ)、GLaM(640億パラメータ)、LaMDA(1370億パラメータ)、Megatron-Turing NLG(5300億パラメータ)、およびPaLM(5400億パラメータ)があります。

GoogleによるScaling Vision Transformersは、スケーリング則がNLPタスクだけでなく、CV(コンピュータビジョン)タスクにも適用されることを示しています。著者らは、500万から20億のパラメータを持つVision Transformerモデル、100万から30億のトレーニング画像を持つデータセット、および1 TPUv3コア日未満から10,000コア日を超える計算バジェットを用いて実験を行いました。彼らの発見は、総計算量とモデルサイズを同時にスケーリングすることが効果的であることを示しています。追加の計算量が利用可能である場合に、モデルのサイズを拡大することが最適です。さらに、十分なトレーニングデータを持つVision Transformerモデルはおおむねべき乗則に従い、より大きなモデルはFew-shot学習においてより良いパフォーマンスを発揮します。

最後に、LAION AIのチームは、CLIPモデルファミリーのスケーリング則の再現を試みました。この調査でも、スケール(モデル、データ、および確認されたサンプル数)と、ゼロショット分類、検索、フューショットおよびフルショットの線形プロービング、ファインチューニングを含む幅広い設定における下流タスクのパフォーマンスとの間に、べき乗則の関係があることを発見しました。

3. 大型視覚言語モデルの台頭

Vision Transformerアーキテクチャのおかげで、視覚と言語のモダリティを組み合わせたモデルへの関心が高まっています。これらのハイブリッドな視覚言語モデルは、画像キャプション生成、画像生成、視覚的質問応答などの挑戦的なタスクで印象的な能力を発揮しています。一般的に、これらは、画像エンコーダーテキストエンコーダー、そして2つのエンコーダーからの情報を融合する戦略という3つの主要要素で構成されています。過去2年間の視覚言語モデル研究において、最もよく知られているモデルのいくつかを見てみましょう。

2021年、OpenAIはCLIP (Contrastive Language–Image Pre-training)を発表しました。CLIPへの入力は、インターネットから収集された4億組の画像とテキストペアです。テキストをTransformersを用いてエンコードし、画像をVision Transformersを用いてエンコードし、そしてコントラスティブ学習(対照学習)を適用してモデルをトレーニングします。コントラスティブトレーニングは、コサイン類似度を使用して正しい画像とテキストのペアを一致させます。

この強力なトレーニング済みモデルを使用すると、未確認のデータであっても、埋め込みを用いて画像とテキストをマッピングできます。これを行うには2つの方法があります。1つの方法は、推論を実行した後にCLIPが出力する特徴量の上に、シンプルなロジスティック回帰モデルをトレーニングする「線形プローブ(Linear probe)」を使用することです。あるいは、すべてのテキストラベルをエンコードしてそれらをエンコードされた画像と比較する「ゼロショット(Zero-shot)」技術を使用することもできます。線形プローブのアプローチの方がわずかに優れています。

明確にしておくと、CLIPは画像からテキスト、またはその逆へと直接変換するわけではありません。埋め込み(Embeddings)を使用します。しかし、この埋め込み空間は、モダリティを横断した検索を実行する上で非常に便利です。

CoCa(Contrastive Captionerの略)は、コントラスティブ学習(CLIP)と生成学習(SimVLM)を組み合わせた、Googleによるもう1つの基盤モデルです。コントラスティブ(対照)損失とキャプショニング損失の両方で修正・トレーニングされたエンコーダー・デコーダー構造を採用しています。これにより、単一モダリティ(unimodal)の画像およびテキストの埋め込みからグローバルな表現を学習できるだけでなく、マルチモーダルデコーダーからきめ細かな領域レベルの特徴も学習できます。

2022年後半、DeepMindはFlamingoと呼ばれる視覚言語モデル(Visual Language Models)のグループを作成しました。これらのモデルは、わずかなインプットとアウトプットの例を示すだけで、多種多様なタスクを実行できます。それらは、視覚的なシーンを理解できるビジョンモデルと、推論を支援する言語モデルという2つの部分で構成されています。モデルは、事前トレーニングの知識を利用して連携します。また、多くの視覚的入力特徴を分析して少数の視覚トークンを生成できるPerceiverアーキテクチャ(Transformersの変種のセクションで解説)のおかげで、Flamingoモデルは高品質な画像やビデオを取り込むことも可能です。

これらの新しいアーキテクチャの革新のおかげで、Flamingoモデルは、視覚と言語のための強力な事前トレーニング済みモデルを接続し、ビジュアルとテキストデータが混合したシーケンスを処理し、画像やビデオを入力として容易に使用することができます。800億のパラメータを持つ最大バージョンのFlamingo-80Bは、言語、画像、およびビデオの理解を伴う多くのタスクのFew-shot学習において、新たな記録を樹立しました。

Microsoft、Google、およびOpenAIは、ここ数週間の間に各自の大型視覚言語モデルをリリースし、これによりマルチモーダルAIへのトレンドをさらに推進しています。

  • Microsoftは、様々なモダリティを認識し、文脈を学習し、指示に従うことができるマルチモーダル言語モデル、Kosmos-1をリリースしました。このモデルは、それ以前のコンテキストに基づいてテキストを生成し、Transformerベースの因果関係(causal)言語モデルを使用して、テキストやその他のモダリティを処理します。多種多様なデータを用いてトレーニングされており、言語の理解と作成、画像の認識、および画像に基づく質問への回答を含む、様々なシナリオにおいて優れた性能を発揮しています。

  • GoogleのPaLM-Eは、インターネット規模の言語、ビジョン、および視覚言語ドメインを含む、様々な情報源からの観察および様々な形態(embodiments)に基づいて、多様な推論タスクを処理できる具体化された(embodied)マルチモーダル言語モデルです。最大のPaLM-EモデルであるPaLM-E-562Bは5620億のパラメータを持ち、事前トレーニングなしで異なる事柄について推論できます。たとえば、画像に基づいてジョークを言ったり、認識、対話、計画などのロボットタスクを実行したりできます。

  • 最後に、OpenAIのGPT-4は、画像とテキスト入力を処理し、テキスト出力を生成できる大規模マルチモーダルモデルです。模擬司法試験で上位10%、生物学オリンピック(画像あり)で上位1%の成績を収めました。

4. ビデオ基盤モデルの新たなパラダイム

ビデオ理解における課題

私たちの社会において、ビデオ理解タスクの重要性はますます高まっています。ソーシャルメディアプラットフォーム上での動画コンテンツの増加や、公共スペースでの監視カメラの使用増加に伴い、自動化されたビデオ理解システムへの需要が高まっています。しかし、この問題が重要であるにもかかわらず、テキストや画像の理解タスクに比べて、受けてきた注目は比較的少ないものでした。

ビデオ処理がテキストや画像の処理ほど注目されてこなかった理由の1つは、それに伴う非常に高い計算負荷にあります。ビデオはテキストや画像に比べてサイズがはるかに大きく、分析には大幅に多くの処理能力が必要です。この問題は、トークンの長さに対して2乗(二次関数的)の複雑さを持つTransformerアーキテクチャでは、さらに顕著になります。

例として、通常1秒あたり30フレーム(画像)を持つ10分間の動画を想定してみましょう。これは、そのビデオに10 * 3600 * 30枚、つまり1,080,000枚(約100万枚)の画像が含まれていることを意味します。Transformerの2乗の複雑さを考慮すると、必要となる総計算量は100万の2乗(1e12)になります。

さらに、ビデオ理解は、時系列モデリング(Temporal modeling)というユニークな課題をもたらします。テキストや画像とは異なり、ビデオには分析の際に考慮しなければならない「時間」の次元が含まれています。これには、他のモダリティでは一般的に使用されない、専用の技術やモデルが必要となります。

最後に、ビデオクリップに表示される視覚情報に加えて、追加の処理を必要とする同期された音声キュー(オーディオの手がかり)があります。これらの音声キューには、ビデオ内で発生する音や会話が含まれ、視聴者に追加のコンテキストや情報を提供します。これらの音声キューは、ビデオに示される視覚情報と「同じくらい重要」であることが多く、見過ごされるべきではないことに留意することが重要です。したがって、これらの音声キューの処理はビデオ分析の極めて重要な側面であり、視覚分析と同レベルの注意を払う必要があります。

いくつかの課題はあるものの、ビデオ理解の研究は着実に進歩しています。視覚言語モデルが効果的であり、マルチモーダルのトレンドが出現しているため、この問題に対処するためにいくつかの言語・視覚基盤モデルが提案されています。活発な研究コミュニティがこのテーマに取り組んでいます。しかし、現実世界のアプリケーションで十分に機能する堅牢で信頼性の高いビデオ理解システムを開発するには、まださらなる取り組みが必要です。

新興の大規模ビデオモデル

2019年、Googleはビデオに自己教師あり学習を適用したVideoBERTを発表しました。これは、音声自動認識、時空間的視覚特徴のためのベクトル量子化、およびトークンシーケンス用のBERTモデルという、3つの既存の手法を使用していました。これらが連携して、視覚ドメインと文脈ドメインの関係性をモデル化しました。ビデオでBERTを機能させるために、著者らはベクトル量子化を使用して生のビデオデータを「視覚的単語」に変換しました。これにより、モデルはビデオの重要な部分と、それらが時間とともにどのように変化するかに焦点を当てることができます。VideoBERTは、ビデオキャプション生成テストにおいて他のモデルを凌駕しました。

All-In-One」は事前トレーニング向けに設計されたビデオ言語モデルであり、統合されたバックボーンアーキテクチャにおいて、生の視覚・テキストシグナルからビデオ言語の表現を捉えます。追加のパラメータを投入したり時間的複雑性を増大させたりすることなく、疎にサンプリングされたフレームの時系列表現を捉えるために、時系列トークンローリング操作(temporal token rolling operation)を使用します。このモデルは、ビデオ質問応答、テキストからビデオへの検索、複数選択、および視覚的常識推論という4つの下流のビデオ言語タスクにおいて、優れたパフォーマンスを発揮します。

ビデオ認識(Video recognition)には、ビデオ内のオブジェクト、アクション、およびイベントの特定および分類が含まれます。これには、セキュリティシステム、自動運転車、エンターテインメント業界など、多くの実用的なアプリケーションがあります。そのため、これは進化し続けている研究分野であり、新しい開発が定期的に行われています。

Video MAEは、ビデオ認識に向けてバニラ(標準的)なVision Transformerの可能性を引き出す、自己教師ありビデオ事前トレーニング手法です。これはランダムなチューブ(時空間ブロック)をマスクし、欠損した部分を非対称エンコーダー・デコーダー構造で再構築します。著者らは、より代表的な特徴を学習するようにVideoMAEを動機付ける2つの重要な設計(極端に高いマスク比率とチューブマスキング戦略)を導入し、これにより時間的な冗長性と相関に関する課題に対処しました。

Web上の大量の画像・テキストデータを使用して視覚言語を表現することをCLIPが学習するのと同じように、自然言語による教師あり学習を使用することで、素晴らしいビデオ認識方法を学ぶことができます。モデルを事前トレーニングすれば、モデルが学習した視覚的概念を指し示すために自然言語を使用できるため、追加のトレーニングをほとんど、あるいはまったく行うことなく、モデルを他のタスクに簡単に移行できます。

MicrosoftのX-Clipフレームワークは、言語イメージモデルを一般的なビデオ認識に適応させます。これは、クロスフレーム通信Transformerと、マルチフレーム統合Transformerという2つのコンポーネントで構成されています。前者はフレーム間メッセージトークンを使用して情報を交換することを可能にし、後者はフレームレベルの表現をビデオレベルへと転送します。X-CLIPは、ビデオ固有の提示スキームを通じてテキストプロンプトを強化するために、ビデオコンテンツ情報を使用します。完全教師あり、ゼロショット、およびフューショット実験において、X-CLIPは限定されたラベル付きデータにもかかわらず、優れたパフォーマンスを発揮します。

言語や画像の基盤モデルと比較して、現在のビデオ基盤モデルはビデオおよびビデオ言語タスクのサポートが限られています。しかし、InternVideoと呼ばれる新しい研究は、マスクされたビデオモデリングとマルチモーダルなコントラスティブ(対照)学習という、2つの一般的な自己教師あり学習パラダイムを組み合わせています。これら2つのTransformersから新しい特徴を導き出すために学習可能な相互作用を使用し、生成学習とコントラスティブ学習の両方の利点を組み合わせています。

InternVideoは、アクション理解、ビデオ言語アライメント、およびオープンワールドビデオアプリケーションにおけるタスクを含む、ビデオ理解のベンチマークにおいて他のモデルを圧倒しました。これらのタスクは、汎用的なビデオ認識の核心となる能力を表しています。

結論

あなたが準備できているかどうかにかかわらず、基盤モデルはマルチモーダル化しつつあります。基盤モデルはやがてすべてのAI搭載ソフトウェアの基礎として機能するようになるため、開発者は事前トレーニング済みの基盤モデルから始めて、それを狭い範囲のタスクにファインチューニングするケースがますます増えるでしょう。しかし、これらのモデルにとって最も困難な状況は、これまでに見たことのない「ロングテール(滅多に発生しない)」イベントです。これらのロングテールイベントは、マルチモーダルの設定下では解決が一段と複雑になります。

Twelve Labsでは、ロングテールのマルチモーダルビデオ理解のための基盤モデルを構築しています。私たちのビジョンは、最も強力なビデオ理解インフラを提供することで、開発者が私たちのように世界を見て、聴いて、理解できるプログラムを構築できるように支援することです。マルチモーダルな大規模ニューラルネットワークについてはさらに多くのアイデアがありますが、この記事はすでにかなり長くなってしまいました。これについて語り合うことに興味がある方は、ぜひベータユーザーとしてご登録ください!さらに、私たちのDiscordコミュニティに参加して、マルチモーダルAIにまつわるすべてのことについて話し合いましょう!

この膨大な記事の情報提供および様々な草案の校正をしてくれたAiden Leeに感謝します。

BERTGPT-3CLIPCodexといった基盤モデル(Foundation Models)の成功により、視覚と言語のモダリティを組み合わせたモデルへの関心が高まっています。これらのハイブリッドな視覚言語モデルは、画像キャプション生成、画像生成、視覚的質問応答などの困難なタスクにおいて素晴らしい能力を示しています。最近では、基盤モデルの原理を用いてビデオデータから学習する、ビデオ基盤モデルという新たなパラダイムが登場しています。

このブログ記事では、基盤モデル、大規模言語モデルおよび視覚言語モデル、そしてビデオ基盤モデルの概要について説明します。基盤モデルのアーキテクチャ、そのトレーニングとファインチューニングのパラダイム、およびスケーリング則(Scaling Laws)について探ります。さらに、視覚言語モデルがどのようにコンピュータビジョンと自然言語処理の力を組み合わせ、複雑な問題の解決に使用されているかについて解説します。最後に、ビデオ基盤モデルと、それがビデオデータの理解と分析をどのように革新しているかについて考察します。

1. 基盤モデルへの緩やかな導入

基盤モデルとは、大規模な自己教師あり学習を用いて、幅広いデータから学習する機械学習モデルの一種です。そのアイデアは、多くの異なるタスクに使用できるモデルを作成することです。大量のデータでトレーニングすることにより、モデルはデータ内の一般的なパターンを学習できます。モデルが特定のタスクに使用されるとき、この知識を利用して迅速に適応することができます。

基盤モデルは、2012年以来普及している深層ニューラルネットワークと、ほぼ同じくらい前から存在する自己教師あり学習を使用しています。両分野における最近の進歩により、より大きく、より複雑なモデルの作成が可能になりました。これらのモデルは、明示的なラベルがないことが多い膨大なデータでトレーニングされます。

その結果、幅広いパターンや関係性を学習できるモデルが得られ、これは多くのタスクに活用できます。これにより、自然言語処理、コンピュータビジョン、マルチモーダルAIが大幅に向上しました。基盤モデルを使用すると、タスクごとに異なるモデルを作成するのではなく、多くのタスクに使用できる1つのモデルを作成できます。これにより、時間とリソースを節約し、多くの分野での進歩を加速させることができます。

転移学習(Transfer Learning)

従来の機械学習(ML)モデルは、ゼロから(それに近い状態で)トレーニングされ、良好なパフォーマンスを発揮するためにドメイン固有の大量のデータセットを必要とします。しかし、データの量が少ない場合は、転移学習のメリットを活用できます。転移学習のアイデアは、あるタスクから学習した「知識」を別のタスクに適用することで、ゼロからトレーニングするほど多くのデータを必要としないようにすることです。深層ニューラルネットワークでは、事前トレーニングが転移学習の支配的なアプローチです。オリジナルのタスク(例:道路上の車を検出する)でモデルをトレーニングし、関心のある別の下流タスク(例:黒いテスラ モデル3を検出する)に合わせてファインチューニングします。

私たちは2014年からコンピュータビジョンの分野でこれを行ってきました。通常は、ImageNetでモデルをトレーニングし、ほとんどのレイヤーを保持したまま、上位3つほどのレイヤーを新しく学習した重みに置き換えます。あるいは、モデルをエンドツーエンドでファインチューニングすることもできます。コンピュータビジョンタスク向けに最も人気のある事前トレーニング済みモデルには、AlexNetResNetMobileNetInceptionEfficientNetYOLOなどがあります。

自然言語処理(NLP)において、事前トレーニングは当初、最初のステップである単語埋め込み(Word Embeddings)のみに限定されていました。言語モデルへの入力は単語です。それらを(単語としてではなく)ベクトルとしてエンコードする1つの方法は、ワンホットエンコーディングによるものです。単語の巨大な行列が与えられた場合、埋め込み行列を作成し、各単語を実数値ベクトル空間に埋め込むことができます。この新しい行列は、数千倍規模の次元に削減されます。おそらく、それらの次元はいくつかの意味的概念に対応しています。

word2vec image

Word2Vecは、2013年にこのようなモデルをトレーニングしました。これは、頻繁に共起する単語を調べました。学習の目的は、それらの埋め込み間のコサイン類似度を最大化することでした。これらの埋め込みに対して、ベクトル演算のクールなデモを行うことができました。たとえば、「王(king)」「男(man)」「女(woman)」という単語を埋め込むと、ベクトル演算を行って、この埋め込み空間内で「女王(queen)」という単語に近いベクトルを得ることができます。

単語は文脈(コンテキスト)によって文中で異なる役割を果たす可能性があるため、単語を正しく埋め込むには、より多くの文脈を確認することが有用です。これを行うと、すべての下流タスクの精度が向上します。2018年には、ELMoULMFiTGPTを含むいくつかのモデルが、言語モデリングを事前トレーニングにどのように使用できるかを実証的に示しました。これら3つの手法は、事前トレーニング済みの言語モデルを採用して、テキスト分類、質問応答、自然言語推論、共参照解決、シーケンスラベル付けなど、NLPの多様なタスクにおいて最先端の結果を達成しました。

Transformers = 基盤モデルの基盤となるアーキテクチャ

Transformersのオリジナル版は、2017年の論文「Attention Is All You Need」で紹介されました。Transformersが登場する前、NLPの最先端技術は、LSTMや広く普及しているSeq2Seqアーキテクチャなどのリカレントニューラルネットワーク(RNN)に基づいており、これらはデータを逐次的(シーケンシャル)に、つまり単語が現れる順に1単語ずつ処理していました。

Transformersの革新性は、言語処理を並列化することにあります。これにより、特定のテキスト本体内のすべてのトークンを、順次ではなく同時に分析できます。Transformersはこの並列化をサポートするために、アテンション(Attention)と呼ばれるAIメカニズムに依存しています。アテンションにより、モデルはテキスト内で遠く離れていても単語間の関係を考慮し、一節の中でどの単語やフレーズに最も注意を払うべきかを決定することができます。

また、並列化により、TransformersはRNNよりも計算効率が大幅に向上し、より大きなデータセットでのトレーニングや、より多くのパラメータを備えた構築が可能になります。今日のTransformerモデルは、その巨大なサイズが特徴です。

Vision Transformers

畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンの分野で支配的なアーキテクチャでした。しかし、NLPにおけるTransformersの成功を受けて、研究者たちはこのアーキテクチャを画像データに適応させ始めました。「An Image is Worth 16 x 16 Words: Transformers For Image Recognition at Scale」という論文では、Transformerアーキテクチャのエンコーダーブロックを画像分類問題に適用する、Vision Transformer(ViT)アーキテクチャを紹介しています。

この研究の著者は、画像をパッチに分割し、これらのパッチの線形埋め込みシーケンスをTransformerへの入力として提供しました。NLP設定におけるトークンと同様に、これらの画像パッチは入力として扱われます。このアーキテクチャには、画像をパッチ化するステム、マルチレイヤーTransformerエンコーダーに基づくボディ、およびグローバル表現を出力ラベルに変換する多層パーセプトロン(MLP)ヘッドが含まれています。ViTは、事前トレーニングのコストを比較的低く抑えながら、多くの画像分類データセットで最先端の結果を達成または更新しています。

ViTは可能性を示しているものの、いくつかの問題もあります。1つの重要な問題は、高解像度の画像にうまく対応できないことです。なぜなら、画像サイズに伴って急速に増加する膨大な計算パワーを必要とするためです。さらに、ViTの固定スケールのトークンは、様々なサイズの視覚要素を伴うタスクには有用ではありません。

Transformerの変種

オリジナルのTransformerアーキテクチャに続いて研究開発が活発に行われ、そのほとんどは上記のような欠点に対処するために標準的なTransformerアーキテクチャを改良したものでした。

2021年、Microsoftの研究者たちは、あらゆるモダリティに適用できる汎用的なTransformerアーキテクチャであるSwin Transformerを発表しました。Swin Transformerは、階層型特徴マップ(Hierarchical feature maps)とシフトウィンドウアテンション(Shifted window attention)という2つの概念を導入しました。

1. このモデルは、高密度な予測のための高度な技術を可能にするために、階層型特徴マップを使用します。画像を分割する重複しないウィンドウ内でローカルにセルフアテンションを計算することにより、線形の計算複雑性を達成しています。これにより、Swin Transformerは様々なビジョンタスクの優れたバックボーンとなっています。
2. シフトウィンドウの使用は、先行するレイヤーのウィンドウを橋渡しすることで、モデリング能力を高めます。この戦略は、実世界のレイテンシ(遅延)の点でも効率的です。ウィンドウ内のすべてのクエリパッチが同じキーセットを共有するため、ハードウェアでのメモリアクセスが容易になります。

Perceiverは、同時期にDeepMindによって作成された別のTransformer変種であり、生物学的なシステムからインスピレーションを得ています。アテンションに基づく原理を使用して、画像、ビデオ、オーディオ、ポイントクラウドなど、様々なタイプの入力を処理します。また、ドメインに関する特定の仮定に依存することなく、複数タイプの入力の組み合わせを処理できます。

Perceiverアーキテクチャは、アテンションのボトルネックを形成する小さな潜在ユニット(Latent units)のセットを導入しています。これにより、総当たり(all-to-all)のアテンションの問題が解消され、非常に深いモデルが可能になります。先行するステップの情報に基づいて、最も関連性の高い入力に注意を向けます。しかし、マルチモーダルの文脈では、あるモダリティからの入力と別のモダリティからの入力を区別することが重要です。明示的な構造の欠如を補うために、著者らは、生物学的ニューラルネットワークで使用される「標識線」戦略と同様に、すべての入力要素に位置およびモダリティ固有の特徴を関連付けています。

2. 大規模言語モデル(Large Language Models)

オリジナルのTransformer論文に続いて、主要なAI研究者たちがこの基礎的な画期的成果を発展させることで、NLPドメインを皮切りに活発なイノベーションが起こりました。

GPTGPT-2はそれぞれ2018年と2019年に登場しました。その名前は「Generative Pre-trained Transformers(生成的な事前トレーニング済みTransformers)」を意味します。これらはデコーダーのみのモデル(decoder-only models)であり、マスクされたセルフアテンション(masked self-attention)を使用します。これは、出力シーケンスのある時点において、シーケンス内のその時点より前に現れた2つの入力シーケンスベクトルにのみ注意を向けることができることを意味します。GPTの埋め込みは分類にも使用できますが、GPTのアプローチは、chatGPTなど、今日の最もよく知られている大規模LLMの核心となっています。

これらのモデルは800万のウェブページでトレーニングされました。最大のモデルは15億のパラメータを持っています。GPT-2がトレーニングされたタスクは、ウェブ上のこれらのテキストすべてにおいて、次の単語を予測することです。彼らは、パラメータ数が増えるにつれて、これがますますうまく機能することを発見しました。

BERTは、Transformersの双方向エンコーダー表現(Bidirectional Encoder Representations for Transformers)として、ほぼ同時期に登場しました。1億1000万のパラメータを持つこれは、予測モデリングタスク向けに設計されたエンコーダーのみのTransformerであり、マスク付き言語モデリング(masked-language modeling)という独自の概念を導入しています。トレーニング中、BERTはシーケンス内のランダムな単語をマスクし、マスクされた単語が何であるかを予測しなければなりません。

T5 (Text-to-Text Transformer)は2020年に登場しました。インプットとアウトプットはいずれもテキスト文字列(Text strings)であるため、モデルが実行する想定のタスクを指定することができます。T5はエンコーダー・デコーダー型のアーキテクチャを持っています。これは、Wikipediaの100倍以上の規模を持つC4データセット(Colossal Clean Crawled Corpus)でトレーニングされました。約100億のパラメータを持っています。

基盤モデルのムーアの法則:スケーリング則

一般的に、スケーリング則(Scaling laws)は、計算バジェット(計算予算)を拡大し続ける(例:モデルを大きくする、またはデータを増やす)につれて、モデルの品質が向上し続けることを予測します。OpenAIは、2020年にTransformer言語モデルのスケーリング則を最初に調査し、スケーリング則が将来のパフォーマンスを予測できることを示しました。彼らの発見は、パフォーマンス ∝ データサイズ x パラメータサイズ x 計算量サイズであることを示しています。

より具体的には、実験により、テストの損失値(Test loss)が、トレーニングに使用されるモデルサイズ、データセットサイズ、および計算量に対して、7桁以上の大きさにわたるトレンドをカバーするべき乗則(Power law)に従うことが明らかになりました。これは、これらの変数間の関係が単純な方程式で説明できることを示唆しており、大規模言語モデルの最適なトレーニング構成を決定するために使用できます。さらに、実験では、ネットワークの幅や深さなどの他の建築的詳細は、広い範囲において影響が最小限であることが示されています。

実験と導出された方程式に基づいて、大容量モデルはサンプル効率が著しく高くなります。言い換えれば、最適な計算効率を達成するトレーニングには、比較的少ない量のデータで非常に大きなモデルをトレーニングし、収束するかなり前にトレーニングを停止することが含まれます。

スケーリング則の論文が発表されて以来、言語モデルの規模を拡大することへの関心が著しく高まりました。2020年における最先端モデルの1つがGPT-3でした。これは1750億のパラメータを持ち、GPT/GPT-2の100倍の大きさでした。そのサイズにより、GPT-3はFew-shot(少数の例示)学習やZero-shot(例示なし)学習において前例のない能力を示します。モデルに与える例が多いほど、そのパフォーマンスは向上しますそして、モデルが大きければ大きいほど、その実力はさらに向上します。

Googleは「Emergent Abilities of Large Language Models」という重要な論文を発表しました。この論文では、小規模なモデルには存在しないが、大規模なモデルに現れる「創発的能力(Emergent abilities)」について探求しています。この論文では、スケールの影響を分析した研究を検証し、様々な計算資源でトレーニングされた異なるサイズのモデルを比較しています。多くのタスクにおいて、モデルの挙動はスケールに伴って予測通りに成長するか、あるいは特定のスケール閾値(たとえば700億パラメータ以上)で、ランダムなパフォーマンスからランダムを超えるものへと予測不可能な形で急上昇します。

2022年、DeepMindは計算最適化されたモデルを作成するための「Chinchilla」スケーリング則を提案しました。これは、OpenAIが最初に提案したものよりも正確なスケーリング則の公式です。

  • 彼らは、7000万から160億のパラメータを持つ400以上の言語モデルを、50億から5000億のトークンでトレーニングしました。モデルパラメータ数から導かれる最適なデータ量を予測することで、モデルおよびトレーニングセットのサイズの公式を導き出しました。ほとんどの大規模言語モデルは「過小トレーニング(undertrained)」状態にあり、十分なデータを見ていないことを意味します。

  • これを検証するために、彼らは2800億のパラメータと3000億のトークンを持つ別の大型モデル、Gopherをトレーニングしました。Chinchillaを使用することで、彼らはパラメータ数を700億に減らす一方、データを4倍の1.4兆トークンに増やしました。パラメータ数が少ないにもかかわらず、ChinchillaはGopherのパフォーマンスを上回り、モデルサイズとトレーニングトークンが等しく重要であることを示唆しました。

スケーリング則のフォーマルおよび実証的な分析以来、さらに多くの言語モデル(LLM)がリリースされています。これらのモデルは、モデルサイズのスケーリング、スパースにアクティベートされたモジュールの使用、およびより多様なソースからの巨大なデータセットでのトレーニングにより、多くのタスクで最先端のFew-shot結果を達成しています。注目すべき例としては、Megatron-LM(83億パラメータ)、GLaM(640億パラメータ)、LaMDA(1370億パラメータ)、Megatron-Turing NLG(5300億パラメータ)、およびPaLM(5400億パラメータ)があります。

GoogleによるScaling Vision Transformersは、スケーリング則がNLPタスクだけでなく、CV(コンピュータビジョン)タスクにも適用されることを示しています。著者らは、500万から20億のパラメータを持つVision Transformerモデル、100万から30億のトレーニング画像を持つデータセット、および1 TPUv3コア日未満から10,000コア日を超える計算バジェットを用いて実験を行いました。彼らの発見は、総計算量とモデルサイズを同時にスケーリングすることが効果的であることを示しています。追加の計算量が利用可能である場合に、モデルのサイズを拡大することが最適です。さらに、十分なトレーニングデータを持つVision Transformerモデルはおおむねべき乗則に従い、より大きなモデルはFew-shot学習においてより良いパフォーマンスを発揮します。

最後に、LAION AIのチームは、CLIPモデルファミリーのスケーリング則の再現を試みました。この調査でも、スケール(モデル、データ、および確認されたサンプル数)と、ゼロショット分類、検索、フューショットおよびフルショットの線形プロービング、ファインチューニングを含む幅広い設定における下流タスクのパフォーマンスとの間に、べき乗則の関係があることを発見しました。

3. 大型視覚言語モデルの台頭

Vision Transformerアーキテクチャのおかげで、視覚と言語のモダリティを組み合わせたモデルへの関心が高まっています。これらのハイブリッドな視覚言語モデルは、画像キャプション生成、画像生成、視覚的質問応答などの挑戦的なタスクで印象的な能力を発揮しています。一般的に、これらは、画像エンコーダーテキストエンコーダー、そして2つのエンコーダーからの情報を融合する戦略という3つの主要要素で構成されています。過去2年間の視覚言語モデル研究において、最もよく知られているモデルのいくつかを見てみましょう。

2021年、OpenAIはCLIP (Contrastive Language–Image Pre-training)を発表しました。CLIPへの入力は、インターネットから収集された4億組の画像とテキストペアです。テキストをTransformersを用いてエンコードし、画像をVision Transformersを用いてエンコードし、そしてコントラスティブ学習(対照学習)を適用してモデルをトレーニングします。コントラスティブトレーニングは、コサイン類似度を使用して正しい画像とテキストのペアを一致させます。

この強力なトレーニング済みモデルを使用すると、未確認のデータであっても、埋め込みを用いて画像とテキストをマッピングできます。これを行うには2つの方法があります。1つの方法は、推論を実行した後にCLIPが出力する特徴量の上に、シンプルなロジスティック回帰モデルをトレーニングする「線形プローブ(Linear probe)」を使用することです。あるいは、すべてのテキストラベルをエンコードしてそれらをエンコードされた画像と比較する「ゼロショット(Zero-shot)」技術を使用することもできます。線形プローブのアプローチの方がわずかに優れています。

明確にしておくと、CLIPは画像からテキスト、またはその逆へと直接変換するわけではありません。埋め込み(Embeddings)を使用します。しかし、この埋め込み空間は、モダリティを横断した検索を実行する上で非常に便利です。

CoCa(Contrastive Captionerの略)は、コントラスティブ学習(CLIP)と生成学習(SimVLM)を組み合わせた、Googleによるもう1つの基盤モデルです。コントラスティブ(対照)損失とキャプショニング損失の両方で修正・トレーニングされたエンコーダー・デコーダー構造を採用しています。これにより、単一モダリティ(unimodal)の画像およびテキストの埋め込みからグローバルな表現を学習できるだけでなく、マルチモーダルデコーダーからきめ細かな領域レベルの特徴も学習できます。

2022年後半、DeepMindはFlamingoと呼ばれる視覚言語モデル(Visual Language Models)のグループを作成しました。これらのモデルは、わずかなインプットとアウトプットの例を示すだけで、多種多様なタスクを実行できます。それらは、視覚的なシーンを理解できるビジョンモデルと、推論を支援する言語モデルという2つの部分で構成されています。モデルは、事前トレーニングの知識を利用して連携します。また、多くの視覚的入力特徴を分析して少数の視覚トークンを生成できるPerceiverアーキテクチャ(Transformersの変種のセクションで解説)のおかげで、Flamingoモデルは高品質な画像やビデオを取り込むことも可能です。

これらの新しいアーキテクチャの革新のおかげで、Flamingoモデルは、視覚と言語のための強力な事前トレーニング済みモデルを接続し、ビジュアルとテキストデータが混合したシーケンスを処理し、画像やビデオを入力として容易に使用することができます。800億のパラメータを持つ最大バージョンのFlamingo-80Bは、言語、画像、およびビデオの理解を伴う多くのタスクのFew-shot学習において、新たな記録を樹立しました。

Microsoft、Google、およびOpenAIは、ここ数週間の間に各自の大型視覚言語モデルをリリースし、これによりマルチモーダルAIへのトレンドをさらに推進しています。

  • Microsoftは、様々なモダリティを認識し、文脈を学習し、指示に従うことができるマルチモーダル言語モデル、Kosmos-1をリリースしました。このモデルは、それ以前のコンテキストに基づいてテキストを生成し、Transformerベースの因果関係(causal)言語モデルを使用して、テキストやその他のモダリティを処理します。多種多様なデータを用いてトレーニングされており、言語の理解と作成、画像の認識、および画像に基づく質問への回答を含む、様々なシナリオにおいて優れた性能を発揮しています。

  • GoogleのPaLM-Eは、インターネット規模の言語、ビジョン、および視覚言語ドメインを含む、様々な情報源からの観察および様々な形態(embodiments)に基づいて、多様な推論タスクを処理できる具体化された(embodied)マルチモーダル言語モデルです。最大のPaLM-EモデルであるPaLM-E-562Bは5620億のパラメータを持ち、事前トレーニングなしで異なる事柄について推論できます。たとえば、画像に基づいてジョークを言ったり、認識、対話、計画などのロボットタスクを実行したりできます。

  • 最後に、OpenAIのGPT-4は、画像とテキスト入力を処理し、テキスト出力を生成できる大規模マルチモーダルモデルです。模擬司法試験で上位10%、生物学オリンピック(画像あり)で上位1%の成績を収めました。

4. ビデオ基盤モデルの新たなパラダイム

ビデオ理解における課題

私たちの社会において、ビデオ理解タスクの重要性はますます高まっています。ソーシャルメディアプラットフォーム上での動画コンテンツの増加や、公共スペースでの監視カメラの使用増加に伴い、自動化されたビデオ理解システムへの需要が高まっています。しかし、この問題が重要であるにもかかわらず、テキストや画像の理解タスクに比べて、受けてきた注目は比較的少ないものでした。

ビデオ処理がテキストや画像の処理ほど注目されてこなかった理由の1つは、それに伴う非常に高い計算負荷にあります。ビデオはテキストや画像に比べてサイズがはるかに大きく、分析には大幅に多くの処理能力が必要です。この問題は、トークンの長さに対して2乗(二次関数的)の複雑さを持つTransformerアーキテクチャでは、さらに顕著になります。

例として、通常1秒あたり30フレーム(画像)を持つ10分間の動画を想定してみましょう。これは、そのビデオに10 * 3600 * 30枚、つまり1,080,000枚(約100万枚)の画像が含まれていることを意味します。Transformerの2乗の複雑さを考慮すると、必要となる総計算量は100万の2乗(1e12)になります。

さらに、ビデオ理解は、時系列モデリング(Temporal modeling)というユニークな課題をもたらします。テキストや画像とは異なり、ビデオには分析の際に考慮しなければならない「時間」の次元が含まれています。これには、他のモダリティでは一般的に使用されない、専用の技術やモデルが必要となります。

最後に、ビデオクリップに表示される視覚情報に加えて、追加の処理を必要とする同期された音声キュー(オーディオの手がかり)があります。これらの音声キューには、ビデオ内で発生する音や会話が含まれ、視聴者に追加のコンテキストや情報を提供します。これらの音声キューは、ビデオに示される視覚情報と「同じくらい重要」であることが多く、見過ごされるべきではないことに留意することが重要です。したがって、これらの音声キューの処理はビデオ分析の極めて重要な側面であり、視覚分析と同レベルの注意を払う必要があります。

いくつかの課題はあるものの、ビデオ理解の研究は着実に進歩しています。視覚言語モデルが効果的であり、マルチモーダルのトレンドが出現しているため、この問題に対処するためにいくつかの言語・視覚基盤モデルが提案されています。活発な研究コミュニティがこのテーマに取り組んでいます。しかし、現実世界のアプリケーションで十分に機能する堅牢で信頼性の高いビデオ理解システムを開発するには、まださらなる取り組みが必要です。

新興の大規模ビデオモデル

2019年、Googleはビデオに自己教師あり学習を適用したVideoBERTを発表しました。これは、音声自動認識、時空間的視覚特徴のためのベクトル量子化、およびトークンシーケンス用のBERTモデルという、3つの既存の手法を使用していました。これらが連携して、視覚ドメインと文脈ドメインの関係性をモデル化しました。ビデオでBERTを機能させるために、著者らはベクトル量子化を使用して生のビデオデータを「視覚的単語」に変換しました。これにより、モデルはビデオの重要な部分と、それらが時間とともにどのように変化するかに焦点を当てることができます。VideoBERTは、ビデオキャプション生成テストにおいて他のモデルを凌駕しました。

All-In-One」は事前トレーニング向けに設計されたビデオ言語モデルであり、統合されたバックボーンアーキテクチャにおいて、生の視覚・テキストシグナルからビデオ言語の表現を捉えます。追加のパラメータを投入したり時間的複雑性を増大させたりすることなく、疎にサンプリングされたフレームの時系列表現を捉えるために、時系列トークンローリング操作(temporal token rolling operation)を使用します。このモデルは、ビデオ質問応答、テキストからビデオへの検索、複数選択、および視覚的常識推論という4つの下流のビデオ言語タスクにおいて、優れたパフォーマンスを発揮します。

ビデオ認識(Video recognition)には、ビデオ内のオブジェクト、アクション、およびイベントの特定および分類が含まれます。これには、セキュリティシステム、自動運転車、エンターテインメント業界など、多くの実用的なアプリケーションがあります。そのため、これは進化し続けている研究分野であり、新しい開発が定期的に行われています。

Video MAEは、ビデオ認識に向けてバニラ(標準的)なVision Transformerの可能性を引き出す、自己教師ありビデオ事前トレーニング手法です。これはランダムなチューブ(時空間ブロック)をマスクし、欠損した部分を非対称エンコーダー・デコーダー構造で再構築します。著者らは、より代表的な特徴を学習するようにVideoMAEを動機付ける2つの重要な設計(極端に高いマスク比率とチューブマスキング戦略)を導入し、これにより時間的な冗長性と相関に関する課題に対処しました。

Web上の大量の画像・テキストデータを使用して視覚言語を表現することをCLIPが学習するのと同じように、自然言語による教師あり学習を使用することで、素晴らしいビデオ認識方法を学ぶことができます。モデルを事前トレーニングすれば、モデルが学習した視覚的概念を指し示すために自然言語を使用できるため、追加のトレーニングをほとんど、あるいはまったく行うことなく、モデルを他のタスクに簡単に移行できます。

MicrosoftのX-Clipフレームワークは、言語イメージモデルを一般的なビデオ認識に適応させます。これは、クロスフレーム通信Transformerと、マルチフレーム統合Transformerという2つのコンポーネントで構成されています。前者はフレーム間メッセージトークンを使用して情報を交換することを可能にし、後者はフレームレベルの表現をビデオレベルへと転送します。X-CLIPは、ビデオ固有の提示スキームを通じてテキストプロンプトを強化するために、ビデオコンテンツ情報を使用します。完全教師あり、ゼロショット、およびフューショット実験において、X-CLIPは限定されたラベル付きデータにもかかわらず、優れたパフォーマンスを発揮します。

言語や画像の基盤モデルと比較して、現在のビデオ基盤モデルはビデオおよびビデオ言語タスクのサポートが限られています。しかし、InternVideoと呼ばれる新しい研究は、マスクされたビデオモデリングとマルチモーダルなコントラスティブ(対照)学習という、2つの一般的な自己教師あり学習パラダイムを組み合わせています。これら2つのTransformersから新しい特徴を導き出すために学習可能な相互作用を使用し、生成学習とコントラスティブ学習の両方の利点を組み合わせています。

InternVideoは、アクション理解、ビデオ言語アライメント、およびオープンワールドビデオアプリケーションにおけるタスクを含む、ビデオ理解のベンチマークにおいて他のモデルを圧倒しました。これらのタスクは、汎用的なビデオ認識の核心となる能力を表しています。

結論

あなたが準備できているかどうかにかかわらず、基盤モデルはマルチモーダル化しつつあります。基盤モデルはやがてすべてのAI搭載ソフトウェアの基礎として機能するようになるため、開発者は事前トレーニング済みの基盤モデルから始めて、それを狭い範囲のタスクにファインチューニングするケースがますます増えるでしょう。しかし、これらのモデルにとって最も困難な状況は、これまでに見たことのない「ロングテール(滅多に発生しない)」イベントです。これらのロングテールイベントは、マルチモーダルの設定下では解決が一段と複雑になります。

Twelve Labsでは、ロングテールのマルチモーダルビデオ理解のための基盤モデルを構築しています。私たちのビジョンは、最も強力なビデオ理解インフラを提供することで、開発者が私たちのように世界を見て、聴いて、理解できるプログラムを構築できるように支援することです。マルチモーダルな大規模ニューラルネットワークについてはさらに多くのアイデアがありますが、この記事はすでにかなり長くなってしまいました。これについて語り合うことに興味がある方は、ぜひベータユーザーとしてご登録ください!さらに、私たちのDiscordコミュニティに参加して、マルチモーダルAIにまつわるすべてのことについて話し合いましょう!

この膨大な記事の情報提供および様々な草案の校正をしてくれたAiden Leeに感謝します。