企業は、動画などを分析するためにマルチモーダルAIモデルの商業化を進めています

カイル・ウィガーズ

マルチモーダルAIが研究室を飛び出し、商業製品へと移行しつつあります。Twelve Labs、CLIPr、Google、Metaといった企業が、映像、音声、テキストを同時に分析できるシステムを構築しています。このパラダイムシフトによって、検索、コンテンツモデレーション、メディア分析における新たなアプリケーションが実現する一方で、コスト、バイアス、そして悪用に関する現実的な課題も生じています。

この記事の内容

No headings found on page

ニュースレターに登録する

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

AIを活用してビデオを検索、分析、探索します。

プレイグラウンドを試す

2022/03/22

7分

記事へのリンクをコピー

今月初め、故マイクロソフト共同創業者ポール・アレン氏が設立した非営利団体「アレン人工知能研究所（Allen Institute for AI）」の研究員らが、彼らが「新世代」のAIアプリケーションの一部と表現するシステムのインタラクティブデモを公開した。このシステムは、動画を「大規模に」分析、検索し、質問に回答できる。これは Merlot Reserve と呼ばれ、研究員らはこのシステムに2,000万本のYouTube動画を「視聴」させて画像、音声、字幕の関係性を学習させた。これにより、例えば「動画の中の人は何の食事が食べたいのか？」や「この動画に出てくる少年は前に海で泳いだことがあるか？」といった質問に回答できるようになった。

Merlot Reserveや、その前身である Merlot は、この種のものとして初の「マルチモーダル」AIシステムというわけではない。音声、ビジュアル、テキストからの情報を処理し、関連付けることができるシステムは何年も前から存在している。これらの技術は、より人間に近い形で世界を理解する能力において向上し続けている。サンフランシスコの研究開発機関OpenAIが2021年に公開した DALL-E は、「アボカドの形をしたアームチェア」のようなシンプルなテキスト記述から、実在するものや想像上の物体の画像を生成できる。Googleから発表されたより新しいシステムである VATT は、動画内のイベントをキャプション化する（例：「男性が泳いでいる」）だけでなく、音声クリップを分類し、画像内のオブジェクトを認識することもできる。

しかし、最近までこれらのマルチモーダルAIシステムは、厳密には研究領域のものに過ぎなかった。それが変化しつつあり、ますます商業化が進んでいる。

「自動音声認識、画像分類と認識、ニューラルネットワーク、従来の機械学習モデルを含む様々なマルチモーダル技術は、（特にテキスト処理と組み合わせることで）テキスト、音声、画像の理解を得るのに役立ちます」と、CLIPrの共同創業者兼CTOであるアーロン・スローマン氏はVentureBeatへの電子メールで語った。CLIPrは、動画の分析などのアプリケーションにマルチモーダルAIシステムを使用している新生企業群の1つである。Meta（旧Facebook）やGoogleなどのテック大手もこのグループを代表しており、自社システムがオブジェクト、画面上のテキスト、音声、人物を含む動画内の特徴を認識できると主張する Twelve Labs のようなスタートアップも同様である。

「（私自身と共同創業者たちは）10〜15秒の間隔でスキップする代わりに、動画から重要で関連性のあるクリップを簡単に抽出できるソリューションを求めていましたが、見つけることができなかったため、自分たちで作ることにしました。当社の名を冠した動画インデックスプラットフォームは、録画された動画を取り込み、書き起こし、トピック、サブトピックによる検索を可能にします」とスローマン氏は語った。「プロソディ（韻律）の分析も当社にとって非常に重要です。これはスピーチのリズム、強調、イントネーションのことです。これを会議のプレゼン資料などの画像分析と照らし合わせることで、これらのトーンの変化の正確性を評価したり、動画に映っている参加者の活発なジェスチャーを探したりするのに役立てています」

CLIPr は、主にメディア出版、エンタープライズ、イベントなど「多種多様な」業界にクライアントを抱えているとスローマン氏は主張している。将来的には、同スタートアップはこの技術をライブストリーム動画に適用し、例えばイベントの基調講演セッションを取得して自動的にハイライトリールを作成できるような「役割特化型」ボットを作成することを目指している。

「私たちは、動画は現代のコミュニケーションにおいて最も重要でありながら、十分に活用されていない形態であると信じており、私たちの目標は動画をテキストコンテンツと同じくらいアクセシブルにすることです」とスローマン氏は続けた。

マルチモーダルの未来

マルチモーダルシステム以外のAIは、人間と同じようには世界を体験しない。例えば、音声認識システムは1種類のデータ（音声）しか理解できず、その音声の文脈を理解することはない。対照的に、人間はすべての感覚（視覚、聴覚、嗅覚など）を使って、時間の経過の中で出来事を処理し、根付かせる。例えば、誰かがポップコーンを作っている画像とキャプションから、人間は、空の鍋の中に生のコーンの粒が散らばる音や、ポップコーンが弾けて膨らむ「ポンッ」という音など、その場面がどんな音であるかを想像することができる。

「これらのマルチモーダルモデルの多くは画像に特化しており、視覚的認識、つまり文字通り何が映っているかを説明することに焦点を当てています」と、ワシントン大学のコンピューターサイエンス博士課程に在籍し、Merlot Reserveプロジェクトの主任研究員であるローワン・ゼラーズ氏はVentureBeatへの電子メールで語った。「動画内で人々が何をしているか（そしてなぜそうしているか）についての質問に答えるモデルが、おそらく検索アプリケーション向けに登場するでしょう」

例えばTwelve Labsは、クリップをベクトル埋め込みとして知られる数学的表現に変換することで、あらゆる動画データベースを分析可能にすると主張している。CEOのジェ・リー氏によると、顧客はこれを使用して推奨エンジン、コンテンツモデレーションシステム、メディア分析ダッシュボードを構築しているという。

「（Twelve Labsは）意味論的検索だけでなく、キャプション、ハイライト、要約の生成といった他のさまざまなタスクにも使用できる、強力な動画埋め込みを作成可能なモデルの構築に取り組んでいます」とリー氏はVentureBeatへの電子メールで語った。「当社の動画モデルは、言語の監視下でトレーニングされています。当社は、画像、音声、書き起こし、動きなどの多様なモジュール（マルチモーダリティ）の情報を動画から抽出し、その情報を単一のベクトル表現に融合します。その表現は、自然言語処理（NLP）技術を使用して処理された関連するテキスト（文）の下でトレーニングされます」

スタートアップ以外では、昨年Googleが、異なる言語やデバイスにわたるGoogle検索体験を強化するために、マルチタスク統合モデル（MUM）と呼ばれるマルチモーダルAIシステムを使用する計画を明らかにした。他の改善点の中でも、Google検索において、MUMはクエリ（例：「アクリル画」）を受け取り、ステップバイステップの指示などのリソースをスポットライトで照らしたり、音声、テキスト、ビジュアルコンテンツに基づいて動画内の被写体（例：「アクリル技法」）を特定したりする新機能を強化する予定だ。

Metaは最近、FacebookやInstagramのメッセージのコンテンツ（テキスト、画像、URLを含む）がコミュニティガイドラインに違反しているかどうかを判断するために、Few-Shot Learner（FSL）と呼ばれるマルチモーダルシステムを適用していることも発表した。同社は、FSLが100以上の言語にわたる何十億ものFacebookの投稿や画像のデータベースをもとに開発されたと主張している。

ゼラーズ氏は、将来的にはこの種のマルチモーダルモデルが、オンライン動画、音声、および関連する形態のコンテンツを分析するだけでなく、視覚や聴覚に障害を持つユーザーを支援する製品の作成に使用される可能性があると考えている。「これには、基本的な質問への回答から、コンテキストに沿ったインタラクションに至るまで、あらゆるものが含まれます」と彼は付け加えた。

マルチモーダルの課題

商業化されたマルチモーダルAIは以前よりも一般的になってきているものの、この種のシステムが大規模に導入されるまでには、いくつかのハードルを克服しなければならない。これは一国的に、経済性を成立させるという問題でもある。既存のシステムを実行することは、新しいシステムを開発することに比べれば通常それほど高価ではないが、それはワークロードの性質や企業のデータサイエンスチームのスキルレベルに依存する。

「初期のモデル（開発）は、データサイエンスを並行して完成させることが含まれるため、容易に最もコストがかかる側面となります」とスローマン氏は述べた。「例えば、何千もの検証済みZoom会議の中で、何がスライドで何がそうでないかを区別するプロセスは非常にコストがかかります」

例えば、Merlot Reserveの開発には、AI作成プロセスの特定の側面を加速させるために設計されたチップであるGoogleの第3世代テンソルプロセッシングユニット（TPU）を512個搭載したクラスター上で約3週間を要した。現在の公開価格によると、32個の第3世代TPUからなるポッドの評価には1時間あたり32ドルかかるため、Merlot Reserveの開発コストは（ボリュームディスカウント、年間、またはアカデミック割引がないと仮定して）16,000ドル強にのぼる。

「現在、当社は7つの異なるモデルを運用しており、その中には何億ものオブジェクトを含む大規模なオープンソースのデータリポジトリもあれば、独自のモデルもあります」とスローマン氏は説明した。「当社の独自モデルはすでに1年以上トレーニングを続けており、使用しているオープンソースモデルについては何とも言えませんが、おそらくそれよりもはるかに長い期間トレーニングされているでしょう。……私は、マルチモーダルAIにおける次の全面的な変化は、サイロ化された異なるタイプのモデル同士の間に、より標準化された連携を構築することになると推測しています。私たちは、それぞれが1つのタイプの分析を得意とするいくつかのAIモデルをパッチワークのようにつなぎ合わせる必要がありました。最終的には、多くの企業がマルチモーダルを使用して製品を構築するようになり、より多くのオープンソースの提供が見られるようになるため、実験のトレーニングや実行がより簡単かつ低コストになるでしょう」

今日のマルチモーダルシステムは、学習元であるデータ（例：YouTubeの動画）内のバイアスを取り込んでしまうといった技術的な欠点にも悩まされている。例えば、Merlot Reserveは大量のYouTube動画を「視聴」するため、YouTubeの推奨設定や、より一般的には、どのようなコンテンツを人々が制作するよう促されているかという経済的な圧力によるバイアスがかかっている。

「YouTubeのコンテンツモデレーションは、（マイノリティの）声を不当に排除しています。……YouTube動画における人々の役割も非常にジェンダー化される傾向があり、状況の理解にバイアスをかける可能性があります」と、ゼラーズ氏と同僚らはMerlot Reserveの機能を説明する研究の中で書いている。「YouTubeの自動キャプションはジェンダーバイアスを被っていることが知られており、それが今度は私たちのモデル（一般的にニューラルモデルのように）によって増幅される可能性があります。YouTubeの書き起こしも、代名詞のような重要な識別マーカーの処理が不十分である可能性が高いです」

バイアスは別として、悪意のあるアクターが監視カメラの映像内の出来事や活動を特定するなどの物議を醸す目的でマルチモーダルシステムを使用することを防ぐ手立てはない。スタンフォード大学の人間中心人工知能研究所（HAI）が公開した論文で、共同著者らは、DALL-Eのようなマルチモーダルモデルの進歩により、異なる政党、国籍、宗教を標的とした誤解を招く記事を公開するような「悪用目的」のために、よりパーソナライズしやすい、より高品質なマシン生成コンテンツが生み出されることになると主張している。

スローマン氏は、CLIPrとしては「ヒューマン・イン・ザ・ループ（Human-in-the-Loop）」のアプローチを通じて、モデルのバイアスや悪用を緩和するための措置を講じていると述べている。同社は、CLIPrシステムが犯したエラーを指摘するよう顧客に促しており、これによってエラーを修正し、理想的にはバックエンドでのモデル開発を改善できるようにしている。

「マルチモーダルには利点があります。正しく行われれば、よりサイロ化されたモデルと比較してバイアスを生み出す可能性が低くなるためです」と彼は述べた。「真の危険は、マルチモーダルAIの複雑さと不完全さを認めず、回答や一致の範囲を制限するような特定の線形決定パスに導くデータポイントを使用することから生じます」

リー氏は、Twelve Labsもバイアス緩和戦略を実施していると語った。同社は、多様なソースからのデータセットの収集、データセットの文書化の作成、生の動画およびテキスト情報のキュレーションを含む3段階のアプローチを採用している。

「有害なコンテンツやデリケートなコンテンツを含む可能性のある視覚的コンテンツを検出およびフィルタリングするために、コンピュータービジョンモデルが使用されています」とリー氏は説明した。「その後、ブロックワード（つまり、選択された言葉のリストから単語を含むテキストを削除すること）と高度なNLP技術を活用して生の動画の書き起こしが分析され、政治的、社会経済的、または人口統計学的なバイアスを含む可能性のあるコンテンツがフィルタリングされます。ブロックワードとNLP技術は、有害性やバイアスを含む可能性のあるテキストラベルをフィルタリングするためにも使用されます。……マルチモーダルモデルを活用する際に潜在的なバイアスを理解し、緩和することは、Twelve Labsの成功に不可欠です」

‍