プラットフォーム

価格

ソリューション

構築

資料

会社情報

Select Language

Playgroundへ移動

営業担当に相談する

リサーチ

基盤モデル（Foundation Models）の何が特別なのでしょうか？

ジェームズ・リー

基盤モデルは、大量のタスク固有のトレーニングデータを必要とせずに一般化する能力を通じて、メディア・エンターテインメント、スポーツ分析、ヘルスケアをすでに変革している実世界のアプリケーションにおいて、テキスト、ビジョン、音声、ビデオにわたる特定のタスクに合わせて微調整できる、事前にトレーニングされた大規模なAIシステムです。

この記事の内容

No headings found on page

ニュースレターに登録する

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

AIを活用してビデオを検索、分析、探索します。

プレイグラウンドを試す

2023/04/11

6分

記事へのリンクをコピー

2022年にスタンフォード大学が基盤モデル（Foundation Models）の概念を提唱して以来、これはほぼすべてのビジネス分野において最もホットなトレンドの1つとなっています。これらのモデルは、一般大衆に広く浸透した初めてのモデルです。簡単に言えば、基盤モデルとは、特定のタスクに合わせてさらに微調整（ファインチューニング）できる、事前学習済みの超大型機械学習モデルであり、幅広いタスクにおいて最先端のパフォーマンスを達成しています。

しかし、技術用語に不慣れな読者にとって、基盤モデルの能力やその応用の可能性を理解するのは難しい場合があります。そこで、この刺激的な技術をより身近で、より多くの人々に理解しやすくするための解説を用意しました。前回の記事では技術的な視点から掘り下げましたが、今回の記事では基盤モデルの能力をわかりやすい言葉で紐解き、それらが現実世界の課題を解決するためにどのように活用できるか、具体的な例を挙げて紹介します。

1 - 基盤モデルの概要

1.1 - なぜ今なのか？

基盤モデルは、幅広い領域や業界にわたって柔軟に、そして再利用できるように設計された、巨大かつ複雑なモデルです。これらのモデルが機能する背景には、「転移学習」と「スケール（規模）」という2つの要素があります。

転移学習

転移学習とは、機械学習（ML）において、あるタスクで得られた知識を別の関連するタスクに活用する手法です。これにより、新しいタスクごとに大量のデータを用意する必要性が減り、モデルをより迅速に学習させることができ、MLモデルのパフォーマンスを向上させることができます。転移学習は、推薦システムにおけるコールドスタート問題、ロボティクスにおけるシミュレーション、多言語間の翻訳など、現実世界の多くのアプリケーションの解決に役立っています。さらに詳しく知りたい方は、Georgianによるこのブログポストにて、具体的な例を交えながら転移学習を簡潔に説明しています。

スケール（規模）

スケールこそが、基盤モデルを強力にする要因です。それには以下の3つの要素が必要でした：

コンピュータハードウェアの向上：GPUの採用により、ディープラーニングモデルの性能が劇的に向上しました。GPUは並列計算を実行できるため、ディープニューラルネットワークのトレーニングに伴う数学的処理に最適です。過去5年間で、より大規模な基盤モデルをサポートするために、GPUのスループットとメモリは10倍に増加しました。
高度に並列化されたアーキテクチャ：Transformerアーキテクチャにより、大規模なディープラーニングネットワークがハードウェアの並列性を活かせるようになりました。これにより、Transformerネットワークは、入力データ全体の中で大きく離れた要素間の長期的な依存関係や高次の相互作用を捉えることができます。これについては、マルチモーダル基盤モデルに関する前回の記事で詳しく説明しました。
膨大な量のトレーニングデータ：大規模なデータセットと、データ収集およびアノテーション技術の向上により、より大きく強力な基盤モデルの開発が可能になりました。GPT-2は40ギガバイトのデータでトレーニングされましたが、GPT-3はインターネットの大部分を含む570ギガバイトのデータでトレーニングされました。また、多くの企業や組織は公開されていない独自のデータセットを保有しており、これらを利用して大規模モデルをトレーニングしています。別のアプローチとして、文全体の意味を保ちながら単語やフレーズをランダムに置き換えるなどの手法により、既存のデータセットを拡張するデータ拡張（データオーグメンテーション）もあります。

1.2 - 技術的な恩恵

汎用性（Generalizability）

これらのモデルの背景にあるエンジニアリングは素晴らしいものですが、AI研究者やエンジニアが最も興奮しているのは、その汎用性です。汎用性とは、十分にトレーニングされた基盤モデルが、（追加のトレーニングや微調整を行うことなく）これまでに見たことのないデータに基づいて正確な予測を行い、一貫性のあるテキストや画像を生成できる能力を指します。これは、モデルがすでに大規模なデータセットで共同学習されており、多くの異なるタスクに役立つ基本的な特徴を習得しているためです。

対照的に、従来の機械学習モデルは、特定のタスクで高いパフォーマンスを発揮するために、大量のラベル付きデータを必要とします。このラベル貼りのプロセスには時間とコストがかかります。さらに、適切なアーキテクチャを設計し、複数のトレーニングサイクルを繰り返す必要があるため、モデルの拡張性や汎用性が制限されます。

基盤モデルは、テキスト、画像、音声、表形式データ、タンパク質配列、有機分子、強化学習など、幅広いモダリティにわたる様々な研究ベンチマークにおいて、最先端（State-of-the-Art）の性能を達成しています。さらに、一部の領域（ビデオなど）ではデータが自然にマルチモーダルであるため、マルチモーダル基盤モデルは領域に関する関連情報を効果的に組み合わせ、複数のモードが関わるタスクに適応します。

微調整（ファインチューニング）

一般的な知識でトレーニングされた標準的な基盤モデルは、特定の専門領域のタスクにおいては苦戦することがあります。ビジネスリーダーが安心して実務で使用できるレベルまでモデルの性能を高めるには、微調整用のデータを収集して準備する必要があります。例えば、BloombergGPTは、Bloomberg社によって開発された基盤モデルです。このモデルは膨大な金融テキストデータや金融に特化した知識ソースで事前学習されており、金融の自然言語処理を実行したり、既存の知識や参照元から推論して不完全な業界特有のフレーズを補完したりすることができます。

基盤モデルを微調整するための最もわかりやすいアプローチは、ユースケースに応じた大規模な専門領域向けトレーニングデータセットを作成し、それにモデルを適応させることです。また、最近人気を集めている別のアプローチとして、人間のフィードバックからの強化学習を意味する「RLHF」があります。大まかに言えば、事前学習済みのLLMを人間のプロファレンス（好みの情報）を用いて微調整し、望ましい出力を生成させるというコンセプトです。詳細については、Molly Welchによるこのブログポストが、RLHFとその応用について優れた概要を提供しています。

‍

1.3 - 経済的メリット

基盤モデルは、市場投入までの時間の短縮、生産性の向上、および収益の増加によって、エンタープライズ企業に利益をもたらすことができます。かつてない汎用性を持つこれらの強力なモデルを民主化することで、コミュニティは、個人、開発者、および企業が自前でゼロから構築することなく、これらの能力を活用できるようにします。これは、私たちが自分たちで発電機を作る代わりに、近くの発電所から電力を引き出すのと似ています。

これらのモデルは、コンテンツの作成や編集など、手作業とクリエイティブなタスクの両方を企業が自動化するのに役立ちます。これにより、製品やサービスの開発と反復（イテレーション）が加速されます。また、顧客サポートを提供し、よくある質問に答えるチャットボットやバーチャルアシスタントの開発にも使用できます。これにより、企業はリソースを節約しながら自社の目標を達成することができます。

従来のSaaSから基盤モデルへ移行する際、売上原価の計算はより複雑になる可能性がありますが、基盤モデルを活用したアプリケーションははるかにインテリジェントになると期待されています。これにより、顧客に超パーソナライズされた体験を提供することが可能になり、結果として収益の増加につながります。

‍

2 - 基盤モデルの種類

2.1 - 言語

基盤モデルは自然言語処理（NLP）の分野に多大な影響を与えました。例えば、OpenAIのGPT-3（Generative Pre-trained Transformer 3）は、人間のような言語を生成できることでよく知られている基盤モデルです。このモデルは膨大なテキストデータでトレーニングされており、テキスト生成、質問回答、要約など、言語に関連する様々なタスクに適応させることができます。これはOpenAIのChatGPTの基礎となりました。

GPT-3は、高品質なニュース記事やブログの作成、アポイントメントのスケジュール調整、詩の生成、ある言語から別の言語への翻訳など、様々な方法で活用できます。

‍

2.2 - 画像（ビジョン）

コンピュータビジョン分野における最初の基盤モデルは、OpenAIによるCLIP（Contrastive Language–Image Pre-training）のリリースでした。CLIPモデルは4億組の画像とキャプションのペアでトレーニングされており、言語と画像の関係を理解することができます。つまり、モデルは画像の内容を理解し、人間の言葉でその説明を生成できます。例えば、モデルに猫の写真を見せると、それが猫であることを示し、その色や他の特徴を説明することができます。言語と画像の両方を理解するCLIPの能力には、画像認識、キャプション生成、さらにはアートの生成や製品デザインといったクリエイティブなタスクなど、多くの潜在的な用途があります。

さらに、Stable Diffusionは、テキストから画像を生成できるオープンソースのプロジェクトです。これは、シンプルなテキストによる説明に基づいて、リアルで高品質な画像を生成する独自のアルゴリズム（潜在拡散モデルと呼ばれる）を使用しています。人間のアーティストが作成したかのような見事な画像を生成できる能力により、このプロジェクトは大きな注目を集めています。最大の利点は、無料で使用でき、画像生成を実験してみたい人なら誰でもダウンロードできる点です。アーティスト、開発者、あるいは単にAIに興味がある人であっても、Stable Diffusionを探索し、テキストによる説明からどのような画像を作成できるか試すことができます。

‍

2.3 - 音声

言語や画像に加えて、基盤モデルは音声も処理できます。OpenAIのWhisperは、多くの異なるアクセントや言語の話し言葉を理解できる音声基盤モデルです。騒がしい環境であっても、話し言葉を正確かつ迅速に書き起こすことができます。Whisperは68万時間以上の音声からなる大規模なデータセットでトレーニングされており、話し言葉を認識する上で人間レベルの精度を達成することに貢献しました。

Whisperは、デジタルアシスタント、書き起こしソフトウェア、さらには車内やその他の騒音の多い環境など、幅広いアプリケーションで活用される可能性を秘めています。

‍

2.4 - ビデオ

最後に、ビデオデータを処理するための基盤モデルも開発されています。これらのモデルは、映像要素と音声要素を含むビデオの内容を理解するように設計されています。ビデオのアノテーション、要約、検索など、様々なメタデータ生成アプリケーションに使用できます。例えば、ビデオデータ用の基盤モデルをトレーニングして、ビデオ内の特定のオブジェクト、アクション、またはシーンを認識させることができます。これにより、ビデオのタグやキャプションを自動的に生成し、検索や共有を容易にできます。

Twelve Labsでは、私たちはロングテールなマルチモーダルビデオ理解のための基盤モデルを構築しています。当社のVideo Understanding APIは、ビデオ検索や分類など、ビデオデータを処理および分析するための強力なツールを開発者に提供します。当社の基盤モデルは特定の用途向けにさらに微調整できるため、様々な業界に高度に適応させることができます。

‍

3 - 潜在的なアプリケーション

基盤モデルは、メディア・エンターテインメントからスポーツ分析、コンシューマー向けヘルスケアまで、幅広い業界に適用できます。以下は、すでに実用に至っている興味深いAIアプリケーションであり、基盤モデルを使用することで簡単に再現（および改善）できます。

‍

3.1 - メディア・エンターテインメント

エンターテインメント業界の企業はAIを活用して、よりパーソナライズされ、魅力的な消費者体験を作り出しています。一例としてNetflixが挙げられます。同社は、テレビ番組、予告編、映画、プロモーションアートなどのより良いメディアをクリエイターが制作できるようにAIを活用しています。彼らは、登場人物、ストーリー、感情、シネマトリガーを分類するビデオ理解モデルを導入しており、特定の映像を見つけやすくしています。これにより、クリエイターは映像を何時間もかけて分類する作業から解放され、クリエイティブな意思決定に集中できるようになります。

基盤モデルは、登場人物や感情の分類など、同様のユースケースを解決できます。これにより、これらのモデルの精度と効率が向上し、クリエイターは何時間も分類作業に費やすことなく、特定の映像を迅速に見つけることができます。

また、基盤モデルは、より没入感が高くリアルなコンテンツの作成にも使用できます。例えばゲーム業界では、ノンプレイヤーキャラクター（NPC）をよりインテリジェントでリアルにするのに役立ちます。Ubisoftは、NPCのダイアログを自動的に生成するGhostwriterと呼ばれる新しいAIツールを開発しました。一方でRobloxは、クリエイターが没入感のある3D体験を構築するためのRoblox Studioというプラットフォームを提供しています。

‍

3.2 - スポーツ分析

スポーツ分析において、AIはボールや選手の動きを追跡するのに役立ちます。カタールで開催された2022 FIFAワールドカップでは、オフサイドの反則を検出するための半自動オフサイドテクノロジーなど、AIが様々な役割で活用されました。この技術は、ビデオフィードやセンサーからデータを収集し、審判がオフサイド位置についてより正確な判定を下せるよう支援するものです。スタジアムの屋根の下には12台の追跡カメラが設置され、ボールと、選手の姿勢やボールの位置など毎秒29個のデータポイントを追跡しました。

基盤モデルを使用することで、FIFAは半自動オフサイドテクノロジーの精度と効率を向上させることができます。長年にわたって収集されたサッカーの映像で基盤モデルを微調整することにより、選手の位置や動きによってオフサイドになるなど、様々なオフサイドの状況を認識させることができます。さらに、オフサイドになる可能性を予測し、審判がより備えを万全にし、誤審を未然に防ぐのにも役立ちます。

‍

3.3 - ヘルスケア

一般消費者向けのヘルスケアにおいて、AIは保険金の請求手続き、事務処理の処理、医師の診察時のメモ作成など、特定の作業を代行することで、医療従事者が時間を管理しやすくなるようにしています。さらに、AIは年齢、病歴、遺伝情報などの様々な要素に基づいて、患者の経過予測をサポートします。医師はこの情報を使用して、パーソナライズされた治療計画を作成できます。このトピックについてもっと学びたい場合は、Eric Topolの著書『Deep Medicine』をお読みください。

基盤モデルは、レントゲンやMRIなどの医療画像の分析に使用できます。例えば、医療画像から腫瘍や骨折などの異常な箇所を発見するように基盤モデルをトレーニングでき、これにより医師がより迅速かつ正確に疾患を診断し、治療するのに役立ちます。

ケアの支援に加えて、基盤モデルは医療の画期的な進歩のスピードを大幅に加速させます。生物学におけるデータ量は膨大であり、人間が複雑な生物学的システムの仕組みをすべて追跡することは困難です。しかし、すでにこのデータを分析し、経路（パスウェイ）を推論し、病原体の標的を探索し、それに応じて薬を設計できるソフトウェアが存在します。AlphaFoldの画期的な技術を基盤とする技術を持つIsomorphic Labsは、AIを創薬に適用し、医療が人々を助け、治癒する方法に革命をもたらしています。

‍

結論

上記で紹介したアプリケーションは、個人的に非常に興味深いものであり、これらはこれから変革が起こるであろう数千の例のほんの一部にすぎません。基盤モデルの可能性は本当に刺激的であり、まだ想像すらされていない無数の未知の機会を提供してくれます。これらの機会は確実に開かれ、創造的な人々が自らのアイデアを記録的な早さで具体的で魅力的な製品へと変化させることができるようになるでしょう。

基盤モデルを実用に投入する前に考慮すべき制限事項もあります。1つのリスクは、事前学習データに含まれていなかったニッチなタスクや特定のタスクにおいて、十分なパフォーマンスを発揮できない可能性があることです。そのため、性能を向上させるためには、特定のタスクにより関連性の高いデータを用いてモデルを微調整する必要があるかもしれません。さらに、基盤モデルはプレトレーニングに使用されたデータに存在する偏見（バイアス）を無意識に永続させてしまう可能性があります。これらのバイアスを防ぎ、軽減することは活発な研究分野であり、事前学習済みモデルにおけるバイアスの影響を低減するために利用できるベストプラクティスが存在します（これらについては今後の記事で取り上げる予定です）。

基盤モデル全般についてお話ししてみたい方は、是非私たちのDiscordコミュニティに参加して、マルチモーダルAIについて語り合いましょう！

コンピュータハードウェアの向上：GPUの採用により、ディープラーニングモデルの性能が劇的に向上しました。GPUは並列計算を実行できるため、ディープニューラルネットワークのトレーニングに伴う数学的処理に最適です。過去5年間で、より大規模な基盤モデルをサポートするために、GPUのスループットとメモリは10倍に増加しました。
高度に並列化されたアーキテクチャ：Transformerアーキテクチャにより、大規模なディープラーニングネットワークがハードウェアの並列性を活かせるようになりました。これにより、Transformerネットワークは、入力データ全体の中で大きく離れた要素間の長期的な依存関係や高次の相互作用を捉えることができます。これについては、マルチモーダル基盤モデルに関する前回の記事で詳しく説明しました。
膨大な量のトレーニングデータ：大規模なデータセットと、データ収集およびアノテーション技術の向上により、より大きく強力な基盤モデルの開発が可能になりました。GPT-2は40ギガバイトのデータでトレーニングされましたが、GPT-3はインターネットの大部分を含む570ギガバイトのデータでトレーニングされました。また、多くの企業や組織は公開されていない独自のデータセットを保有しており、これらを利用して大規模モデルをトレーニングしています。別のアプローチとして、文全体の意味を保ちながら単語やフレーズをランダムに置き換えるなどの手法により、既存のデータセットを拡張するデータ拡張（データオーグメンテーション）もあります。

コンピュータハードウェアの向上：GPUの採用により、ディープラーニングモデルの性能が劇的に向上しました。GPUは並列計算を実行できるため、ディープニューラルネットワークのトレーニングに伴う数学的処理に最適です。過去5年間で、より大規模な基盤モデルをサポートするために、GPUのスループットとメモリは10倍に増加しました。
高度に並列化されたアーキテクチャ：Transformerアーキテクチャにより、大規模なディープラーニングネットワークがハードウェアの並列性を活かせるようになりました。これにより、Transformerネットワークは、入力データ全体の中で大きく離れた要素間の長期的な依存関係や高次の相互作用を捉えることができます。これについては、マルチモーダル基盤モデルに関する前回の記事で詳しく説明しました。
膨大な量のトレーニングデータ：大規模なデータセットと、データ収集およびアノテーション技術の向上により、より大きく強力な基盤モデルの開発が可能になりました。GPT-2は40ギガバイトのデータでトレーニングされましたが、GPT-3はインターネットの大部分を含む570ギガバイトのデータでトレーニングされました。また、多くの企業や組織は公開されていない独自のデータセットを保有しており、これらを利用して大規模モデルをトレーニングしています。別のアプローチとして、文全体の意味を保ちながら単語やフレーズをランダムに置き換えるなどの手法により、既存のデータセットを拡張するデータ拡張（データオーグメンテーション）もあります。