トゥエルブラップス
プロローグ - Twelve Labs韓国チームブログの開始にあたって

ハニ・ユー
トゥエルブラブス韓国チームのブログを始めます。映像AIを作る会社の技術と人々の物語 - Science、MLE、Engineeringチームが毎日直面する課題とアプローチ方法を直接お伝えします。
トゥエルブラブス韓国チームのブログを始めます。映像AIを作る会社の技術と人々の物語 - Science、MLE、Engineeringチームが毎日直面する課題とアプローチ方法を直接お伝えします。

この記事の内容
ニュースレターに登録する
ニュースレターに登録する
ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします
ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします
AIを活用してビデオを検索、分析、探索します。
2026/03/20
3分
記事へのリンクをコピー
映像は、これまでに作られたデータの中で最も豊かな形式のデータです。テキストは出来事を記録し、オーディオはその瞬間を捉えます。しかし、映像は異なります。何が、どのような順序で、どのような文脈で起きたのか、空間と時間が連動した状態で映し出します。
それにもかかわらず、AIはまだ映像を十分に理解できていません。LLMに映像を入力するとどうなるでしょうか?映像をテキストのように細切れにして読もうとします。まるで映画を字幕だけで理解しようとするかのように。その過程で、動き、因果関係、時間の経過といった、映像を映像たらしめている要素が消え去ってしまいます。映像の理解は、テキスト理解の延長線上にあるのではなく、最初から異なるアプローチが必要な問題なのです。Twelve Labs(トゥエルブ・ラボ)が存在する理由はここにあります。

Twelve Labsは、映像理解のためのAIモデルを開発している会社です。 テキストは単語で、画像はピクセルで表現できますが、映像は時間が流れるシーンの連続です。「何が起きているのか?」、「どのような順序で?」、「文脈は何か?」—これらの問いを同時に処理することが、映像理解の本質です。一言で言えば、非常に困難な課題です。
当社のアプローチは2つのフェーズに分かれています。Marengoが映像を検索可能な情報に変換し、Pegasusがその情報をベースに要約と分析を生成します。オリジナルの映像データから意味のある知識まで—2つのモデルがこの流れを形作っています。

この2つのモデルは、3つのチームが共同で開発しています。
Scienceチームは、モデルの根本的な性能を研究しています。「映像をどのように表現すれば、機械がより良く理解できるか?」—正解のない問いに毎日向き合っているチームです。難しいからこそ、やりがいのある課題に挑んでいます。
MLE(機械学習エンジニアリング)チームは、研究とプロダクトの間をつなぎます。どんなに優れたモデルであっても、実際に高速かつ安定して動作しなければ意味がありません。学習パイプラインからサービングの最適化まで、研究を現実に落とし込むプロセスを担うチームです。
Engineeringチームは、そのすべてが顧客に届く形を作り上げます。API設計、インフラ、プロダクト全般—ユーザーがTwelve Labsを体験する接点の大部分が、このチームから生み出されます。

📌 読む前に知っておくと役立つ3つの言葉
本編に入る前に、頻出する3つの用語を紹介します。あらかじめ知っておくと、内容がより深く理解しやすくなります。
Multimodal AI(マルチモーダルAI) — テキスト、画像、オーディオ、映像フレームを同時に処理するAIです。単一のモダリティのみを扱うモデルとは、設計手法そのものが異なります。これらのモダリティが時間軸上で連動して動くことこそが、映像理解を困難にする要因の一つです。
https://youtu.be/FS3sotFXqIU?si=m7_BkOvisqOYkPJ1
Semantic Search(セマンティック検索) — キーワードではなく、意味(文脈)で検索する手法です。「緊迫した交渉シーン」という言葉がメタデータになくても、該当するシーンを見つけ出すことができます。Googleで「あのシーン、主人公が雨の中で走っているシーン」と検索したいと思ったことがあるなら、これがなぜ必要なのかすぐに納得していただけるはずです。
https://youtu.be/8HhRjF9ylUY?si=y-Sd8O3ULh2mSGtW
Vector Embedding(ベクトル埋め込み) — AIが映像、テキスト、画像を数値ベクトルに変換して意味を表現する手法です。類似した意味を持つコンテンツは、ベクトル空間上で近くに配置されます。Marengoが映像を「理解」するための技術的な基盤でもあります。
https://www.youtube.com/watch?v=rCvwShACn80
このブログでは、Twelve Labsが生み出している技術と、その技術を創り上げているメンバーたちのストーリーをお届けします。
今後は、Science、MLE、Engineeringの各チームマネージャーへのインタビューを通じて、それぞれのチームが解決している問題、そのアプローチ、試行錯誤と突破のプロセスをご紹介します。また、メンバーが執筆した技術的なコンテンツやインサイトなども共有していく予定です。
Twelve Labsがどのような課題にどのように取り組んでいるのか気になっていた方は、ぜひご覧ください。
Twelve Labsのストーリーが今、始まります。
映像は、これまでに作られたデータの中で最も豊かな形式のデータです。テキストは出来事を記録し、オーディオはその瞬間を捉えます。しかし、映像は異なります。何が、どのような順序で、どのような文脈で起きたのか、空間と時間が連動した状態で映し出します。
それにもかかわらず、AIはまだ映像を十分に理解できていません。LLMに映像を入力するとどうなるでしょうか?映像をテキストのように細切れにして読もうとします。まるで映画を字幕だけで理解しようとするかのように。その過程で、動き、因果関係、時間の経過といった、映像を映像たらしめている要素が消え去ってしまいます。映像の理解は、テキスト理解の延長線上にあるのではなく、最初から異なるアプローチが必要な問題なのです。Twelve Labs(トゥエルブ・ラボ)が存在する理由はここにあります。

Twelve Labsは、映像理解のためのAIモデルを開発している会社です。 テキストは単語で、画像はピクセルで表現できますが、映像は時間が流れるシーンの連続です。「何が起きているのか?」、「どのような順序で?」、「文脈は何か?」—これらの問いを同時に処理することが、映像理解の本質です。一言で言えば、非常に困難な課題です。
当社のアプローチは2つのフェーズに分かれています。Marengoが映像を検索可能な情報に変換し、Pegasusがその情報をベースに要約と分析を生成します。オリジナルの映像データから意味のある知識まで—2つのモデルがこの流れを形作っています。

この2つのモデルは、3つのチームが共同で開発しています。
Scienceチームは、モデルの根本的な性能を研究しています。「映像をどのように表現すれば、機械がより良く理解できるか?」—正解のない問いに毎日向き合っているチームです。難しいからこそ、やりがいのある課題に挑んでいます。
MLE(機械学習エンジニアリング)チームは、研究とプロダクトの間をつなぎます。どんなに優れたモデルであっても、実際に高速かつ安定して動作しなければ意味がありません。学習パイプラインからサービングの最適化まで、研究を現実に落とし込むプロセスを担うチームです。
Engineeringチームは、そのすべてが顧客に届く形を作り上げます。API設計、インフラ、プロダクト全般—ユーザーがTwelve Labsを体験する接点の大部分が、このチームから生み出されます。

📌 読む前に知っておくと役立つ3つの言葉
本編に入る前に、頻出する3つの用語を紹介します。あらかじめ知っておくと、内容がより深く理解しやすくなります。
Multimodal AI(マルチモーダルAI) — テキスト、画像、オーディオ、映像フレームを同時に処理するAIです。単一のモダリティのみを扱うモデルとは、設計手法そのものが異なります。これらのモダリティが時間軸上で連動して動くことこそが、映像理解を困難にする要因の一つです。
https://youtu.be/FS3sotFXqIU?si=m7_BkOvisqOYkPJ1
Semantic Search(セマンティック検索) — キーワードではなく、意味(文脈)で検索する手法です。「緊迫した交渉シーン」という言葉がメタデータになくても、該当するシーンを見つけ出すことができます。Googleで「あのシーン、主人公が雨の中で走っているシーン」と検索したいと思ったことがあるなら、これがなぜ必要なのかすぐに納得していただけるはずです。
https://youtu.be/8HhRjF9ylUY?si=y-Sd8O3ULh2mSGtW
Vector Embedding(ベクトル埋め込み) — AIが映像、テキスト、画像を数値ベクトルに変換して意味を表現する手法です。類似した意味を持つコンテンツは、ベクトル空間上で近くに配置されます。Marengoが映像を「理解」するための技術的な基盤でもあります。
https://www.youtube.com/watch?v=rCvwShACn80
このブログでは、Twelve Labsが生み出している技術と、その技術を創り上げているメンバーたちのストーリーをお届けします。
今後は、Science、MLE、Engineeringの各チームマネージャーへのインタビューを通じて、それぞれのチームが解決している問題、そのアプローチ、試行錯誤と突破のプロセスをご紹介します。また、メンバーが執筆した技術的なコンテンツやインサイトなども共有していく予定です。
Twelve Labsがどのような課題にどのように取り組んでいるのか気になっていた方は、ぜひご覧ください。
Twelve Labsのストーリーが今、始まります。





