トゥエルブラップス
意味の境界を求めて:映像を理解する埋め込み(Embedding)を作る人々

ダン・キム、スー・キム
「埋め込み(Embedding)は非可逆圧縮である。何をどれだけ削れば意味が生き残るのか。」Twelve LabsのLead ML Scientistを務めるDanが、2018年から追い求めてきた問いと、その答えを映像(動画)に求める理由について語ります。
「埋め込み(Embedding)は非可逆圧縮である。何をどれだけ削れば意味が生き残るのか。」Twelve LabsのLead ML Scientistを務めるDanが、2018年から追い求めてきた問いと、その答えを映像(動画)に求める理由について語ります。

この記事の内容
ニュースレターに登録する
ニュースレターに登録する
ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします
ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします
AIを活用してビデオを検索、分析、探索します。
2026/04/10
7分
記事へのリンクをコピー
Twelve Labsで動画埋め込みモデル「Marengo」と動画検索システムをリードしているDan氏は、2018年からマルチモーダル埋め込みを研究してきた。画像とテキストから始まり、現在は動画を意味単位で理解する課題に取り組んでいる。彼が動画を選んだのは、まだ誰も明確な答えを出せていない課題が残されているからだ。そして、その課題に真剣に向き合っている会社が世界中でここしかないからである。
Q. 2018年から埋め込みを研究されているのですね。最初から動画を扱っていたのですか?
最初は画像とテキストの共同表現(joint representation)でした。2つのモダリティを同じ埋め込み空間上に載せる研究でしたが、その頃からずっと付きまとっている疑問が一つあります。
「埋め込みが意味のある情報を含むためには、どれほどアトミック(微細)な単位で切り取るべきなのか?」
埋め込みというのは、結局のところ「不可逆圧縮」です。世界の情報を圧縮して、一つのベクトル点に収める作業です。『ロード・オブ・ザ・リング』の全編を500次元のベクトル一つにまとめれば、大半の情報は失われます。かといって、細かく切りすぎると文脈が消えてしまう。その境界線をどこに引くべきなのか。この問いが、最終的に私を動画へと導きました。
Q. なぜ動画だったのでしょうか?
最も研究が進んでいない分野だったからです。PDFにはレイアウトがあります。画像がどこにあり、テキストがどこにあるのか、構造がプログラム的に定義されています。ウェブページもHTMLとCSSで各要素の関係が明示されています。
しかし、動画はどうでしょうか?フレームが時系列に並んでいるということ以外に、それらのフレーム間の関係を定義するマークアップ言語はありません。どこで一つのシーンが終わり、次のシーンが始まるのか。アカデミアでもまだ明確な答えがない問いです。動画はデータ規模が非常に大きく、インダストリアルスケール(産業規模)でなければ研究自体が不可能です。そのため、この特殊な環境でしか解決できない課題に取り組みたかったのです。
Q. 現在は具体的にどのようなものを作っているのですか?
大きく分けて二つの軸があります。一つは動画検索の精度の向上、もう一つは埋め込みモデル自体の進化です。
検索側で現在注力しているのは「リランキング(再順位付け)」です。従来のMarengoが行っているのは、埋め込み間の類似度で結果をソートすることです。しかし、この方式では1位と5位が互いを認識していません。各自がクエリとだけ比較して終わるのです。リランカー(Reranker)は、上位K個の結果をすべて一箇所に集めて、「クエリを基準にもう一度考えてみて」と促すモデルです。1位が5位を見て「実はこっちの方が合っているのでは?」となれば、順位が入れ替わります。同じクエリであっても、検索結果の鮮明さがまったく異なります。
Q. 動画を「どう切り取るか」というのは、実際にどれほど重要な問題なのですか?
銃を撃つシーンを考えてみてください。そのシーンは長くても2秒程度です。しかし、単純に10秒ごとに区切ってしまうと、その2秒間の銃撃シーンが前後のまったく異なるシーンと一つの塊になってしまいます。埋め込みに前後の意味情報がすべて混ざり合ってしまうのです。その埋め込みに対して「銃撃シーンを探して」と要求したとき、検索結果が曖昧になるのは当然のことです。
そこで、動画を意味単位で検出して切り分けるモデルを別途開発しています。この課題に対する直接的なアプローチです。固定長で区切るのではなく、正確なシーン間の境界線とその構造をモデル自身が発見するのです。これは検索の精度だけでなく、動画理解全般の品質を決定づける基礎技術となります。
Q. より大きなビジョンにおいて、Marengoが目指す方向は?
「階層構造」です。意味単位で切り分けたものが、それぞれ埋め込みを持ちます。しかし、これらの単位を内包する上位の埋め込みを再構成できたらどうなるでしょうか。
サッカーの動画であれば、前半と後半に分けられます。前半は「Aチームの攻勢シーン」「Bチームの攻勢シーン」にさらに分けられ、その中で個々のアクションにも分解できます。これが階層構造を成すわけです。ユーザーが「ターンオーバーが多く発生した前半戦」と尋ねれば、大まかな上位の埋め込みが答え、「コーナーキックのシーン」を尋ねれば、最も小さな単位で正確に指し示します。同一のシステム、同一の検索インターフェース上で、質問のレイヤー(解像度)に応じて異なるレベルで応答する構造です。
Q. 仕事をしていて最もやりがいを感じた瞬間はいつですか?
グローバルなビッグテックで埋め込みモデルを担当している方が、実際にMarengoを試してみて、その性能に驚いたという話をまた聞きしたことがあります。その会社が埋め込みを作れないわけではありません。ただ、多くの企業において、埋め込みはLLM(大規模言語モデル)の副産物です。生成モデルを作り、そこから派生した埋め込みモデルをリリースする構造です。埋め込み自体を事業の中心に据えている会社はほとんどありません。
Marengoは違います。Pegasusから派生したものではありません。Marengoが源流です。LLMレベルのリソースと真摯さを埋め込みに注ぎ込んでいる企業は、世界的に見てもTwelve Labsが唯一無二だと自負しています。動画というプライマリーな(主要な)モダリティに集中しているため、他社が検討すらしていない課題(動画をどう切り分けるか、リアルタイムストリームからどう意味を抽出するかなど)を、ここでは核心的な研究テーマとして扱っています。
Q. アカデミアの研究と、ここでの研究はどう異なるのですか?
アカデミアは極力「一般的な(generalな)」答えを模索します。論文の引用数を増やすためには、広範な研究者が自身の研究に応用できるようにする必要があるからです。スコープを可能な限り広く保ちながら探求するのが、アカデミアにおける最適化戦略です。
産業界の研究は逆の動きをします。明確なターゲット市場があり、ユーザーのニーズが存在します。スコープをその中に絞り込むこと自体が、性能向上に直結します。同じ努力で、はるかに精巧な成果を出せる構造なのです。しかし、これを学会に提出すると「一般的ではない」というレビューが返ってきます。2020年代半ばになり、優れたプロダクトとしてのモデルを持つ世界的なAI企業が、伝統的な学会にあまり寄稿しなくなったのは、やりたくないからではなく、この構造的な乖離が原因です。
Twelve Labsが素晴らしいのは、この研究を顧客とのフィードバックループを通じて設計できる点にあります。「数ペタバイトの動画ライセンスを購入するかどうかを、この10GBのサンプルで判断してくれ」といった、本物のビジネス課題が研究の方向性を決定づけるのです。アカデミアには存在すらしない問題です。そして、その問題を解決できる環境がここにはあります。数ペタバイトの実際の動画データ、本物の顧客、そしてリアルなフィードバックまでが揃っています。
Q. 実際の働く環境はどのような感じですか?
私は今、この取材を受けている最中も、バックグラウンドでエージェントを走らせています。昨日は夕食を食べているときに、それらのうち一つがダウンしたという通知をSlackで受け取り、落ち着きませんでした。良いことなのか悪いことなのかは分かりませんが、今はそのような方法で仕事をする時代です。
Twelve Labsには「Tokens Never Sleep」というポリシーがあります。AIツールの使用制限を設けないというものです。これは単なる福利厚生ではありません。この時代にどのように働くべきかを直接経験させるための仕組みです。他社では制限があったり、そもそもサポートがなかったりすることが多いですが、その差は将来的に非常に大きくなると考えています。
また、企業によくある「従うべき型」がないことにも、最初は戸惑いました。「Aプロセスの標準はどうなっていますか?」と尋ねたら、「Danさんが最適だと思うプロセスで再定義していただいて構いませんよ」といった具合です。しかし、今ではそれが強みだと感じています。古いシステムを神聖視しないため、これまでにない優れたツールを使って、最初から設計し直すことができるからです。
Q. どのような人がこの環境に合い、どのような人には合わないと思いますか?
率直に言うと、決められた枠の中で指示されたことを完璧にこなすことに満足を覚える方には合いません。ここでは課題を自ら定義する必要がある場合が非常に多いからです。方向転換も頻繁に起こります。自分が熱心に作ったものであっても、より良いアプローチが見つかれば変更しなければならず、そこに対する心理的なこだわり(サンクコスト効果)が強い方には厳しいかもしれません。
逆に、誰も解決していない問題を見つけて取り組みたい人、そしてそれが実際のプロダクトに反映されるのを見届けたい人にとっては、これ以上の環境はないと思います。動画埋め込みというニッチな領域において、世界最前線を走っている企業が世界にいくつあるでしょうか。
Q. 最後に、参画を検討している方々に向けてメッセージをお願いします。
人類の伝統的な働き方は、そう遠くない将来に大きく変わるだろうと考えています。この変革が完了する前に、ワークフローの最前線を体験できる場所で働くチャンスを逃さないでほしいと伝えたいです。誰もが、あらゆることをエンドツーエンドでオーナーシップを持って遂行できる時代が近づいています。その準備を整えられる環境がここにはあります。権限も、リソースも、本物の課題もすべてが揃っている環境です。
ワクワクするなら、あなたに合った場所のはずです。
Dan氏はTwelve LabsのLead ML Scientistであり、Marengo EmbeddingおよびSearchシステムの開発を率いています。Twelve Labsでは、共に挑戦する仲間を募集しています。 → twelvelabs.io/careers
Twelve Labsで動画埋め込みモデル「Marengo」と動画検索システムをリードしているDan氏は、2018年からマルチモーダル埋め込みを研究してきた。画像とテキストから始まり、現在は動画を意味単位で理解する課題に取り組んでいる。彼が動画を選んだのは、まだ誰も明確な答えを出せていない課題が残されているからだ。そして、その課題に真剣に向き合っている会社が世界中でここしかないからである。
Q. 2018年から埋め込みを研究されているのですね。最初から動画を扱っていたのですか?
最初は画像とテキストの共同表現(joint representation)でした。2つのモダリティを同じ埋め込み空間上に載せる研究でしたが、その頃からずっと付きまとっている疑問が一つあります。
「埋め込みが意味のある情報を含むためには、どれほどアトミック(微細)な単位で切り取るべきなのか?」
埋め込みというのは、結局のところ「不可逆圧縮」です。世界の情報を圧縮して、一つのベクトル点に収める作業です。『ロード・オブ・ザ・リング』の全編を500次元のベクトル一つにまとめれば、大半の情報は失われます。かといって、細かく切りすぎると文脈が消えてしまう。その境界線をどこに引くべきなのか。この問いが、最終的に私を動画へと導きました。
Q. なぜ動画だったのでしょうか?
最も研究が進んでいない分野だったからです。PDFにはレイアウトがあります。画像がどこにあり、テキストがどこにあるのか、構造がプログラム的に定義されています。ウェブページもHTMLとCSSで各要素の関係が明示されています。
しかし、動画はどうでしょうか?フレームが時系列に並んでいるということ以外に、それらのフレーム間の関係を定義するマークアップ言語はありません。どこで一つのシーンが終わり、次のシーンが始まるのか。アカデミアでもまだ明確な答えがない問いです。動画はデータ規模が非常に大きく、インダストリアルスケール(産業規模)でなければ研究自体が不可能です。そのため、この特殊な環境でしか解決できない課題に取り組みたかったのです。
Q. 現在は具体的にどのようなものを作っているのですか?
大きく分けて二つの軸があります。一つは動画検索の精度の向上、もう一つは埋め込みモデル自体の進化です。
検索側で現在注力しているのは「リランキング(再順位付け)」です。従来のMarengoが行っているのは、埋め込み間の類似度で結果をソートすることです。しかし、この方式では1位と5位が互いを認識していません。各自がクエリとだけ比較して終わるのです。リランカー(Reranker)は、上位K個の結果をすべて一箇所に集めて、「クエリを基準にもう一度考えてみて」と促すモデルです。1位が5位を見て「実はこっちの方が合っているのでは?」となれば、順位が入れ替わります。同じクエリであっても、検索結果の鮮明さがまったく異なります。
Q. 動画を「どう切り取るか」というのは、実際にどれほど重要な問題なのですか?
銃を撃つシーンを考えてみてください。そのシーンは長くても2秒程度です。しかし、単純に10秒ごとに区切ってしまうと、その2秒間の銃撃シーンが前後のまったく異なるシーンと一つの塊になってしまいます。埋め込みに前後の意味情報がすべて混ざり合ってしまうのです。その埋め込みに対して「銃撃シーンを探して」と要求したとき、検索結果が曖昧になるのは当然のことです。
そこで、動画を意味単位で検出して切り分けるモデルを別途開発しています。この課題に対する直接的なアプローチです。固定長で区切るのではなく、正確なシーン間の境界線とその構造をモデル自身が発見するのです。これは検索の精度だけでなく、動画理解全般の品質を決定づける基礎技術となります。
Q. より大きなビジョンにおいて、Marengoが目指す方向は?
「階層構造」です。意味単位で切り分けたものが、それぞれ埋め込みを持ちます。しかし、これらの単位を内包する上位の埋め込みを再構成できたらどうなるでしょうか。
サッカーの動画であれば、前半と後半に分けられます。前半は「Aチームの攻勢シーン」「Bチームの攻勢シーン」にさらに分けられ、その中で個々のアクションにも分解できます。これが階層構造を成すわけです。ユーザーが「ターンオーバーが多く発生した前半戦」と尋ねれば、大まかな上位の埋め込みが答え、「コーナーキックのシーン」を尋ねれば、最も小さな単位で正確に指し示します。同一のシステム、同一の検索インターフェース上で、質問のレイヤー(解像度)に応じて異なるレベルで応答する構造です。
Q. 仕事をしていて最もやりがいを感じた瞬間はいつですか?
グローバルなビッグテックで埋め込みモデルを担当している方が、実際にMarengoを試してみて、その性能に驚いたという話をまた聞きしたことがあります。その会社が埋め込みを作れないわけではありません。ただ、多くの企業において、埋め込みはLLM(大規模言語モデル)の副産物です。生成モデルを作り、そこから派生した埋め込みモデルをリリースする構造です。埋め込み自体を事業の中心に据えている会社はほとんどありません。
Marengoは違います。Pegasusから派生したものではありません。Marengoが源流です。LLMレベルのリソースと真摯さを埋め込みに注ぎ込んでいる企業は、世界的に見てもTwelve Labsが唯一無二だと自負しています。動画というプライマリーな(主要な)モダリティに集中しているため、他社が検討すらしていない課題(動画をどう切り分けるか、リアルタイムストリームからどう意味を抽出するかなど)を、ここでは核心的な研究テーマとして扱っています。
Q. アカデミアの研究と、ここでの研究はどう異なるのですか?
アカデミアは極力「一般的な(generalな)」答えを模索します。論文の引用数を増やすためには、広範な研究者が自身の研究に応用できるようにする必要があるからです。スコープを可能な限り広く保ちながら探求するのが、アカデミアにおける最適化戦略です。
産業界の研究は逆の動きをします。明確なターゲット市場があり、ユーザーのニーズが存在します。スコープをその中に絞り込むこと自体が、性能向上に直結します。同じ努力で、はるかに精巧な成果を出せる構造なのです。しかし、これを学会に提出すると「一般的ではない」というレビューが返ってきます。2020年代半ばになり、優れたプロダクトとしてのモデルを持つ世界的なAI企業が、伝統的な学会にあまり寄稿しなくなったのは、やりたくないからではなく、この構造的な乖離が原因です。
Twelve Labsが素晴らしいのは、この研究を顧客とのフィードバックループを通じて設計できる点にあります。「数ペタバイトの動画ライセンスを購入するかどうかを、この10GBのサンプルで判断してくれ」といった、本物のビジネス課題が研究の方向性を決定づけるのです。アカデミアには存在すらしない問題です。そして、その問題を解決できる環境がここにはあります。数ペタバイトの実際の動画データ、本物の顧客、そしてリアルなフィードバックまでが揃っています。
Q. 実際の働く環境はどのような感じですか?
私は今、この取材を受けている最中も、バックグラウンドでエージェントを走らせています。昨日は夕食を食べているときに、それらのうち一つがダウンしたという通知をSlackで受け取り、落ち着きませんでした。良いことなのか悪いことなのかは分かりませんが、今はそのような方法で仕事をする時代です。
Twelve Labsには「Tokens Never Sleep」というポリシーがあります。AIツールの使用制限を設けないというものです。これは単なる福利厚生ではありません。この時代にどのように働くべきかを直接経験させるための仕組みです。他社では制限があったり、そもそもサポートがなかったりすることが多いですが、その差は将来的に非常に大きくなると考えています。
また、企業によくある「従うべき型」がないことにも、最初は戸惑いました。「Aプロセスの標準はどうなっていますか?」と尋ねたら、「Danさんが最適だと思うプロセスで再定義していただいて構いませんよ」といった具合です。しかし、今ではそれが強みだと感じています。古いシステムを神聖視しないため、これまでにない優れたツールを使って、最初から設計し直すことができるからです。
Q. どのような人がこの環境に合い、どのような人には合わないと思いますか?
率直に言うと、決められた枠の中で指示されたことを完璧にこなすことに満足を覚える方には合いません。ここでは課題を自ら定義する必要がある場合が非常に多いからです。方向転換も頻繁に起こります。自分が熱心に作ったものであっても、より良いアプローチが見つかれば変更しなければならず、そこに対する心理的なこだわり(サンクコスト効果)が強い方には厳しいかもしれません。
逆に、誰も解決していない問題を見つけて取り組みたい人、そしてそれが実際のプロダクトに反映されるのを見届けたい人にとっては、これ以上の環境はないと思います。動画埋め込みというニッチな領域において、世界最前線を走っている企業が世界にいくつあるでしょうか。
Q. 最後に、参画を検討している方々に向けてメッセージをお願いします。
人類の伝統的な働き方は、そう遠くない将来に大きく変わるだろうと考えています。この変革が完了する前に、ワークフローの最前線を体験できる場所で働くチャンスを逃さないでほしいと伝えたいです。誰もが、あらゆることをエンドツーエンドでオーナーシップを持って遂行できる時代が近づいています。その準備を整えられる環境がここにはあります。権限も、リソースも、本物の課題もすべてが揃っている環境です。
ワクワクするなら、あなたに合った場所のはずです。
Dan氏はTwelve LabsのLead ML Scientistであり、Marengo EmbeddingおよびSearchシステムの開発を率いています。Twelve Labsでは、共に挑戦する仲間を募集しています。 → twelvelabs.io/careers




