プレス

Twelve Labs、500万ドルのシードラウンド資金調達により、動画内検索をシンプルかつ強力に

デヴィン・コールドウェイ

Twelve Labsは、Index Venturesが主導する500万ドルのシードラウンドを調達しました。同社は、マルチモーダルAIを通じてビデオコンテンツを検索可能にするAPIを構築しており、ユーザーはタグやメタデータではなく、複雑な自然言語のクエリを使用してビデオ内の特定の瞬間を見つけることができます。

Twelve Labsは、Index Venturesが主導する500万ドルのシードラウンドを調達しました。同社は、マルチモーダルAIを通じてビデオコンテンツを検索可能にするAPIを構築しており、ユーザーはタグやメタデータではなく、複雑な自然言語のクエリを使用してビデオ内の特定の瞬間を見つけることができます。

この記事の内容

No headings found on page

ニュースレターに登録する

ニュースレターに登録する

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

AIを活用してビデオを検索、分析、探索します。

2022/03/16

3分

記事へのリンクをコピー

Illustration of a magnifying glass over several video windows.

動画が私たちの日常的なメディアのやり取りや作成の多くを占めるようになるにつれて、そのコンテンツを追跡・索引化する必要性も高まっています。私がその質問をしたのは、どの会議やセミナーだったでしょうか?税制に関する部分があったのは、どの講義だったでしょうか?Twelve Labsは、動画の要約と検索のための機械学習ソリューションを提供しており、消費者とクリエイターの双方にとって、より迅速で簡単な作業を実現できる可能性があります。

このスタートアップが提供する機能は、「コートニーが国歌を歌ったオフィスパーティー」といった複雑でありながら曖昧な検索クエリを入力すると、動画だけでなく、それが起こっている動画内の瞬間を即座に特定できることです。彼らはこれを「動画用のCtrl-F」(Macユーザーの皆さんにとってはcommand-Fです)と表現しています。

「でも待って、今でも動画の検索はできるじゃないか!」と思うかもしれません。確かに、YouTubeや大学のアーカイブなどでは、探している動画を見つけられることがよくあります。しかし、その後はどうなるでしょうか?探している箇所を見つけるために動画をシーク(早送り/巻き戻し)したり、彼らがどのように表現したかを推測しながら正確なフレーズを探してトランスクリプトをスクロールしたりすることになります。

これは、動画を検索する際、実際にはタグや説明文など、大規模に簡単に追加できる基本的な要素を検索しているためです。探している動画を表示するためのアルゴリズム的な魔法は存在しますが、システム自体は動画そのものを本当には理解していないのです。

「業界は、タグが検索を解決できると考えて問題を単純化しすぎています」とTwelve Labsの創業者兼CEOであるジェ・リー(Jae Lee)氏は述べています。そして現在、多くのソリューションは、例えば動画の一部のフレームに猫が含まれていることを認識し、それに#catsというタグを追加することに依存しています。「しかし、動画は単なる一連の画像の集まりではなく、複雑なデータです。私たちは、視覚と音声の両方を取り込み、それを取り巻く文脈を形成できる新しいニューラルネットワークを構築する必要があると考えていました。それがマルチモーダル理解と呼ばれるものです」

これは、現在のAI分野におけるトレンドワードです。なぜなら、音声や静止画像といった1つの「感覚」にのみ焦点を当てている場合、AIシステムが世界を理解する能力には限界に達しつつあるように見えるからです。例えば、画像とテキストの両方に同時に細心の注意を払うAIが、誤情報やヘイトスピーチを検出するために必要であることをFacebookは最近発見しました。

動画においては、個々のフレームを見てタイムスタンプ付きのトランスクリプトとの関連性を見出そうとするだけでは、理解に限界が生じます。人間が動画を視聴するとき、彼らは自然と動画と音声の情報を融合させ、登場人物、行動、意図、因果関係、相互作用、その他のより高度な概念として理解します。

Twelve Labsは、同社の動画理解システムによって、これに沿ったものを構築したと主張しています。リー氏は、このAIがマルチモーダルな視点から動画にアプローチするように訓練されており、最初から音声と動画を関連付けることで、動画に対するより豊かな理解を生み出していると説明しました。

「フレーム内のアイテム間の関係、過去と現在の接続など、より複雑な情報を含めることで、複雑なクエリの実行が可能になります」と彼は同氏は述べています。「例えば、あるYouTuberが『Mr BeastがJoey Chestnutにバーガーを食べる挑戦を挑む』と検索したとします。AIは誰かに挑戦すること、そして挑戦について話すことの概念を理解します」

もちろん、プロであるMr Beastなら、その特定のデータをタイトルやタグに入れているかもしれませんが、それが単なる通常のVlogや挑戦シリーズの一部だったらどうなるでしょうか?Mr Beastがその日疲れていて、すべてのメタデータを正しく入力していなかったらどうなるでしょうか?もし12個、あるいは1000個のバーガー挑戦があり、動画検索がJoey ChestnutとJosie Acornの違いを区別できなかったらどうなるでしょうか?コンテンツの表面的な理解に依存している限り、失敗する原因はたくさんあります。もしあなたが1万本の動画を検索可能にしたいと考えている企業であれば、現在の市場にあるものよりも、はるかに優れていて、かつ手間のかからないものを求めるはずです。

Twelve Labsは、動画(または1000本の動画)のインデックスを作成し、リッチな要約を生成して選択したグラフに接続するために呼び出すことができるシンプルなAPIを構築しました。そのため、全社ミーティング、スキル共有セミナー、週次のブレインストーミングセッションなどを記録すると、それらは時間や出席者だけでなく、誰が、いつ、何について話しているか、さらには図を描いたりスライドを表示したりするなどの他のアクションを含めて検索可能になります。

「組織のデータを大量に持つ企業が、CEOが特定の概念について話している、あるいは発表している瞬間を見つけることに関心を持っている例を見てきました」とリー氏は語ります。「私たちはデータポイントや興味深いユースケースを収集するために、関係者と非常に意図的に取り組んできました。多くの事例が集まっています」

Simulation of a Twelve Labs search within videos.

検索用に動画を処理し、結果としてその中で何が起こっているかを理解することの副産物は、要約やキャプションを生成する能力です。これも改善の余地がある分野です。自動生成されるキャプションの品質には大きなばらつきがあり、それらを検索したり、動画内の特定の人物や状況に関連付けたりするなどの高度な機能も同様です。そして、要約は今やあらゆる分野で注目を集めている領域です。すべてを視聴する時間が誰にもないからという理由だけでなく、バリアフリーからアーカイブ目的まで、あらゆる場面で高レベルな要約が極めて価値を持つからです。

重要なのは、このAPIは適用されるコーパス(データ群)に合わせて、よりうまく機能するように微調整ができる点です。たとえば、専門用語が多かったり、馴染みのない状況がいくつかあったりする場合でも、役員会議や標準的なビジネスの対話(それが何であれ)のような一般的な状況と同じくらい上手く機能するようにトレーニングすることができます。そしてそれは、大学の講義やセキュリティ映像、料理などの映像に適用する前の段階の話です。

その点において、この会社は機械学習の「大規模ネットワーク」スタイルを非常に強く支持しています。これほど複雑なデータを理解し、これほど多様な結果を出力できるAIモデルを作ることは、トレーニングとデプロイに大規模で計算負荷の高いプロセスが必要であることを意味します。しかし、この問題にはそれが必要であるとリー氏は語ります。

「私たちは大規模なニューラルネットワークを強く信じていますが、パラメーターのサイズをただ増やすだけではありません」と彼は言います。「数十億のパラメーターを持っていますが、効率を高めるために多くの技術的な功夫(カンフー)を施しています。すべてのフレームを見ないようにするなど、軽いアルゴリズムが重要なフレームを特定するなどの処理を行っています。言語理解やマルチモーダルの分野では、まだ解明されるべき科学がたくさんあります。しかし、大規模ネットワークの目的は、投入されたデータの統計的表現を学習させることであり、その概念を私たちは非常に強く信じています」

Twelve Labsは世の中の多くの動画のインデックス作成を支援したいと考えていますが、ユーザーとしてそれを意識することはないでしょう。デベロッパー向けのプレイグラウンドを除けば、何かを検索できるTwelve Labsのウェブプラットフォーム自体は存在しません。このAPIは既存の技術スタックに統合されるように設計されているため、通常通り動画を検索すれば、その結果が劇的に改善されるようになっています(同社はこのAPIが他のモデルを圧倒するベンチマーク結果を示しています)。

Google、Netflix、Amazonといった企業が、まさにこのような動画理解モデルに取り組んでいることはほぼ確実ですが、リー氏は全く気にしていない様子です。「歴史を振り返れば、YouTubeやTikTokのような大企業における検索は、彼らのプラットフォームに極めて特化しており、彼らのビジネスの核心部分です」と彼は言います。「彼らがメイン技術を切り出して、潜在的な顧客に提供することを心配していません。私たちのベータパートナーのほとんどは、これら大企業のいわゆる『ソリューション』を試した後に、私たちのところへやって来ました」

同社はベータ版から市場への展開を進めるため、500万ドルのシードラウンド資金を調達しました。このラウンドはIndex Venturesが主導し、Radical Ventures、Expa、そしてTechstars Seattleが参加しました。さらに、スタンフォード大学のAIリーダーであるフェイフェイ・リ(Fei-Fei Li)氏、Scale AIのCEOであるアレックス・ワン(Alex Wang)氏、PatreonのCEOであるジェック・コンテ(Jack Conte)氏、AI2のオーレン・エツィオーニ(Oren Etzioni)氏などのエンジェル投資家も参加しています。

今後の計画は、ベータパートナーにとって最も有用であることが証明された機能を構築し、近い将来にオープンサービスとしてデビューすることです。

Illustration of a magnifying glass over several video windows.

動画が私たちの日常的なメディアのやり取りや作成の多くを占めるようになるにつれて、そのコンテンツを追跡・索引化する必要性も高まっています。私がその質問をしたのは、どの会議やセミナーだったでしょうか?税制に関する部分があったのは、どの講義だったでしょうか?Twelve Labsは、動画の要約と検索のための機械学習ソリューションを提供しており、消費者とクリエイターの双方にとって、より迅速で簡単な作業を実現できる可能性があります。

このスタートアップが提供する機能は、「コートニーが国歌を歌ったオフィスパーティー」といった複雑でありながら曖昧な検索クエリを入力すると、動画だけでなく、それが起こっている動画内の瞬間を即座に特定できることです。彼らはこれを「動画用のCtrl-F」(Macユーザーの皆さんにとってはcommand-Fです)と表現しています。

「でも待って、今でも動画の検索はできるじゃないか!」と思うかもしれません。確かに、YouTubeや大学のアーカイブなどでは、探している動画を見つけられることがよくあります。しかし、その後はどうなるでしょうか?探している箇所を見つけるために動画をシーク(早送り/巻き戻し)したり、彼らがどのように表現したかを推測しながら正確なフレーズを探してトランスクリプトをスクロールしたりすることになります。

これは、動画を検索する際、実際にはタグや説明文など、大規模に簡単に追加できる基本的な要素を検索しているためです。探している動画を表示するためのアルゴリズム的な魔法は存在しますが、システム自体は動画そのものを本当には理解していないのです。

「業界は、タグが検索を解決できると考えて問題を単純化しすぎています」とTwelve Labsの創業者兼CEOであるジェ・リー(Jae Lee)氏は述べています。そして現在、多くのソリューションは、例えば動画の一部のフレームに猫が含まれていることを認識し、それに#catsというタグを追加することに依存しています。「しかし、動画は単なる一連の画像の集まりではなく、複雑なデータです。私たちは、視覚と音声の両方を取り込み、それを取り巻く文脈を形成できる新しいニューラルネットワークを構築する必要があると考えていました。それがマルチモーダル理解と呼ばれるものです」

これは、現在のAI分野におけるトレンドワードです。なぜなら、音声や静止画像といった1つの「感覚」にのみ焦点を当てている場合、AIシステムが世界を理解する能力には限界に達しつつあるように見えるからです。例えば、画像とテキストの両方に同時に細心の注意を払うAIが、誤情報やヘイトスピーチを検出するために必要であることをFacebookは最近発見しました。

動画においては、個々のフレームを見てタイムスタンプ付きのトランスクリプトとの関連性を見出そうとするだけでは、理解に限界が生じます。人間が動画を視聴するとき、彼らは自然と動画と音声の情報を融合させ、登場人物、行動、意図、因果関係、相互作用、その他のより高度な概念として理解します。

Twelve Labsは、同社の動画理解システムによって、これに沿ったものを構築したと主張しています。リー氏は、このAIがマルチモーダルな視点から動画にアプローチするように訓練されており、最初から音声と動画を関連付けることで、動画に対するより豊かな理解を生み出していると説明しました。

「フレーム内のアイテム間の関係、過去と現在の接続など、より複雑な情報を含めることで、複雑なクエリの実行が可能になります」と彼は同氏は述べています。「例えば、あるYouTuberが『Mr BeastがJoey Chestnutにバーガーを食べる挑戦を挑む』と検索したとします。AIは誰かに挑戦すること、そして挑戦について話すことの概念を理解します」

もちろん、プロであるMr Beastなら、その特定のデータをタイトルやタグに入れているかもしれませんが、それが単なる通常のVlogや挑戦シリーズの一部だったらどうなるでしょうか?Mr Beastがその日疲れていて、すべてのメタデータを正しく入力していなかったらどうなるでしょうか?もし12個、あるいは1000個のバーガー挑戦があり、動画検索がJoey ChestnutとJosie Acornの違いを区別できなかったらどうなるでしょうか?コンテンツの表面的な理解に依存している限り、失敗する原因はたくさんあります。もしあなたが1万本の動画を検索可能にしたいと考えている企業であれば、現在の市場にあるものよりも、はるかに優れていて、かつ手間のかからないものを求めるはずです。

Twelve Labsは、動画(または1000本の動画)のインデックスを作成し、リッチな要約を生成して選択したグラフに接続するために呼び出すことができるシンプルなAPIを構築しました。そのため、全社ミーティング、スキル共有セミナー、週次のブレインストーミングセッションなどを記録すると、それらは時間や出席者だけでなく、誰が、いつ、何について話しているか、さらには図を描いたりスライドを表示したりするなどの他のアクションを含めて検索可能になります。

「組織のデータを大量に持つ企業が、CEOが特定の概念について話している、あるいは発表している瞬間を見つけることに関心を持っている例を見てきました」とリー氏は語ります。「私たちはデータポイントや興味深いユースケースを収集するために、関係者と非常に意図的に取り組んできました。多くの事例が集まっています」

Simulation of a Twelve Labs search within videos.

検索用に動画を処理し、結果としてその中で何が起こっているかを理解することの副産物は、要約やキャプションを生成する能力です。これも改善の余地がある分野です。自動生成されるキャプションの品質には大きなばらつきがあり、それらを検索したり、動画内の特定の人物や状況に関連付けたりするなどの高度な機能も同様です。そして、要約は今やあらゆる分野で注目を集めている領域です。すべてを視聴する時間が誰にもないからという理由だけでなく、バリアフリーからアーカイブ目的まで、あらゆる場面で高レベルな要約が極めて価値を持つからです。

重要なのは、このAPIは適用されるコーパス(データ群)に合わせて、よりうまく機能するように微調整ができる点です。たとえば、専門用語が多かったり、馴染みのない状況がいくつかあったりする場合でも、役員会議や標準的なビジネスの対話(それが何であれ)のような一般的な状況と同じくらい上手く機能するようにトレーニングすることができます。そしてそれは、大学の講義やセキュリティ映像、料理などの映像に適用する前の段階の話です。

その点において、この会社は機械学習の「大規模ネットワーク」スタイルを非常に強く支持しています。これほど複雑なデータを理解し、これほど多様な結果を出力できるAIモデルを作ることは、トレーニングとデプロイに大規模で計算負荷の高いプロセスが必要であることを意味します。しかし、この問題にはそれが必要であるとリー氏は語ります。

「私たちは大規模なニューラルネットワークを強く信じていますが、パラメーターのサイズをただ増やすだけではありません」と彼は言います。「数十億のパラメーターを持っていますが、効率を高めるために多くの技術的な功夫(カンフー)を施しています。すべてのフレームを見ないようにするなど、軽いアルゴリズムが重要なフレームを特定するなどの処理を行っています。言語理解やマルチモーダルの分野では、まだ解明されるべき科学がたくさんあります。しかし、大規模ネットワークの目的は、投入されたデータの統計的表現を学習させることであり、その概念を私たちは非常に強く信じています」

Twelve Labsは世の中の多くの動画のインデックス作成を支援したいと考えていますが、ユーザーとしてそれを意識することはないでしょう。デベロッパー向けのプレイグラウンドを除けば、何かを検索できるTwelve Labsのウェブプラットフォーム自体は存在しません。このAPIは既存の技術スタックに統合されるように設計されているため、通常通り動画を検索すれば、その結果が劇的に改善されるようになっています(同社はこのAPIが他のモデルを圧倒するベンチマーク結果を示しています)。

Google、Netflix、Amazonといった企業が、まさにこのような動画理解モデルに取り組んでいることはほぼ確実ですが、リー氏は全く気にしていない様子です。「歴史を振り返れば、YouTubeやTikTokのような大企業における検索は、彼らのプラットフォームに極めて特化しており、彼らのビジネスの核心部分です」と彼は言います。「彼らがメイン技術を切り出して、潜在的な顧客に提供することを心配していません。私たちのベータパートナーのほとんどは、これら大企業のいわゆる『ソリューション』を試した後に、私たちのところへやって来ました」

同社はベータ版から市場への展開を進めるため、500万ドルのシードラウンド資金を調達しました。このラウンドはIndex Venturesが主導し、Radical Ventures、Expa、そしてTechstars Seattleが参加しました。さらに、スタンフォード大学のAIリーダーであるフェイフェイ・リ(Fei-Fei Li)氏、Scale AIのCEOであるアレックス・ワン(Alex Wang)氏、PatreonのCEOであるジェック・コンテ(Jack Conte)氏、AI2のオーレン・エツィオーニ(Oren Etzioni)氏などのエンジェル投資家も参加しています。

今後の計画は、ベータパートナーにとって最も有用であることが証明された機能を構築し、近い将来にオープンサービスとしてデビューすることです。