会社情報

世界中の動画を検索可能にするため、Twelve Labsが500万ドルを調達

ジェー・リー

Twelve Labsは、Index Venturesが主導するシードラウンドで500万ドルを調達し、世界で最も強力なビデオ理解インフラストラクチャを構築します。このラウンドには、フェイフェイ・リー(Fei-Fei Li)、エイダン・ゴメズ(Aidan Gomez)、オーレン・エツィオーニ(Oren Etzioni)などのAI界の著名人や、Scale AI、Patreon、Cohereの創業者たちも参画しています。

Twelve Labsは、Index Venturesが主導するシードラウンドで500万ドルを調達し、世界で最も強力なビデオ理解インフラストラクチャを構築します。このラウンドには、フェイフェイ・リー(Fei-Fei Li)、エイダン・ゴメズ(Aidan Gomez)、オーレン・エツィオーニ(Oren Etzioni)などのAI界の著名人や、Scale AI、Patreon、Cohereの創業者たちも参画しています。

この記事の内容

No headings found on page

ニュースレターに登録する

ニュースレターに登録する

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

AIを活用してビデオを検索、分析、探索します。

2022/03/16

5 分

記事へのリンクをコピー

ハローワールド!

Twelve Labsは、Index Venturesが主導する500万ドルのシード資金調達ラウンドを完了したことを発表できることを嬉しく思います。

Twelve Labsのミッションは、世界で最も強力なビデオ理解インフラを提供することで、開発者が私たちと同じように世界を見て、聞き、理解できるプログラムを構築できるよう支援することです。

そして、世界にはインテリジェントなビデオ理解インフラが必要であるという私たちの信念を共有し、私たちと共にその未来を築くためにこのラウンドに参加してくれた、素晴らしい仲間たちをご紹介します。

世界をリードするAIの第一人者たち

  • スタンフォード大学のフェイフェイ・リ(Fei-Fei Li)氏

  • スタンフォード大学のシルヴィオ・サヴァレーゼ(Silvio Savarese)氏

  • Transformerの共同開発者であり、Cohere AIのCEOであるエイダン・ゴメス(Aidan Gomez)氏

  • アレン人工知能研究所(AI2)の教授兼CEOであるオーレン・エツィオーニ(Oren Etzioni)氏

世界を破壊する最も革新的な創業者たち

  • Scale AIのCEO、アレクサンドル・ワン(Alexandr Wang)氏

  • PatreonのCEO、ジャック・コンテ(Jack Conte)氏

  • Duo SecurityのCEO、ダグ・ソン(Dug Song)氏

  • ClickhouseのCEO、アーロン・カッツ(Aaron Katz)氏

  • SendbirdのCEO、ジョン・キム(John Kim)氏

  • DocugamiのCEO、ジーン・パオリ(Jean Paoli)氏

パラダイムシフトをもたらす投資家たち

世界の動画への依存度は高まるばかり

今日、世界中のデータの80%以上が動画です。実際にCiscoは2020年に、毎月世界のIPネットワークを行き交う量の動画を視聴するには500万年以上かかると予測しました。Nielsonによると、2021年に米国の成人は1日に5時間21秒を動画視聴に費やしていました。これは、私たちが起きている時間の3分の1に相当します!

これは非常に長く思えるかもしれませんが、YouTubeやNetflixを見たり、Zoomで通話をしたり、スマホで子供の動画を撮影したりしている時間を考えれば、信じるのは難しくありません。動画は定着しており、私たちの生活のあらゆる側面にますます深く浸透しています。

しかし、未だに「CTRL+F(検索)」がありません

私たちが毎日消費し、作成している莫大な量の動画データがあるにもかかわらず、動画内のコンテンツは依然として検索できません。300ページのテキスト文書の中から特定のフレーズを探すのであれば、シンプルな「CTRL+F」を使って1秒未満で見つけることができます。動画全体ではどうでしょうか?それは不可能です。

代わりに、私たちは非常に時間がかかる、あるいは効果の薄い不十分な方法に頼らざるを得ませんでした。分かりやすい回避策は、探しているものが見つかるまで手動ですべての動画を観ることです。大企業や組織では、後でテキスト検索でシーンを特定できるように、スタッフに何時間もかけてタイムコードごとにタグ(メタデータ)を書き込ませていました。今日のよりテクノロジーを活用したアプローチとしては、巨大テック企業のオブジェクト検出APIを使用して、画像内で検出されたオブジェクトに基づいてそれらのタグを自動生成する方法があります。

残念ながら、あらかじめ決められた限られた数のタグだけでは、シーンを完全に説明することは不可能です。シーンに適切なタグが付けられていなければ、メタデータ検索で見つけることはできません。そして最も重要なのは、タグ付けではいかなる文脈(コンテキスト)も考慮できないということです。そして、文脈こそが重要なのです。

なぜ文脈が重要なのでしょうか?人間は、シーン内のオブジェクト間の関係を形成し、過去と現在を繋ぎ合わせることで世界を理解します。私たちの検索方法は、私たちが世界を認識し、記憶する方法と同じです。タグが文脈理解を含めるほど複雑でない限り、検索の役には立ちません。

そこで、ビデオのための「CTRL+F」を作りました。

そこで私たちは、世界にふさわしい検索エンジンを構築しました。組織の膨大なZoom録画の中の注目すべき議論のポイントから、メディア企業のアーカイブ内の緊急に必要なシーン、さらには第一子の特別な日の思い出まで、検索するだけで探しているその瞬間を正確に見つけることができます。素晴らしいのは、覚えていることを思いついたままに入力するだけで、クエリに関連する正確なタイムコードとファイルにたどり着けることです。これはタグの一致ではなく、本物の検索です。

そして、仕組みは以下の通りです。

私たちのAIが学習することは、アクション、動き、会話などの視覚情報を含む、ビデオのコンテンツを視聴して理解することです(もちろん、状況や時間の文脈も含まれます!)。そして、ビデオに関するすべての情報を、ビデオのコンテンツを統計的に表す浮動小数のリストである「ベクトル」と呼ばれる強力な中間データ形式に変換します。ユーザーが検索クエリを入力すると、そのクエリに最も近いベクトルを見つけ、関連性の高いシーンとビデオファイル名を自動的に出力します。

そして、開発者がこのAIにアクセスするための直感的なインターフェースを用意しました。シンプルなIndexおよびSearchのAPIを呼び出すだけで、開発者はビデオ検索について実際に悩むことなく、強力な意味的(セマンティック)ビデオ検索を自社のビデオアプリケーションに統合できます。

強力と言うからには、文字通り最高レベルです。

そして、私たちは公式にこの分野で世界一です。昨年末、私たちは「巨大テック企業よりも優れているのか?」というような質問を受けることにうんざりしていました。そこで、Microsoftが主催するビデオ検索(Retrieval)のコンテスト「2021 ICCV VALUE Challenge」に参加することを決意しました。そして、見事1位を獲得しました!

私たちは、ベンチャー資金もなく、チームわずか12人という体制で、大手テック企業を抑え、Microsoftの従来の最高精度(SOTA)を上回ったことを誇りに思います。私たちがどのようにして世界の巨頭に打ち勝つことができたのか、CTOのエイダンによる説明はこちらをご覧ください。

私たちは、ビデオのための基盤モデルを構築しています。

私たちは、ビデオを理解することは世界を理解することだと信じています。ビデオを最も正確にベクトルに変換できる強力なビデオ理解インフラは、さらに優れた検索や、次世代のビデオを支えるその他のインテリジェントなアプリケーションへの道を開きます。これらのアプリケーションのほんの一部として、ビデオ対ビデオ検索、要約の生成、コンテンツのレコメンデーションなどが挙げられます。

ビデオを理解する基盤モデルを構築することで、私たちは開発者が、私たちと同じように世界を見て、聞き、理解するプログラムを構築できるよう支援します。

Twelve Labsは現在、ビデオ検索において世界一ですが、科学的に解明すべきことや改善すべき点はまだまだたくさんあると認識しています。私たちは、パートナーの皆様のご支援により実現できるイノベーションに、心から感謝し、興奮しています。

ハローワールド!

Twelve Labsは、Index Venturesが主導する500万ドルのシード資金調達ラウンドを完了したことを発表できることを嬉しく思います。

Twelve Labsのミッションは、世界で最も強力なビデオ理解インフラを提供することで、開発者が私たちと同じように世界を見て、聞き、理解できるプログラムを構築できるよう支援することです。

そして、世界にはインテリジェントなビデオ理解インフラが必要であるという私たちの信念を共有し、私たちと共にその未来を築くためにこのラウンドに参加してくれた、素晴らしい仲間たちをご紹介します。

世界をリードするAIの第一人者たち

  • スタンフォード大学のフェイフェイ・リ(Fei-Fei Li)氏

  • スタンフォード大学のシルヴィオ・サヴァレーゼ(Silvio Savarese)氏

  • Transformerの共同開発者であり、Cohere AIのCEOであるエイダン・ゴメス(Aidan Gomez)氏

  • アレン人工知能研究所(AI2)の教授兼CEOであるオーレン・エツィオーニ(Oren Etzioni)氏

世界を破壊する最も革新的な創業者たち

  • Scale AIのCEO、アレクサンドル・ワン(Alexandr Wang)氏

  • PatreonのCEO、ジャック・コンテ(Jack Conte)氏

  • Duo SecurityのCEO、ダグ・ソン(Dug Song)氏

  • ClickhouseのCEO、アーロン・カッツ(Aaron Katz)氏

  • SendbirdのCEO、ジョン・キム(John Kim)氏

  • DocugamiのCEO、ジーン・パオリ(Jean Paoli)氏

パラダイムシフトをもたらす投資家たち

世界の動画への依存度は高まるばかり

今日、世界中のデータの80%以上が動画です。実際にCiscoは2020年に、毎月世界のIPネットワークを行き交う量の動画を視聴するには500万年以上かかると予測しました。Nielsonによると、2021年に米国の成人は1日に5時間21秒を動画視聴に費やしていました。これは、私たちが起きている時間の3分の1に相当します!

これは非常に長く思えるかもしれませんが、YouTubeやNetflixを見たり、Zoomで通話をしたり、スマホで子供の動画を撮影したりしている時間を考えれば、信じるのは難しくありません。動画は定着しており、私たちの生活のあらゆる側面にますます深く浸透しています。

しかし、未だに「CTRL+F(検索)」がありません

私たちが毎日消費し、作成している莫大な量の動画データがあるにもかかわらず、動画内のコンテンツは依然として検索できません。300ページのテキスト文書の中から特定のフレーズを探すのであれば、シンプルな「CTRL+F」を使って1秒未満で見つけることができます。動画全体ではどうでしょうか?それは不可能です。

代わりに、私たちは非常に時間がかかる、あるいは効果の薄い不十分な方法に頼らざるを得ませんでした。分かりやすい回避策は、探しているものが見つかるまで手動ですべての動画を観ることです。大企業や組織では、後でテキスト検索でシーンを特定できるように、スタッフに何時間もかけてタイムコードごとにタグ(メタデータ)を書き込ませていました。今日のよりテクノロジーを活用したアプローチとしては、巨大テック企業のオブジェクト検出APIを使用して、画像内で検出されたオブジェクトに基づいてそれらのタグを自動生成する方法があります。

残念ながら、あらかじめ決められた限られた数のタグだけでは、シーンを完全に説明することは不可能です。シーンに適切なタグが付けられていなければ、メタデータ検索で見つけることはできません。そして最も重要なのは、タグ付けではいかなる文脈(コンテキスト)も考慮できないということです。そして、文脈こそが重要なのです。

なぜ文脈が重要なのでしょうか?人間は、シーン内のオブジェクト間の関係を形成し、過去と現在を繋ぎ合わせることで世界を理解します。私たちの検索方法は、私たちが世界を認識し、記憶する方法と同じです。タグが文脈理解を含めるほど複雑でない限り、検索の役には立ちません。

そこで、ビデオのための「CTRL+F」を作りました。

そこで私たちは、世界にふさわしい検索エンジンを構築しました。組織の膨大なZoom録画の中の注目すべき議論のポイントから、メディア企業のアーカイブ内の緊急に必要なシーン、さらには第一子の特別な日の思い出まで、検索するだけで探しているその瞬間を正確に見つけることができます。素晴らしいのは、覚えていることを思いついたままに入力するだけで、クエリに関連する正確なタイムコードとファイルにたどり着けることです。これはタグの一致ではなく、本物の検索です。

そして、仕組みは以下の通りです。

私たちのAIが学習することは、アクション、動き、会話などの視覚情報を含む、ビデオのコンテンツを視聴して理解することです(もちろん、状況や時間の文脈も含まれます!)。そして、ビデオに関するすべての情報を、ビデオのコンテンツを統計的に表す浮動小数のリストである「ベクトル」と呼ばれる強力な中間データ形式に変換します。ユーザーが検索クエリを入力すると、そのクエリに最も近いベクトルを見つけ、関連性の高いシーンとビデオファイル名を自動的に出力します。

そして、開発者がこのAIにアクセスするための直感的なインターフェースを用意しました。シンプルなIndexおよびSearchのAPIを呼び出すだけで、開発者はビデオ検索について実際に悩むことなく、強力な意味的(セマンティック)ビデオ検索を自社のビデオアプリケーションに統合できます。

強力と言うからには、文字通り最高レベルです。

そして、私たちは公式にこの分野で世界一です。昨年末、私たちは「巨大テック企業よりも優れているのか?」というような質問を受けることにうんざりしていました。そこで、Microsoftが主催するビデオ検索(Retrieval)のコンテスト「2021 ICCV VALUE Challenge」に参加することを決意しました。そして、見事1位を獲得しました!

私たちは、ベンチャー資金もなく、チームわずか12人という体制で、大手テック企業を抑え、Microsoftの従来の最高精度(SOTA)を上回ったことを誇りに思います。私たちがどのようにして世界の巨頭に打ち勝つことができたのか、CTOのエイダンによる説明はこちらをご覧ください。

私たちは、ビデオのための基盤モデルを構築しています。

私たちは、ビデオを理解することは世界を理解することだと信じています。ビデオを最も正確にベクトルに変換できる強力なビデオ理解インフラは、さらに優れた検索や、次世代のビデオを支えるその他のインテリジェントなアプリケーションへの道を開きます。これらのアプリケーションのほんの一部として、ビデオ対ビデオ検索、要約の生成、コンテンツのレコメンデーションなどが挙げられます。

ビデオを理解する基盤モデルを構築することで、私たちは開発者が、私たちと同じように世界を見て、聞き、理解するプログラムを構築できるよう支援します。

Twelve Labsは現在、ビデオ検索において世界一ですが、科学的に解明すべきことや改善すべき点はまだまだたくさんあると認識しています。私たちは、パートナーの皆様のご支援により実現できるイノベーションに、心から感謝し、興奮しています。