プレス

Twelve Labs、動画の文脈を理解するAIで1200万ドル(約18億円)を調達

カイル・ウィガーズ

Twelve Labsは、Radical Venturesをリードインベスターとして1,200万ドルのシード延長ラウンド(シードエクステンション)での資金調達を実施しました。同社は、ビデオから動き、物体、音声、および音を抽出するAIを構築しており、これによりセマンティック検索や、ビデオの要約、チャプター分割、Q&A(質問応答)といったアプリケーションの開発を可能にします。

Twelve Labsは、Radical Venturesをリードインベスターとして1,200万ドルのシード延長ラウンド(シードエクステンション)での資金調達を実施しました。同社は、ビデオから動き、物体、音声、および音を抽出するAIを構築しており、これによりセマンティック検索や、ビデオの要約、チャプター分割、Q&A(質問応答)といったアプリケーションの開発を可能にします。

この記事の内容

No headings found on page

ニュースレターに登録する

ニュースレターに登録する

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

AIを活用してビデオを検索、分析、探索します。

2022/12/05

4分

記事へのリンクをコピー

big data wave

データサイエンティストとしての教育を受けたジェ・リー(Jae Lee)氏にとって、TikTok、Vimeo、YouTube などのプラットフォームの台頭によって私たちの生活の非常に大きな部分を占めるようになった動画が、文脈理解という技術的な障壁のせいで検索しづらいというのは、どうしても納得がいきませんでした。動画のタイトル、説明、タグを検索するだけであれば、基本的なアルゴリズムだけで十分なので、いつでも簡単にできました。しかし、動画を内側から検索して特定の瞬間やシーンを見つけることは、特にそれらの瞬間やシーンが分かりやすいタグでラベル付けされていない場合、長きにわたりテクノロジーの能力を超えていました。

この課題を解決するため、リー氏はテック業界の仲間たちと共に、動画検索と理解のためのクラウドサービスを構築しました。これがTwelve Labsとなり、同社はこれまでに1,700万ドルのベンチャーキャピタルを調達しています。そのうち1,200万ドルは本日完了したシードエクステンションラウンドによるものです。リー氏がTechCrunchに電子メールで語ったところによると、このエクステンションラウンドはRadical Venturesが主導し、Index Ventures、WndrCo、Spring Ventures、Weights & BiasesのCEOであるLukas Biewald氏などが参加しました。

Twelve Labsのビジョンは、最も強力な動画理解インフラを提供することで、開発者が私たちと同じように世界を見て、聞き、理解できるプログラムを構築できるように支援することです。

「Twelve Labsのビジョンは、最も強力な動画理解インフラを提供することで、開発者が私たちと同じように世界を見て、聞き、理解できるプログラムを構築できるように支援することです」とリー氏は述べました。

現在クローズドベータ版であるTwelve Labsは、AIを使用して、動画から動きやアクション、オブジェクトと人物、音声、画面上のテキスト、スピーチなどの「豊富な情報」を抽出し、それらの間の関係性を認識しようと試みます。プラットフォームはこれらの多様な要素を「ベクトル」と呼ばれる数学的表現に変換し、フレーム間に「時間的接続」を形成することで、動画のシーン検索などのアプリケーションを実現します。

「開発者がインテリジェントな動画アプリケーションを作成できるように支援するという当社のビジョンを達成する一環として、Twelve Labsチームはマルチモーダルな動画理解のための『基盤モデル』を構築しています」とリー氏は語りました。「開発者は一連のAPIを通じてこれらのモデルにアクセスできるようになり、セマンティック検索だけでなく、長尺動画の『チャプター化』、要約生成、動画の質問応答(Q&A)などの他のタスクも実行できるようになります」

Googleも、同社のMUM AIシステムで同様の動画理解アプローチを採用しています。このシステムは、音声、テキスト、視覚的コンテンツに基づいて動画内の主題(例:「アクリル絵の具の画材」)を特定し、Google検索やYouTubeにおける動画レコメンデーションを支援するために使用されています。しかし、技術的には匹敵する可能性があるものの、Twelve Labsはそれを市場に投入した最初のベンダーの一つです。GoogleはMUMを社内に留めることを選択し、一般向けのAPIを介して提供することは拒否しています。

そうは言っても、Googleだけでなく、MicrosoftやAmazonも、動画内のオブジェクト、場所、アクションを認識し、フレームレベルで豊富なメタデータを抽出するサービス(Google Cloud Video AI、Azure Video Indexer、AWS Rekognitionなど)を提供しています。また、あらゆる種類の動画のインデックスを作成し、録画コンテンツとライブ配信コンテンツの両方にタグを追加できると主張する、フランスのコンピュータビジョン分野のスタートアップであるReminizもあります。しかしリー氏は、Twelve Labsには十分な差別化要因があると主張しています。その理由の一つは、同社のプラットフォームにより、顧客が動画コンテンツの特定のカテゴリに合わせてAIを微調整できるためです。

「私たちが発見したのは、特定の課題を検出するために作られた限定的なAI製品は、管理された環境下の理想的なシナリオでは高い精度を示しますが、複雑な現実世界のデータにはうまく適応できないということです」とリー氏は述べました。「それらはむしろルールベースのシステムとして従事しているため、差異が発生した際に一般化する能力に欠けています。私たちはこれも、文脈理解の欠如に根ざした限界であると考えています。文脈を理解することこそが、一見異なる現実世界の状況でも一般化を行うという、人間に備わったユニークな能力の源であり、これにおいてTwelve Labsの右に出る者はいません」

検索以外にも、Twelve Labsの技術は広告挿入やコンテンツモデレーションなどを促進し、例えばナイフが映っているどの動画が暴力的で、どれが使い方を説明しているものなのかをインテリジェントに判断できるようになるとリー氏は述べています。また、メディア分析やリアルタイムのフィードバック、動画からのハイライトシーンの自動生成にも使用できると同氏は言います。

設立(2021年3月)からわずか1年余りで、Twelve Labsには有料顧客がつき(リー氏は正確な数は明らかにしなかった)、Oracleのクラウドインフラを使用してAIモデルをトレーニングするためのOracleとの複数年契約も締結しました。先を見据え、このスタートアップは技術の構築とチームの拡充に投資する予定です。(リー氏はTwelve Labsの現在の従業員規模を明らかにすることを控えましたが、LinkedInのデータによると、約18人となっています。)

「ほとんどの企業にとって、大規模モデルを通じて得られる巨大な価値があるにもかかわらず、自社でこれらのモデルをトレーニングし、運用し、維持することは本当に意味をなしません。Twelve Labsのプラットフォームを活用することで、あらゆる組織がわずか数回の直感的なAPIコールだけで、強力な動画理解機能を活用できるようになります」とリー氏は述べました。「AIイノベーションの今後の方向性は、間違いなくマルチモーダルな動画理解へと向かっており、Twelve Labsは2023年にその限界をさらに押し広げる絶好のポジションにいます。」‍

big data wave

データサイエンティストとしての教育を受けたジェ・リー(Jae Lee)氏にとって、TikTok、Vimeo、YouTube などのプラットフォームの台頭によって私たちの生活の非常に大きな部分を占めるようになった動画が、文脈理解という技術的な障壁のせいで検索しづらいというのは、どうしても納得がいきませんでした。動画のタイトル、説明、タグを検索するだけであれば、基本的なアルゴリズムだけで十分なので、いつでも簡単にできました。しかし、動画を内側から検索して特定の瞬間やシーンを見つけることは、特にそれらの瞬間やシーンが分かりやすいタグでラベル付けされていない場合、長きにわたりテクノロジーの能力を超えていました。

この課題を解決するため、リー氏はテック業界の仲間たちと共に、動画検索と理解のためのクラウドサービスを構築しました。これがTwelve Labsとなり、同社はこれまでに1,700万ドルのベンチャーキャピタルを調達しています。そのうち1,200万ドルは本日完了したシードエクステンションラウンドによるものです。リー氏がTechCrunchに電子メールで語ったところによると、このエクステンションラウンドはRadical Venturesが主導し、Index Ventures、WndrCo、Spring Ventures、Weights & BiasesのCEOであるLukas Biewald氏などが参加しました。

Twelve Labsのビジョンは、最も強力な動画理解インフラを提供することで、開発者が私たちと同じように世界を見て、聞き、理解できるプログラムを構築できるように支援することです。

「Twelve Labsのビジョンは、最も強力な動画理解インフラを提供することで、開発者が私たちと同じように世界を見て、聞き、理解できるプログラムを構築できるように支援することです」とリー氏は述べました。

現在クローズドベータ版であるTwelve Labsは、AIを使用して、動画から動きやアクション、オブジェクトと人物、音声、画面上のテキスト、スピーチなどの「豊富な情報」を抽出し、それらの間の関係性を認識しようと試みます。プラットフォームはこれらの多様な要素を「ベクトル」と呼ばれる数学的表現に変換し、フレーム間に「時間的接続」を形成することで、動画のシーン検索などのアプリケーションを実現します。

「開発者がインテリジェントな動画アプリケーションを作成できるように支援するという当社のビジョンを達成する一環として、Twelve Labsチームはマルチモーダルな動画理解のための『基盤モデル』を構築しています」とリー氏は語りました。「開発者は一連のAPIを通じてこれらのモデルにアクセスできるようになり、セマンティック検索だけでなく、長尺動画の『チャプター化』、要約生成、動画の質問応答(Q&A)などの他のタスクも実行できるようになります」

Googleも、同社のMUM AIシステムで同様の動画理解アプローチを採用しています。このシステムは、音声、テキスト、視覚的コンテンツに基づいて動画内の主題(例:「アクリル絵の具の画材」)を特定し、Google検索やYouTubeにおける動画レコメンデーションを支援するために使用されています。しかし、技術的には匹敵する可能性があるものの、Twelve Labsはそれを市場に投入した最初のベンダーの一つです。GoogleはMUMを社内に留めることを選択し、一般向けのAPIを介して提供することは拒否しています。

そうは言っても、Googleだけでなく、MicrosoftやAmazonも、動画内のオブジェクト、場所、アクションを認識し、フレームレベルで豊富なメタデータを抽出するサービス(Google Cloud Video AI、Azure Video Indexer、AWS Rekognitionなど)を提供しています。また、あらゆる種類の動画のインデックスを作成し、録画コンテンツとライブ配信コンテンツの両方にタグを追加できると主張する、フランスのコンピュータビジョン分野のスタートアップであるReminizもあります。しかしリー氏は、Twelve Labsには十分な差別化要因があると主張しています。その理由の一つは、同社のプラットフォームにより、顧客が動画コンテンツの特定のカテゴリに合わせてAIを微調整できるためです。

「私たちが発見したのは、特定の課題を検出するために作られた限定的なAI製品は、管理された環境下の理想的なシナリオでは高い精度を示しますが、複雑な現実世界のデータにはうまく適応できないということです」とリー氏は述べました。「それらはむしろルールベースのシステムとして従事しているため、差異が発生した際に一般化する能力に欠けています。私たちはこれも、文脈理解の欠如に根ざした限界であると考えています。文脈を理解することこそが、一見異なる現実世界の状況でも一般化を行うという、人間に備わったユニークな能力の源であり、これにおいてTwelve Labsの右に出る者はいません」

検索以外にも、Twelve Labsの技術は広告挿入やコンテンツモデレーションなどを促進し、例えばナイフが映っているどの動画が暴力的で、どれが使い方を説明しているものなのかをインテリジェントに判断できるようになるとリー氏は述べています。また、メディア分析やリアルタイムのフィードバック、動画からのハイライトシーンの自動生成にも使用できると同氏は言います。

設立(2021年3月)からわずか1年余りで、Twelve Labsには有料顧客がつき(リー氏は正確な数は明らかにしなかった)、Oracleのクラウドインフラを使用してAIモデルをトレーニングするためのOracleとの複数年契約も締結しました。先を見据え、このスタートアップは技術の構築とチームの拡充に投資する予定です。(リー氏はTwelve Labsの現在の従業員規模を明らかにすることを控えましたが、LinkedInのデータによると、約18人となっています。)

「ほとんどの企業にとって、大規模モデルを通じて得られる巨大な価値があるにもかかわらず、自社でこれらのモデルをトレーニングし、運用し、維持することは本当に意味をなしません。Twelve Labsのプラットフォームを活用することで、あらゆる組織がわずか数回の直感的なAPIコールだけで、強力な動画理解機能を活用できるようになります」とリー氏は述べました。「AIイノベーションの今後の方向性は、間違いなくマルチモーダルな動画理解へと向かっており、Twelve Labsは2023年にその限界をさらに押し広げる絶好のポジションにいます。」‍