会社情報

Twelve Labsは、ビデオを分析して検索できるAIを構築しています

カイル・ウィガーズ

Twelve Labsは、ビデオ第一主義のAIモデルを構築し、開発者が視覚、音声、テキストを横断してビデオコンテンツを検索、要約、分析できるようにしています。そのプラットフォームには3万人以上の開発者が登録しており、DatabricksやSnowflakeとの戦略的な統合も実現しています。

Twelve Labsは、ビデオ第一主義のAIモデルを構築し、開発者が視覚、音声、テキストを横断してビデオコンテンツを検索、要約、分析できるようにしています。そのプラットフォームには3万人以上の開発者が登録しており、DatabricksやSnowflakeとの戦略的な統合も実現しています。

この記事の内容

No headings found on page

ニュースレターに登録する

ニュースレターに登録する

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

AIを活用してビデオを検索、分析、探索します。

2024/12/12

3分

記事へのリンクをコピー

TechCrunchの全記事はこちらからお読みいただけます。

テキストと同様に動画を理解するAIモデルは、強力な新しいアプリケーションを実現できます。少なくとも、Twelve Labsの共同創業者であるジェイ・リー(Jae Lee)氏はそう信じています。

確かに、リー氏の見解には多少の偏りがあるかもしれません。Twelve Labsは、さまざまなユースケース向けに動画分析モデルをトレーニングしています。しかし、彼の主張には一理あるかもしれません。

Twelve Labsのモデルを使用すると、ユーザーは動画の中から特定の瞬間を検索したり、クリップを要約したり、「赤いシャツを着た人物がレストランに入ったのはいつか?」といった質問をしたりできます。これは非常に強力な機能群であり、同社がNvidia、Samsung、Intelなどの著名な支援者を惹きつけている理由もおそらくそこにあります。

動画検索

データサイエンティストとしてのバックグラウンドを持つリー氏にとって、動画に対する従来の検索方法は決して理にかなったものではありませんでした。キーワード検索では、タイトル、タグ、説明を抽出することはできますが、クリップの実際のコンテンツにたどり着くことはできません。

「動画は最も急速に成長しており、最もデータ集約的なメディアですが、ほとんどの組織はすべての動画アーカイブを精査するために人的資源を割くつもりはありません」と、リー氏はTechCrunchに語りました。「手動でタグ付けを試みたとしても、問題は解決しません。動画の中で特定の瞬間やアングルを見つけることは、干し草の山から針を探すようなものです」

より良い解決策が見つからなかったため、リー氏は仲間のエイデン・リー(Aiden Lee)、SJ・キム(SJ Kim)、デイブ・チュン(Dave Chung)、ソヨン・リー(Soyoung Lee)を募って解決策を構築しました。これがTwelve Labsの始まりであり、同社はテキストを、アクション、オブジェクト、背景音など、動画内で起きていることとマッピングするモデルをトレーニングしています。

GoogleのGeminiのようなモデルは映像内を検索でき、MicrosoftやAmazonなどもクリップ内のオブジェクトを特定するための動画分析サービスを提供しています。しかしリー氏は、Twelve Labsの製品はカスタマイズオプションにおいて一線を画しており、顧客が自社のデータを使用してモデルを微調整できると主張しています。

Twelve Labs

「OpenAIやGoogleのような企業は、汎用的なマルチモーダルモデルに多大な投資を行っています」とリー氏は述べます。「しかし、これらのモデルは動画に最適化されていません。私たちの差別化要因は、最初から動画ファーストであることです。私たちは、動画こそが私たちの唯一の焦点に値すると信じています。それは追加機能ではありません」

開発者はTwelve Labsのモデル上でアプリを作成し、動画映像全体の検索などを行うことができます。同社の技術は、広告挿入、コンテンツモデレーション、クリップからのハイライト動画の自動生成などを推進できます。

私が昨年リー氏と話した際、Twelve Labsのモデルにおけるバイアスの可能性について尋ねました。これは大きなリスク要因です。2021年の研究では、地域のニュース(犯罪を人種差別的な方法で報道しがちである)のクリップで動画理解モデルをトレーニングすると、モデルが人種差別的なパターンを学習する可能性があることが判明しました。

リー氏は当時、Twelve Labsがモデルの倫理に関連するベンチマークやデータセットをリリースする計画であると述べていました。同社はまだリリースしていません。最近の対話で、リー氏はこれらのツールは準備中であり、Twelve Labsはリリース前にすべてのモデルに対してバイアステストを実施していると私に確約しました。

「正式なバイアスベンチマークをまだリリースしていないのは、それらが有意義で実用的、かつ実行可能なものであることを確認したいためです」と彼は述べました。「私たちの全体的な目標は、自らの責任を証明するだけでなく、業界の基準を設定するベンチマークを開発することです。この目標を完全に達成するまで(現在チームがこれに取り組んでいます)、私たちは組織に責任ある力を与え、人々の市民的自由を尊重し、技術変化を推進するAIの構築に積極的に取り組んでいます」

リー氏はさらに、Twelve Labsはパブリックドメインとライセンスデータの組み合わせでモデルをトレーニングしており、トレーニングのために顧客データを利用することはないと付け加えました。

関連製品:セマンティックAI動画検索

成長モード

動画分析は引き続きTwelve Labsの事業の中核です。しかし、俊敏性を維持するための取り組みとして、同社は「any-to-any(任意から任意)」検索やマルチモーダル埋め込み(embeddings)などの分野にも進出しています。

Twelve Labsのモデルの1つであるMarengoは、動画に加えて画像や音声にわたる検索が可能で、検索のガイドとなる参照用の音声録音、画像、または動画クリップを受け入れることができます。

他にも、同社は動画、テキスト、画像、音声ファイル用のマルチモーダル埋め込みを作成するためのAPIである「Embed API」を提供しています。埋め込みとは、異なるデータポイント間の意味や関係性を捉える数学的表現であり、異常検知などのアプリケーションに役立ちます。

Twelve Labsの拡大する製品ポートフォリオは、同社がエンタープライズ、メディア、エンターテインメント分野での顧客獲得に役立っています。主要なパートナーの2社はDatabricksとSnowflakeであり、両社ともTwelve Labsのツールを自社の製品に組み込んでいます。

Databricksは、顧客が既存のデータパイプラインからTwelve Labsの埋め込みサービスを呼び出せる統合機能を開発しました。一方、Snowflakeは、フルマネージドAIサービスであるCortex AIにおいて、Twelve Labsモデルへのコネクタを作成しています。

「現在、当社のプラットフォームを利用しているデベロッパーは3万人を超えており、実験を行っている個人から、当社の技術をワークフローに統合している大企業まで多岐にわたります」とリー氏は述べました。「例えば、地方自治体と提携して、リアルタイムの脅威検知、緊急対応時間の短縮、交通管理の支援などのユースケースに取り組んでいます」

戦略的支援の表れとして、DatabricksとSnowflakeの両社は、それぞれのベンチャー部門を通じて今月Twelve Labsに投資しました。SK TelecomとHubSpot Venturesも加わり、米国情報コミュニティを支援するスタートアップに投資するバージニア州アーリントン拠点の非営利VCであるIn-Q-Telも参加しました。

新規投資の総額は3,000万ドルに達し、Twelve Labsの累計調達額は1億710万ドルとなりました。リー氏によると、この資金は製品開発と採用に充てられる予定です。

「当社の財務状況は非常に強力ですが、Twelve Labsを深く信頼してくれるリーダーたちとの重要な戦略的関係を深める絶好の機会だと捉えました」とリー氏は述べました。「現在、73人のフルタイム従業員が在籍しており、エンジニアリング、研究、および顧客対応の職種における採用に大幅な投資を計画しています」

新しい採用

採用といえば、Twelve Labsは木曜日、経営陣にプレジデントを加えることを発表しました。元SK TelecomのCTOであり、AppleのSiriの主要な設計者であるユン・キム(Yoon Kim)氏です。ユン氏はTwelve Labsのチーフ・ストラテジー・オフィサー(最高戦略責任者)も兼任し、同社の積極的な拡大計画を主導します。

「Twelve Labsのような設立年数やステージの企業がプレジデントを採用するのは異例ですが、この動きは私たちが経験している需要の証です」とリー氏は述べ、ユン氏はTwelve Labsのサンフランシスコ本社とソウルオフィスを行き来することになると付け加えました。「ユン氏は私たちの実行を支援する最適な人物であり、主要な買収による将来の成長の促進、グローバル展開の拡大、そして野心的な目標に向けたチームの連携に不可欠な存在となるでしょう」

リー氏は、今後数年間で自動車やセキュリティなどの新規および隣接する垂直市場へと成長していくことを目指していると述べています。In-Q-Telの関与を考慮すると、セキュリティ(そしておそらく防衛関連の業務)は確実に関わってくると思われますが、リー氏は明言を避けました。

「In-Q-Telからの投資は、国家安全保障を含む多くの分野における当社の技術の多用途性と可能性を反映しています」とリー氏は述べました。「当社の倫理ガイドラインに合致し、当社の技術が積極的、有意義、かつ責任ある影響を与えることができる機会を探求することに対して、私たちは常にオープンです」

TechCrunchの全記事はこちらからお読みいただけます。

テキストと同様に動画を理解するAIモデルは、強力な新しいアプリケーションを実現できます。少なくとも、Twelve Labsの共同創業者であるジェイ・リー(Jae Lee)氏はそう信じています。

確かに、リー氏の見解には多少の偏りがあるかもしれません。Twelve Labsは、さまざまなユースケース向けに動画分析モデルをトレーニングしています。しかし、彼の主張には一理あるかもしれません。

Twelve Labsのモデルを使用すると、ユーザーは動画の中から特定の瞬間を検索したり、クリップを要約したり、「赤いシャツを着た人物がレストランに入ったのはいつか?」といった質問をしたりできます。これは非常に強力な機能群であり、同社がNvidia、Samsung、Intelなどの著名な支援者を惹きつけている理由もおそらくそこにあります。

動画検索

データサイエンティストとしてのバックグラウンドを持つリー氏にとって、動画に対する従来の検索方法は決して理にかなったものではありませんでした。キーワード検索では、タイトル、タグ、説明を抽出することはできますが、クリップの実際のコンテンツにたどり着くことはできません。

「動画は最も急速に成長しており、最もデータ集約的なメディアですが、ほとんどの組織はすべての動画アーカイブを精査するために人的資源を割くつもりはありません」と、リー氏はTechCrunchに語りました。「手動でタグ付けを試みたとしても、問題は解決しません。動画の中で特定の瞬間やアングルを見つけることは、干し草の山から針を探すようなものです」

より良い解決策が見つからなかったため、リー氏は仲間のエイデン・リー(Aiden Lee)、SJ・キム(SJ Kim)、デイブ・チュン(Dave Chung)、ソヨン・リー(Soyoung Lee)を募って解決策を構築しました。これがTwelve Labsの始まりであり、同社はテキストを、アクション、オブジェクト、背景音など、動画内で起きていることとマッピングするモデルをトレーニングしています。

GoogleのGeminiのようなモデルは映像内を検索でき、MicrosoftやAmazonなどもクリップ内のオブジェクトを特定するための動画分析サービスを提供しています。しかしリー氏は、Twelve Labsの製品はカスタマイズオプションにおいて一線を画しており、顧客が自社のデータを使用してモデルを微調整できると主張しています。

Twelve Labs

「OpenAIやGoogleのような企業は、汎用的なマルチモーダルモデルに多大な投資を行っています」とリー氏は述べます。「しかし、これらのモデルは動画に最適化されていません。私たちの差別化要因は、最初から動画ファーストであることです。私たちは、動画こそが私たちの唯一の焦点に値すると信じています。それは追加機能ではありません」

開発者はTwelve Labsのモデル上でアプリを作成し、動画映像全体の検索などを行うことができます。同社の技術は、広告挿入、コンテンツモデレーション、クリップからのハイライト動画の自動生成などを推進できます。

私が昨年リー氏と話した際、Twelve Labsのモデルにおけるバイアスの可能性について尋ねました。これは大きなリスク要因です。2021年の研究では、地域のニュース(犯罪を人種差別的な方法で報道しがちである)のクリップで動画理解モデルをトレーニングすると、モデルが人種差別的なパターンを学習する可能性があることが判明しました。

リー氏は当時、Twelve Labsがモデルの倫理に関連するベンチマークやデータセットをリリースする計画であると述べていました。同社はまだリリースしていません。最近の対話で、リー氏はこれらのツールは準備中であり、Twelve Labsはリリース前にすべてのモデルに対してバイアステストを実施していると私に確約しました。

「正式なバイアスベンチマークをまだリリースしていないのは、それらが有意義で実用的、かつ実行可能なものであることを確認したいためです」と彼は述べました。「私たちの全体的な目標は、自らの責任を証明するだけでなく、業界の基準を設定するベンチマークを開発することです。この目標を完全に達成するまで(現在チームがこれに取り組んでいます)、私たちは組織に責任ある力を与え、人々の市民的自由を尊重し、技術変化を推進するAIの構築に積極的に取り組んでいます」

リー氏はさらに、Twelve Labsはパブリックドメインとライセンスデータの組み合わせでモデルをトレーニングしており、トレーニングのために顧客データを利用することはないと付け加えました。

関連製品:セマンティックAI動画検索

成長モード

動画分析は引き続きTwelve Labsの事業の中核です。しかし、俊敏性を維持するための取り組みとして、同社は「any-to-any(任意から任意)」検索やマルチモーダル埋め込み(embeddings)などの分野にも進出しています。

Twelve Labsのモデルの1つであるMarengoは、動画に加えて画像や音声にわたる検索が可能で、検索のガイドとなる参照用の音声録音、画像、または動画クリップを受け入れることができます。

他にも、同社は動画、テキスト、画像、音声ファイル用のマルチモーダル埋め込みを作成するためのAPIである「Embed API」を提供しています。埋め込みとは、異なるデータポイント間の意味や関係性を捉える数学的表現であり、異常検知などのアプリケーションに役立ちます。

Twelve Labsの拡大する製品ポートフォリオは、同社がエンタープライズ、メディア、エンターテインメント分野での顧客獲得に役立っています。主要なパートナーの2社はDatabricksとSnowflakeであり、両社ともTwelve Labsのツールを自社の製品に組み込んでいます。

Databricksは、顧客が既存のデータパイプラインからTwelve Labsの埋め込みサービスを呼び出せる統合機能を開発しました。一方、Snowflakeは、フルマネージドAIサービスであるCortex AIにおいて、Twelve Labsモデルへのコネクタを作成しています。

「現在、当社のプラットフォームを利用しているデベロッパーは3万人を超えており、実験を行っている個人から、当社の技術をワークフローに統合している大企業まで多岐にわたります」とリー氏は述べました。「例えば、地方自治体と提携して、リアルタイムの脅威検知、緊急対応時間の短縮、交通管理の支援などのユースケースに取り組んでいます」

戦略的支援の表れとして、DatabricksとSnowflakeの両社は、それぞれのベンチャー部門を通じて今月Twelve Labsに投資しました。SK TelecomとHubSpot Venturesも加わり、米国情報コミュニティを支援するスタートアップに投資するバージニア州アーリントン拠点の非営利VCであるIn-Q-Telも参加しました。

新規投資の総額は3,000万ドルに達し、Twelve Labsの累計調達額は1億710万ドルとなりました。リー氏によると、この資金は製品開発と採用に充てられる予定です。

「当社の財務状況は非常に強力ですが、Twelve Labsを深く信頼してくれるリーダーたちとの重要な戦略的関係を深める絶好の機会だと捉えました」とリー氏は述べました。「現在、73人のフルタイム従業員が在籍しており、エンジニアリング、研究、および顧客対応の職種における採用に大幅な投資を計画しています」

新しい採用

採用といえば、Twelve Labsは木曜日、経営陣にプレジデントを加えることを発表しました。元SK TelecomのCTOであり、AppleのSiriの主要な設計者であるユン・キム(Yoon Kim)氏です。ユン氏はTwelve Labsのチーフ・ストラテジー・オフィサー(最高戦略責任者)も兼任し、同社の積極的な拡大計画を主導します。

「Twelve Labsのような設立年数やステージの企業がプレジデントを採用するのは異例ですが、この動きは私たちが経験している需要の証です」とリー氏は述べ、ユン氏はTwelve Labsのサンフランシスコ本社とソウルオフィスを行き来することになると付け加えました。「ユン氏は私たちの実行を支援する最適な人物であり、主要な買収による将来の成長の促進、グローバル展開の拡大、そして野心的な目標に向けたチームの連携に不可欠な存在となるでしょう」

リー氏は、今後数年間で自動車やセキュリティなどの新規および隣接する垂直市場へと成長していくことを目指していると述べています。In-Q-Telの関与を考慮すると、セキュリティ(そしておそらく防衛関連の業務)は確実に関わってくると思われますが、リー氏は明言を避けました。

「In-Q-Telからの投資は、国家安全保障を含む多くの分野における当社の技術の多用途性と可能性を反映しています」とリー氏は述べました。「当社の倫理ガイドラインに合致し、当社の技術が積極的、有意義、かつ責任ある影響を与えることができる機会を探求することに対して、私たちは常にオープンです」