会社情報
マルチモーダルAI(23Labs)ハッカソンのご紹介

ジェームズ・リー
Twelve LabsとElevenLabsは、10月14日〜15日にサンフランシスコで「23Labs Hackathon」を共同開催します。このハッカソンには開発者が集まり、音声とビデオを組み合わせたマルチモーダルAIアプリケーションを構築します。10,000ドル以上の賞金(現金およびクレジット)が用意されています。
Twelve LabsとElevenLabsは、10月14日〜15日にサンフランシスコで「23Labs Hackathon」を共同開催します。このハッカソンには開発者が集まり、音声とビデオを組み合わせたマルチモーダルAIアプリケーションを構築します。10,000ドル以上の賞金(現金およびクレジット)が用意されています。

この記事の内容
ニュースレターに登録する
ニュースレターに登録する
ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします
ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします
AIを活用してビデオを検索、分析、探索します。
2023/10/09
5分
記事へのリンクをコピー
マルチモーダルAIのエキサイティングな世界へようこそ!Cerebral Valley、Eleven Labs、そしてTwelve Labsが主催する23Labs Hackathonが、サンフランシスコの歴史あるフェリービルディング内にあるShack 15にて、10月14日と15日に開催されます。このイベントは、クリエイティブな人材と革新的なテクノロジーを集結させ、音声、ビデオ、その他のモダリティを組み合わせて画期的なアプリケーションを生み出す急速に台頭しつつある分野、マルチモーダルAIの可能性を探ることを目的としています。
参加者にはEleven Labs、Twelve Labs、その他のパートナーのAPIアクセス権が付与され、これら最先端のスタートアップのチームから直接サポートを受けながら、クリエイティビティに焦点を当てたツールを構築できます。1万ドルを超える賞金とクレジットが用意されており、このハッカソンはすべての参加者にとって忘れられない体験となるでしょう。
ElevenLabsとTwelve Labsの概要

2022年に設立されたElevenLabsは、パブリッシャーやクリエイター向けに世界最先端のテキスト読み上げ(音声合成)ソフトウェアを開発する音声技術研究企業です。同社のミッションは、コンテンツを普遍的にアクセス可能にすることです。
ElevenLabsが構築したソフトウェアの主な特徴は以下の通りです:
あらかじめ作成された合成音声を使用したテキスト読み上げ技術
プロフェッショナルな音声クローニングツール
新しいAI音声をデザインする機能
最大30言語でテキストを「話す」機能
長尺オーディオの生成・編集ツール

2021年に設立されたTwelve Labsは、AIを活用して自然言語検索、ゼロショット分類、ビデオからのテキスト生成など、多くのダウンストリームタスクを可能にするビデオ理解プラットフォームを構築しています。これらの機能は、ビデオ向けの最先端のマルチモーダル基盤モデルをベースに構築されています。同社のビジョンは、最も強力なビデオ理解インフラを開発者に提供することで、私たちと同じように世界を見て、聞き、理解できるプログラムを開発できるようにすることです。
Twelve Labsプラットフォームの主な特徴は以下の通りです:
Index APIによるコンテキストのキャプチャ:一度インデックス化すれば、すべてを実行。コンテンツを数秒で検索、分類、要約するためのコンテキストビデオ埋め込みを作成します。
Search APIで何でも検索:日常的な言葉を使って、必要なシーンをピンポイントで特定する、電光石火のコンテキスト指向検索を実現します。
Classify APIによるビデオのカテゴリー分類:コンテンツを即座に分類・整理。独自のタクソノミー(分類体系)でコンテンツを分類できます。トレーニングは不要です。
Generate APIによるテキスト生成:プロンプトを入力してビデオに関するテキストを生成。レポートの作成、要約の取得、チャプターの考案など、必要なものをモデルに指示できます。
マルチモーダルAIのフロンティアを押し進める
ElevenLabsのテキスト読み上げモデル
ElevenLabsの研究チームは、超現実的な発話を実現するために、音声合成への斬新なアプローチを組み合わせることに焦点を当てた、最先端のテキスト読み上げ機能を開発しました。ElevenLabsのモデルは、単語間の関係を理解し、コンテキストに基づいて発話を調整できるため、ニュアンスや感情を表現することが可能です。これにより、AI音声はロボットのようではなく、人間のように聞こえます。これは、テキスト読み上げ技術における世界的なブレイクスルーを意味します。
従来の音声生成アルゴリズムは、一文ごとに発話を生成していました。これは計算負荷は低いものの、すぐにロボットのように聞こえてしまいます。感情や抑揚は、特定の思考の流れを結びつけるために、多くの場合いくつかの文章にまたがって広がり、響く必要があります。声のトーンやペース配分が意図を伝えるものであり、これこそがそもそも音声を人間らしく聴かせる要素です。そのため、各発話を個別に生成するのではなく、ElevenLabsのモデルは周囲のコンテキストを考慮に入れ、生成された素材全体で適切な流れと韻律(プロソディ)を維持します。この感情的な深みと、極めて高品質なオーディオ品質が相まって、ユーザーに最も本物で魅力的なナレーションツールを提供します。
Twelve Labsのマルチモーダル言語モデル
映画を見るとき、通常は複数の感覚を使って体験します。例えば、目で画面上の俳優やオブジェクトを見て、耳で会話や音を聞きます。1つの感覚しか使わないと、ボディランゲージや会話などの重要な詳細を見逃してしまいます。これは、ほとんどの大規模言語モデルの動作と似ています。通常、これらはテキストのみを理解するようにトレーニングされています。そのため、複数の形式の情報を統合して、シーンで何が起こっているかを理解することはできません。
言語モデルがテキストなどの情報の形式を処理すると、その特定の入力の意味を定義するコンパクトな数値表現を生成します。これらの数値表現はユニモーダル埋め込みと呼ばれ、多次元空間における実数値ベクトルの形式をとります。これらにより、コンピューターは翻訳、質問応答、分類などの様々なダウンストリームタスクを実行できます。

対照的に、マルチモーダル言語モデルがビデオを処理するとき、画面に表示される画像、インサウンド、音声、テキストなど、すべての情報源からの全体的なコンテキストと、それらが互いにどのように関連しているかを表すマルチモーダル埋め込みを生成します。そうすることで、モデルはビデオを包括的に理解します。マルチモーダル埋め込みが作成されると、それらは視覚的質問応答、分類、センチメント分析などの様々なダウンストリームタスクに使用されます。

Twelve Labsは、ビデオ用のマルチモーダル翻訳を作成するマルチモーダルビデオ理解技術を開発しました。これらの埋め込みは、ストレージと計算要件の観点から非常に効率的です。ビデオのすべてのコンテキストが含まれており、ビデオ全体を保存することなく、高速でスケーラブルなタスク実行を可能にします。
このモデルは膨大な量のビデオデータでトレーニングされており、ビデオに存在するエンティティ、アクション、パターン、動き、オブジェクト、シーン、その他の要素を認識できます。様々なモダリティからの情報を統合することにより、モデルは自然言語クエリを使用した検索、ゼロショット分類の実行、ビデオコンテンツに基づくテキスト要約の生成など、いくつかのダウンストリームタスクに使用できます。
音声とビデオがマルチモーダルAIを加速する
マルチモーダルAIは、より包括的で正確なAIモデルを構築するために、複数のモダリティ(様式)を理解し活用することに焦点を当てた研究方向です。大規模な事前学習済み言語モデルなどの基盤モデルの最近の進歩により、研究者はモダリティを組み合わせることで、より複雑で高度な課題に取り組むことができるようになりました。これらのモデルは、画像、テキスト、音声、ビデオを含む幅広いモダリティのマルチモーダル表現学習が可能です。その結果、マルチモーダルAIは、視覚的質問応答やテキストから画像への生成から、ビデオ理解やテキストから音声への変換まで、幅広いタスクに取り組むために使用されています。
ElevenLabsとTwelve Labsの技術が組み合わさることで、マルチモーダルAIをメインストリームへと押し上げ、人間のコミュニケーションと相互作用をより包括的に理解できるようになります。音声とビデオの両方のモダリティの力を活用することで、開発者はAIで可能なことの境界を押し広げる革新的なアプリケーションを作成し、最終的にはテクノロジーやデジタル世界との関わり方を変革することができます。
ハッカソンのためのAIアプリケーションのアイデア
23Labs Hackathonの期間中、参加者はElevenLabsとTwelve Labsの両方のAPIを活用した革新的なAIアプリケーションを構築する機会があります。インスピレーションを得るためのエキサイティングなアイデアをいくつか紹介します:
ナレーション付きビデオ要約:長いビデオの簡潔な要約を自動的に生成し(Twelve LabsのGenerate APIを使用)、ナレーションを追加する(ElevenLabsのAI搭載音声ジェネレーターを使用)ソリューションを作成します。これは、ニュースの最新情報、教育用ビデオ、会議のプレゼンテーションに役立ち、視聴者の時間を節約し、アクセシビリティを向上させることができます。
スマートビデオ広告:ビデオ広告コンテンツを分析し(Twelve LabsのClassify APIを使用)、ROIの高い広告の共通テーマを取得し(Twelve LabsのGenerate APIを使用)、ターゲットを絞ったオーディオ広告を生成する(ElevenLabsの音声合成技術を活用)AIベースの広告プラットフォームを開発します。これにより、広告主はターゲットオーディエンスに効果的にアプローチし、全体的なユーザー体験を向上させることができます。
多言語ビデオ翻訳:ビデオコンテンツを複数の言語に翻訳するシステムを構築します。Twelve LabsのGenerate APIとElevenLabsの多言語オーディオサポートを組み合わせて、同期された翻訳字幕とナレーションを提供し、ユーザーが好みの言語でビデオコンテンツを消費できるようにします。これは、国際会議、オンラインコース、グローバルコミュニケーションに有益です。
音声警告付きビデオコンテンツモデレーション:ビデオ内の不適切またはデリケートなコンテンツを自動的に検出してフィルタリングする、AI駆動のソリューションを作成します。Twelve LabsのClassify APIを使用して、ビデオ内の不適切または不快なコンテンツを特定します。次に、ElevenLabsの音声合成技術を使用して、そのようなコンテンツに対して音声警告を提供します。これにより、ユーザーにとってより安全で包括的な視聴体験を確保することができます。
ビデオ言語学習アシスタント:ビデオコンテンツを使用してユーザーが語学力を向上させるのを支援する、インタラクティブな言語学習ツールを開発します。Twelve LabsのSearch APIを使用して、ビデオから音声を特定して抽出します。次に、ElevenLabsの多言語オーディオサポートを使用して、発音ガイド、ボキャブラリーレッスン、またはリスニング演習を生成します。これにより、言語学習がより魅力的で効果的になります。
ハッカソン参加者向けリソース
参加者は、ハッカソンの準備として、以下のElevenLabsとTwelve LabsのAPIドキュメント、チュートリアル、ブログ記事を参照できます。
ElevenLabsより
Twelve Labsより
おわりに
23Labsハッカソンは、開発者、クリエイター、AI愛好家がマルチモーダルAIの世界に飛び込み、可能性の限界を押し広げる革新的なソリューションを作成するユニークな機会を提供します。Eleven LabsとTwelve Labsの専門知識を組み合わせることで、参加者は音声およびビデオAIの最先端技術にアクセスでき、デジタルコンテンツとの関わり方を真に変革できるアプリケーションを構築できるようになります。
この画期的なイベントに参加し、マルチモーダルAIの分野に待ち受けるエキサイティングな機会を探求するチャンスをお見逃しなく。今すぐ登録して23Labsハッカソンに参加し、あなたのアイデアを現実にしましょう!
マルチモーダルAIのエキサイティングな世界へようこそ!Cerebral Valley、Eleven Labs、そしてTwelve Labsが主催する23Labs Hackathonが、サンフランシスコの歴史あるフェリービルディング内にあるShack 15にて、10月14日と15日に開催されます。このイベントは、クリエイティブな人材と革新的なテクノロジーを集結させ、音声、ビデオ、その他のモダリティを組み合わせて画期的なアプリケーションを生み出す急速に台頭しつつある分野、マルチモーダルAIの可能性を探ることを目的としています。
参加者にはEleven Labs、Twelve Labs、その他のパートナーのAPIアクセス権が付与され、これら最先端のスタートアップのチームから直接サポートを受けながら、クリエイティビティに焦点を当てたツールを構築できます。1万ドルを超える賞金とクレジットが用意されており、このハッカソンはすべての参加者にとって忘れられない体験となるでしょう。
ElevenLabsとTwelve Labsの概要

2022年に設立されたElevenLabsは、パブリッシャーやクリエイター向けに世界最先端のテキスト読み上げ(音声合成)ソフトウェアを開発する音声技術研究企業です。同社のミッションは、コンテンツを普遍的にアクセス可能にすることです。
ElevenLabsが構築したソフトウェアの主な特徴は以下の通りです:
あらかじめ作成された合成音声を使用したテキスト読み上げ技術
プロフェッショナルな音声クローニングツール
新しいAI音声をデザインする機能
最大30言語でテキストを「話す」機能
長尺オーディオの生成・編集ツール

2021年に設立されたTwelve Labsは、AIを活用して自然言語検索、ゼロショット分類、ビデオからのテキスト生成など、多くのダウンストリームタスクを可能にするビデオ理解プラットフォームを構築しています。これらの機能は、ビデオ向けの最先端のマルチモーダル基盤モデルをベースに構築されています。同社のビジョンは、最も強力なビデオ理解インフラを開発者に提供することで、私たちと同じように世界を見て、聞き、理解できるプログラムを開発できるようにすることです。
Twelve Labsプラットフォームの主な特徴は以下の通りです:
Index APIによるコンテキストのキャプチャ:一度インデックス化すれば、すべてを実行。コンテンツを数秒で検索、分類、要約するためのコンテキストビデオ埋め込みを作成します。
Search APIで何でも検索:日常的な言葉を使って、必要なシーンをピンポイントで特定する、電光石火のコンテキスト指向検索を実現します。
Classify APIによるビデオのカテゴリー分類:コンテンツを即座に分類・整理。独自のタクソノミー(分類体系)でコンテンツを分類できます。トレーニングは不要です。
Generate APIによるテキスト生成:プロンプトを入力してビデオに関するテキストを生成。レポートの作成、要約の取得、チャプターの考案など、必要なものをモデルに指示できます。
マルチモーダルAIのフロンティアを押し進める
ElevenLabsのテキスト読み上げモデル
ElevenLabsの研究チームは、超現実的な発話を実現するために、音声合成への斬新なアプローチを組み合わせることに焦点を当てた、最先端のテキスト読み上げ機能を開発しました。ElevenLabsのモデルは、単語間の関係を理解し、コンテキストに基づいて発話を調整できるため、ニュアンスや感情を表現することが可能です。これにより、AI音声はロボットのようではなく、人間のように聞こえます。これは、テキスト読み上げ技術における世界的なブレイクスルーを意味します。
従来の音声生成アルゴリズムは、一文ごとに発話を生成していました。これは計算負荷は低いものの、すぐにロボットのように聞こえてしまいます。感情や抑揚は、特定の思考の流れを結びつけるために、多くの場合いくつかの文章にまたがって広がり、響く必要があります。声のトーンやペース配分が意図を伝えるものであり、これこそがそもそも音声を人間らしく聴かせる要素です。そのため、各発話を個別に生成するのではなく、ElevenLabsのモデルは周囲のコンテキストを考慮に入れ、生成された素材全体で適切な流れと韻律(プロソディ)を維持します。この感情的な深みと、極めて高品質なオーディオ品質が相まって、ユーザーに最も本物で魅力的なナレーションツールを提供します。
Twelve Labsのマルチモーダル言語モデル
映画を見るとき、通常は複数の感覚を使って体験します。例えば、目で画面上の俳優やオブジェクトを見て、耳で会話や音を聞きます。1つの感覚しか使わないと、ボディランゲージや会話などの重要な詳細を見逃してしまいます。これは、ほとんどの大規模言語モデルの動作と似ています。通常、これらはテキストのみを理解するようにトレーニングされています。そのため、複数の形式の情報を統合して、シーンで何が起こっているかを理解することはできません。
言語モデルがテキストなどの情報の形式を処理すると、その特定の入力の意味を定義するコンパクトな数値表現を生成します。これらの数値表現はユニモーダル埋め込みと呼ばれ、多次元空間における実数値ベクトルの形式をとります。これらにより、コンピューターは翻訳、質問応答、分類などの様々なダウンストリームタスクを実行できます。

対照的に、マルチモーダル言語モデルがビデオを処理するとき、画面に表示される画像、インサウンド、音声、テキストなど、すべての情報源からの全体的なコンテキストと、それらが互いにどのように関連しているかを表すマルチモーダル埋め込みを生成します。そうすることで、モデルはビデオを包括的に理解します。マルチモーダル埋め込みが作成されると、それらは視覚的質問応答、分類、センチメント分析などの様々なダウンストリームタスクに使用されます。

Twelve Labsは、ビデオ用のマルチモーダル翻訳を作成するマルチモーダルビデオ理解技術を開発しました。これらの埋め込みは、ストレージと計算要件の観点から非常に効率的です。ビデオのすべてのコンテキストが含まれており、ビデオ全体を保存することなく、高速でスケーラブルなタスク実行を可能にします。
このモデルは膨大な量のビデオデータでトレーニングされており、ビデオに存在するエンティティ、アクション、パターン、動き、オブジェクト、シーン、その他の要素を認識できます。様々なモダリティからの情報を統合することにより、モデルは自然言語クエリを使用した検索、ゼロショット分類の実行、ビデオコンテンツに基づくテキスト要約の生成など、いくつかのダウンストリームタスクに使用できます。
音声とビデオがマルチモーダルAIを加速する
マルチモーダルAIは、より包括的で正確なAIモデルを構築するために、複数のモダリティ(様式)を理解し活用することに焦点を当てた研究方向です。大規模な事前学習済み言語モデルなどの基盤モデルの最近の進歩により、研究者はモダリティを組み合わせることで、より複雑で高度な課題に取り組むことができるようになりました。これらのモデルは、画像、テキスト、音声、ビデオを含む幅広いモダリティのマルチモーダル表現学習が可能です。その結果、マルチモーダルAIは、視覚的質問応答やテキストから画像への生成から、ビデオ理解やテキストから音声への変換まで、幅広いタスクに取り組むために使用されています。
ElevenLabsとTwelve Labsの技術が組み合わさることで、マルチモーダルAIをメインストリームへと押し上げ、人間のコミュニケーションと相互作用をより包括的に理解できるようになります。音声とビデオの両方のモダリティの力を活用することで、開発者はAIで可能なことの境界を押し広げる革新的なアプリケーションを作成し、最終的にはテクノロジーやデジタル世界との関わり方を変革することができます。
ハッカソンのためのAIアプリケーションのアイデア
23Labs Hackathonの期間中、参加者はElevenLabsとTwelve Labsの両方のAPIを活用した革新的なAIアプリケーションを構築する機会があります。インスピレーションを得るためのエキサイティングなアイデアをいくつか紹介します:
ナレーション付きビデオ要約:長いビデオの簡潔な要約を自動的に生成し(Twelve LabsのGenerate APIを使用)、ナレーションを追加する(ElevenLabsのAI搭載音声ジェネレーターを使用)ソリューションを作成します。これは、ニュースの最新情報、教育用ビデオ、会議のプレゼンテーションに役立ち、視聴者の時間を節約し、アクセシビリティを向上させることができます。
スマートビデオ広告:ビデオ広告コンテンツを分析し(Twelve LabsのClassify APIを使用)、ROIの高い広告の共通テーマを取得し(Twelve LabsのGenerate APIを使用)、ターゲットを絞ったオーディオ広告を生成する(ElevenLabsの音声合成技術を活用)AIベースの広告プラットフォームを開発します。これにより、広告主はターゲットオーディエンスに効果的にアプローチし、全体的なユーザー体験を向上させることができます。
多言語ビデオ翻訳:ビデオコンテンツを複数の言語に翻訳するシステムを構築します。Twelve LabsのGenerate APIとElevenLabsの多言語オーディオサポートを組み合わせて、同期された翻訳字幕とナレーションを提供し、ユーザーが好みの言語でビデオコンテンツを消費できるようにします。これは、国際会議、オンラインコース、グローバルコミュニケーションに有益です。
音声警告付きビデオコンテンツモデレーション:ビデオ内の不適切またはデリケートなコンテンツを自動的に検出してフィルタリングする、AI駆動のソリューションを作成します。Twelve LabsのClassify APIを使用して、ビデオ内の不適切または不快なコンテンツを特定します。次に、ElevenLabsの音声合成技術を使用して、そのようなコンテンツに対して音声警告を提供します。これにより、ユーザーにとってより安全で包括的な視聴体験を確保することができます。
ビデオ言語学習アシスタント:ビデオコンテンツを使用してユーザーが語学力を向上させるのを支援する、インタラクティブな言語学習ツールを開発します。Twelve LabsのSearch APIを使用して、ビデオから音声を特定して抽出します。次に、ElevenLabsの多言語オーディオサポートを使用して、発音ガイド、ボキャブラリーレッスン、またはリスニング演習を生成します。これにより、言語学習がより魅力的で効果的になります。
ハッカソン参加者向けリソース
参加者は、ハッカソンの準備として、以下のElevenLabsとTwelve LabsのAPIドキュメント、チュートリアル、ブログ記事を参照できます。
ElevenLabsより
Twelve Labsより
おわりに
23Labsハッカソンは、開発者、クリエイター、AI愛好家がマルチモーダルAIの世界に飛び込み、可能性の限界を押し広げる革新的なソリューションを作成するユニークな機会を提供します。Eleven LabsとTwelve Labsの専門知識を組み合わせることで、参加者は音声およびビデオAIの最先端技術にアクセスでき、デジタルコンテンツとの関わり方を真に変革できるアプリケーションを構築できるようになります。
この画期的なイベントに参加し、マルチモーダルAIの分野に待ち受けるエキサイティングな機会を探求するチャンスをお見逃しなく。今すぐ登録して23Labsハッカソンに参加し、あなたのアイデアを現実にしましょう!




