会社情報

眩しい太陽の街ロサンゼルスで開催された、メディア&エンターテインメントにおけるマルチモーダルAIハッカソンのレポート!

ジェームズ・リー

Twelve Labsは、ロサンゼルスで24時間ハッカソンを開催し、15チーム50人以上の参加者が集まりました。参加者たちは、メディア・エンターテインメント業界における動画編集、ハイライト動画生成、スポーツの要約、コンテンツ発見などのためのマルチモーダルAIアプリケーションを開発しました。

Twelve Labsは、ロサンゼルスで24時間ハッカソンを開催し、15チーム50人以上の参加者が集まりました。参加者たちは、メディア・エンターテインメント業界における動画編集、ハイライト動画生成、スポーツの要約、コンテンツ発見などのためのマルチモーダルAIアプリケーションを開発しました。

この記事の内容

No headings found on page

ニュースレターに登録する

ニュースレターに登録する

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

AIを活用してビデオを検索、分析、探索します。

2024/06/13

4 分

記事へのリンクをコピー

先週末、Twelve Labsは、FBRC.ai、AWS、Fireworks AI、そして Vast.ai の協力のもと、ロサンゼルスの素晴らしいビーチハウスにおいてエキサイティングなハッカソンを開催しました。このイベントには50名以上の参加者が集まり、15のチームを編成して24時間の熱いコーディングマラソンに挑みました。焦点は、AIがいかにメディア&エンターテインメント業界に変革をもたらしているかを示すことにあり、参加者は動画理解の限界を押し広げる革新的なプロジェクトに取り組みました。

概要

__wf_reserved_inherit

このハッカソンには、マルチモーダルAIの最先端応用を探求しようと意欲に満ちたAIエンジニア、データサイエンティスト、エンターテインメント業界のプロフェッショナルが一堂に会し、非常に活気に満ちた集まりとなりました。人間と同じようにニュアンスを含んだ文脈でコンピューターが動画を解釈できるようにするマルチモーダルAIは、視覚、音声、テキストなどのデータを統合的に分析する「動画理解」を通じて、業界に大きな変革をもたらしています。

シリコンバレーの技術革新とハリウッドの創造性が交差する独自のポジションにあるロサンゼルスのAIコミュニティは、このイベントで極めて重要な役割を果たしました。AI研究者、エンジニア、アーティスト、起業家が密接にコラボレーションする活発なエコシステムを擁するLAは、AI駆動型のメディア&エンターテインメントの未来を牽引する立場にあります。

ハッカソン課題

__wf_reserved_inherit

参加者は、メディア&エンターテインメントにおけるAIの限界に挑戦するために設計された、以下の4つの魅力的な課題に取り組みました。

1 - Johnny Harris氏との動画編集: ジョニー・ハリス氏のスイスのシェルター映像とスクリプトを分析できるAI搭載の動画編集ツールを開発する課題です。目的は、スクリプトに基づいて関連するクリップの探索やモンタージュ作成のプロセスを自動化し、動画編集のワークフローを効率化することでした。

2 - Drew Binsky氏とのハイライトリール生成: ドリュー・ビンスキー氏の旅行映像を分析し、魅力的なハイライト動画を自動生成するAIツールを作成する課題です。世界中での彼の冒険から最高の瞬間を捉え、魅力的な旅行ストーリーをより簡単に共有できるようにすることを目指しました。

__wf_reserved_inherit

3 - スポーツ記者会見の要約とハイライト生成: スポーツの記者会見動画から、簡潔な要約と魅力的なハイライトリールを自動生成するAI搭載ツールを開発する課題です。このツールにより、ファンやメディアは記者会見全体を視聴することなく、主要なポイントや最も印象的なシーンを迅速に把握できるようになります。

4 - RAGを活用したAWS駆動の動画Q&Aチャットボット: RAG(検索拡張生成)アプローチを用いて、映画やテレビ番組のトレーラー(予告編)ライブラリに関する質問に答えるAI搭載チャットボットを開発する課題です。公開予定の作品についてもっと知りたいユーザーに対して、魅力的で情報に富んだQ&A体験を提供することを目指しました。

これらの課題は、参加者の技術的なスキルだけでなく、急速に進化するメディア&エンターテインメント分野におけるAIの創造性と革新の能力をも試すものでした。

誕生した素晴らしいプロジェクトの数々

ハッカソンは創造性と技術力のショーケースであり、参加者は多様な革新的プロジェクトを開発しました。以下はそのハイライトです:

受賞プロジェクト

__wf_reserved_inherit
  1. 🏆 ThirteenLabs Smart AI Editor(最優秀賞): ユーザーが定義したプロンプトに基づいてAIが動画を編集する、高度な動画処理アプリケーションです。このアプリは、スポーツの記者会見やYouTube動画からハイライトリールを作成し、動画の説明文を生成し、多言語でのアフレコ(ダビング)を提供できます。さまざまなAIモデルを活用して、高品質な動画編集および文字起こしサービスを実現しています。 👉 デモ動画

  2. 🏆 AISR: AI Sports Recap(第2位): YouTube動画のリンクを入力すると、スポーツの記者会見のハイライト動画とテキストによる要約を生成する、Streamlitベースのアプリケーションです。OpenAIのGPT-4o、Twelve LabsのPegasus-1、シームレスな統合と展開を可能にするDockerなど、最先端の技術を活用しています。 👉 デモ動画

  3. 🏆 AI-Assistant Editor(第3位): 反復的な作業を自動化し、シーンの組み立てに関するインテリジェントな提案を行うことで、動画編集プロセスを支援するスマートなAIエディターです。コンテンツクリエイターは、映像の整理やラフカットの作成にかける時間を減らし、ストーリーテリングに集中できるようになります。 👉 デモ動画

  4. 🏆 Samur.ai(第3位): Twelve Labsの「Jockey」にインスパイアされた Samur.ai は、綿密なLLMプロンプトと「インストラクター・プランナー」に類似したアーキテクチャを持つGPT-4oベースのツールです。プロンプトの主観性や客観性に基づいて、記者会見全体から関連部分を抽出し、生成に関するフィードバックを受け付け、ソーシャルメディアプラットフォームへ共有することができます。 👉 デモ動画

__wf_reserved_inherit

その他の注目すべきプロジェクト

  1. 🎥 Cactus: Twelve Labsの最先端のマルチモーダル基盤モデルを活用した、長尺のYouTube動画をわずかな手間で魅力的な短尺リールに変換するコンテンツ生成プラットフォームです。動画コンテンツを分析し、最もエンゲージメントの高い瞬間を特定し、さまざまなソーシャルメディアに合わせて最適化されたハイライトリールにまとめます。

  2. 📽️ SportRecap: 記者会見動画とテキストプロンプトを分析して、関連するコンテンツを検出するツールです。動画セクションの開始と終了のタイムスタンプを出力し、動画をカットしてハイライトを生成します。 👉 デモ動画

  3. 🎬 Eddie: 自動セグメンテーション、コンテキストマッチング、コンパイルを通じて、デイリー素材(撮影済み未編集映像)の掘り起こし作業を高速化し、シーンの組み立てを簡素化するAIアシスタントエディターです。編集者が最適なテイクを素早く見つけて整理するのを助けます。

__wf_reserved_inherit
  1. 🌐 Infinite Jest: ユーザーが映画やテレビ番組のトレーラーライブラリと対話できるように設計された、高度なAIチャットボットです。Twelve Labs Embed API、ベクトルデータベース、およびLLMを活用して、マルチモーダルRAGワークフローを構築しています。 👉 デモ動画

  2. 🚀 Trailer-GPT: Infinite Jestと同様に、Trailer-GPTは映画やテレビ番組のトレーラーライブラリに関する質問に答えるAIチャットボットであり、魅力的で情報に富んだユーザー体験を提供します。 👉 デモ動画

  3. AlmazingClips: 記者会見の動画を魅力的な記事に変換するツールです。これにより、ジャーナリストは動画素材を基にした記事作成をより簡単に行うことができます。 👉 デモ動画

  4. 🐱 Hello Garfield: パーソナライズされた映画のレコメンデーションを提供するチャットボットコンシェルジュ(ガーフィールド風)を特色とする、VR/MRの追体験型映画館アプリです。コンシェルジュは、鑑賞体験を向上させるテーマに沿ったスナック、レシピ、グッズを提案します。ARフィルターにより、ユーザーは衣装を「試着」したり、バーチャルスペースを装飾したりできます。共有バーチャルシアターがコミュニティの交流を促進します。 👉 デモ動画

__wf_reserved_inherit

これらのプロジェクトは、参加者の高い技術力を示すだけでなく、メディア&エンターテインメント業界向けの創造的かつ実用的なソリューションを生み出す能力を証明するものでした。

審査員およびスポンサーへの謝辞

__wf_reserved_inherit

ハッカソン期間中に開発された素晴らしいプロジェクトを評価するため、貴重な時間と専門知識を割いてくださった著名な審査員の皆様に心より感謝申し上げます。皆様の洞察とフィードバックは、最も革新的なソリューションを選定する上で極めて重要でした。審査員の方々は以下の通りです:

  • Greg Young氏: Prime Video & Amazon Studios、制作・ポストプロダクション技術部門責任者

  • Vivek Gangasani氏: AWSにて生成AIスタートアップを支援するAI/MLソリューションアーキテクト

  • Pranav Murthy氏: AWS、シニアジェネレーティブAI/MLスペシャリスト・ソリューションアーキテクト、WWテックリード(SageMaker Studio)

  • Brad Boim氏: NFL Media、アセットマネジメントおよびポストプロダクション担当シニアディレクター

  • Eric Peters氏: NFL Media、ポストプロダクションおよびメディア管理担当ディレクター

  • Simran Butalia氏: 元BeBop Technology、CTO

  • Rachel Joy Victor氏: FBRC.ai、共同創業者

  • Manish Maheshwari氏: Twelve Labs、プロダクトマネージャー(デベロッパー・エクスペリエンス)

  • Soyoung Lee氏: Twelve Labs、共同創業者 兼 事業開発責任者

__wf_reserved_inherit

また、本イベントの開催を支えてくださったスポンサーの皆様の多大なるご支援に深く感謝いたします:

  • AWS: AWSは受賞チーム向けに賞品としてのクレジットを提供したほか、参加者にAmazon Bedrockへのアクセスを提供しました。これにより、主要なAI企業が提供する高性能な基盤モデル(FM)を単一のAPIを介して選択して利用できるようになり、セキュリティ、プライバシー、および責任あるAIを備えた生成AIアプリケーションの構築に必要な、幅広い機能が提供されました。

  • Fireworks.ai: Fireworks.aiは、Llama 3やStable Diffusion 3などの生成AIモデルを大規模に実行および調整するための、高速で信頼性の高いプラットフォームを開発者に提供しています。参加者はFireworksを使用することで、モデルの品質を損なうことなく、競合ソリューションと比較して最大4倍低い遅延で、応答性の高い素晴らしい体験を提供しました。

  • Vast.ai: Vast.aiは、計算負荷の高いワークロードのコストと摩擦を削減することに特化した、市場ベースのクラウドコンピューティングプラットフォームです。これにより、誰でも大規模なGPUリキディティを容易に活用でき、cloud.vast.aiでは何千ものGPUが利用可能となっています。

皆様からのご支援は、参加者が革新的なアイデアを実現するために必要なリソースとインフラを提供する上で重要不可欠なものでした。メディア&エンターテインメント分野におけるAIの発展に対する揺るぎないご支援とコミットメントに感謝いたします。

製品フィードバックとイノベーション

__wf_reserved_inherit

このハッカソンは、Twelve Labsが製品のフィードバックを収集し、最新のイノベーションを披露するための貴重な機会となりました。イベント中、主に次の2つの主要製品が紹介されました:

  1. Embed API: Twelve Labsのこの新しいサービスにより、ユーザーは動画とテキストの文脈に沿ったベクトル表現であるマルチモーダル埋め込み(Embeddings)を作成できます。これらの埋め込みは、異常検知、多様性ソート、感情分析、推奨アプリケーションなどのカスタムマルチモーダルモデルのトレーニングをはじめとする、さまざまな下流タスクで利用できます。さらに、RAG(検索構成拡張)システムを構築するためにも使用でき、メディア&エンターテインメントにおけるAIアプリケーションの機能を拡張します。なお、Embed APIは現在限定ベータ版であり、一部の選ばれたユーザーのみがアクセス可能です。詳細については、弊社のドキュメントをご参照ください。

  2. Jockey: Jockeyは、Twelve LabsのAPIとLangGraphをベースに構築されたオープンソースの対話型ビデオエージェントです。複雑な動画ワークフローを処理するために、ワークロードを適切な基盤モデルに割り当てることができます。大規模言語モデル(LLMs)は実行ステップを論理的に計画し、ユーザーと対話するために使用されます。一方で、動画に関連するタスクは、動画基盤モデル(VFMs)を搭載したTwelve LabsのAPIに渡され、事前生成されたキャプションのような中間的な表現を必要とせずに、ネイティブに動画の処理を行います。

参加者からのフィードバックは圧倒的に好意的なものであり、多くの人々がこれらのツールがワークフローに革命をもたらす可能性に興奮を示していました。このフィードバックは、ユーザーのニーズにより良く応えるために弊社製品を磨き、改善していく上で極めて有益なものとなります。

次回のお知らせ

10月に開催されるLA Tech Week期間中の大規模なハッカソンに参加できることを、私たちは大変嬉しく思っています。このイベントは、FBRC.aiおよびAI LAコミュニティと共同で開催され、今回のハッカソンよりもさらに規模が大きく、エキサイティングなものになる予定です。参加者の皆様は、新たな課題やさらなるコラボレーションの機会、最先端のAI技術を扱うチャンスを期待できます。詳細情報は順次お届けします。ぜひカレンダーに予定を書き込んで、この見逃せないイベントをお待ちください!

__wf_reserved_inherit

先週末、Twelve Labsは、FBRC.ai、AWS、Fireworks AI、そして Vast.ai の協力のもと、ロサンゼルスの素晴らしいビーチハウスにおいてエキサイティングなハッカソンを開催しました。このイベントには50名以上の参加者が集まり、15のチームを編成して24時間の熱いコーディングマラソンに挑みました。焦点は、AIがいかにメディア&エンターテインメント業界に変革をもたらしているかを示すことにあり、参加者は動画理解の限界を押し広げる革新的なプロジェクトに取り組みました。

概要

__wf_reserved_inherit

このハッカソンには、マルチモーダルAIの最先端応用を探求しようと意欲に満ちたAIエンジニア、データサイエンティスト、エンターテインメント業界のプロフェッショナルが一堂に会し、非常に活気に満ちた集まりとなりました。人間と同じようにニュアンスを含んだ文脈でコンピューターが動画を解釈できるようにするマルチモーダルAIは、視覚、音声、テキストなどのデータを統合的に分析する「動画理解」を通じて、業界に大きな変革をもたらしています。

シリコンバレーの技術革新とハリウッドの創造性が交差する独自のポジションにあるロサンゼルスのAIコミュニティは、このイベントで極めて重要な役割を果たしました。AI研究者、エンジニア、アーティスト、起業家が密接にコラボレーションする活発なエコシステムを擁するLAは、AI駆動型のメディア&エンターテインメントの未来を牽引する立場にあります。

ハッカソン課題

__wf_reserved_inherit

参加者は、メディア&エンターテインメントにおけるAIの限界に挑戦するために設計された、以下の4つの魅力的な課題に取り組みました。

1 - Johnny Harris氏との動画編集: ジョニー・ハリス氏のスイスのシェルター映像とスクリプトを分析できるAI搭載の動画編集ツールを開発する課題です。目的は、スクリプトに基づいて関連するクリップの探索やモンタージュ作成のプロセスを自動化し、動画編集のワークフローを効率化することでした。

2 - Drew Binsky氏とのハイライトリール生成: ドリュー・ビンスキー氏の旅行映像を分析し、魅力的なハイライト動画を自動生成するAIツールを作成する課題です。世界中での彼の冒険から最高の瞬間を捉え、魅力的な旅行ストーリーをより簡単に共有できるようにすることを目指しました。

__wf_reserved_inherit

3 - スポーツ記者会見の要約とハイライト生成: スポーツの記者会見動画から、簡潔な要約と魅力的なハイライトリールを自動生成するAI搭載ツールを開発する課題です。このツールにより、ファンやメディアは記者会見全体を視聴することなく、主要なポイントや最も印象的なシーンを迅速に把握できるようになります。

4 - RAGを活用したAWS駆動の動画Q&Aチャットボット: RAG(検索拡張生成)アプローチを用いて、映画やテレビ番組のトレーラー(予告編)ライブラリに関する質問に答えるAI搭載チャットボットを開発する課題です。公開予定の作品についてもっと知りたいユーザーに対して、魅力的で情報に富んだQ&A体験を提供することを目指しました。

これらの課題は、参加者の技術的なスキルだけでなく、急速に進化するメディア&エンターテインメント分野におけるAIの創造性と革新の能力をも試すものでした。

誕生した素晴らしいプロジェクトの数々

ハッカソンは創造性と技術力のショーケースであり、参加者は多様な革新的プロジェクトを開発しました。以下はそのハイライトです:

受賞プロジェクト

__wf_reserved_inherit
  1. 🏆 ThirteenLabs Smart AI Editor(最優秀賞): ユーザーが定義したプロンプトに基づいてAIが動画を編集する、高度な動画処理アプリケーションです。このアプリは、スポーツの記者会見やYouTube動画からハイライトリールを作成し、動画の説明文を生成し、多言語でのアフレコ(ダビング)を提供できます。さまざまなAIモデルを活用して、高品質な動画編集および文字起こしサービスを実現しています。 👉 デモ動画

  2. 🏆 AISR: AI Sports Recap(第2位): YouTube動画のリンクを入力すると、スポーツの記者会見のハイライト動画とテキストによる要約を生成する、Streamlitベースのアプリケーションです。OpenAIのGPT-4o、Twelve LabsのPegasus-1、シームレスな統合と展開を可能にするDockerなど、最先端の技術を活用しています。 👉 デモ動画

  3. 🏆 AI-Assistant Editor(第3位): 反復的な作業を自動化し、シーンの組み立てに関するインテリジェントな提案を行うことで、動画編集プロセスを支援するスマートなAIエディターです。コンテンツクリエイターは、映像の整理やラフカットの作成にかける時間を減らし、ストーリーテリングに集中できるようになります。 👉 デモ動画

  4. 🏆 Samur.ai(第3位): Twelve Labsの「Jockey」にインスパイアされた Samur.ai は、綿密なLLMプロンプトと「インストラクター・プランナー」に類似したアーキテクチャを持つGPT-4oベースのツールです。プロンプトの主観性や客観性に基づいて、記者会見全体から関連部分を抽出し、生成に関するフィードバックを受け付け、ソーシャルメディアプラットフォームへ共有することができます。 👉 デモ動画

__wf_reserved_inherit

その他の注目すべきプロジェクト

  1. 🎥 Cactus: Twelve Labsの最先端のマルチモーダル基盤モデルを活用した、長尺のYouTube動画をわずかな手間で魅力的な短尺リールに変換するコンテンツ生成プラットフォームです。動画コンテンツを分析し、最もエンゲージメントの高い瞬間を特定し、さまざまなソーシャルメディアに合わせて最適化されたハイライトリールにまとめます。

  2. 📽️ SportRecap: 記者会見動画とテキストプロンプトを分析して、関連するコンテンツを検出するツールです。動画セクションの開始と終了のタイムスタンプを出力し、動画をカットしてハイライトを生成します。 👉 デモ動画

  3. 🎬 Eddie: 自動セグメンテーション、コンテキストマッチング、コンパイルを通じて、デイリー素材(撮影済み未編集映像)の掘り起こし作業を高速化し、シーンの組み立てを簡素化するAIアシスタントエディターです。編集者が最適なテイクを素早く見つけて整理するのを助けます。

__wf_reserved_inherit
  1. 🌐 Infinite Jest: ユーザーが映画やテレビ番組のトレーラーライブラリと対話できるように設計された、高度なAIチャットボットです。Twelve Labs Embed API、ベクトルデータベース、およびLLMを活用して、マルチモーダルRAGワークフローを構築しています。 👉 デモ動画

  2. 🚀 Trailer-GPT: Infinite Jestと同様に、Trailer-GPTは映画やテレビ番組のトレーラーライブラリに関する質問に答えるAIチャットボットであり、魅力的で情報に富んだユーザー体験を提供します。 👉 デモ動画

  3. AlmazingClips: 記者会見の動画を魅力的な記事に変換するツールです。これにより、ジャーナリストは動画素材を基にした記事作成をより簡単に行うことができます。 👉 デモ動画

  4. 🐱 Hello Garfield: パーソナライズされた映画のレコメンデーションを提供するチャットボットコンシェルジュ(ガーフィールド風)を特色とする、VR/MRの追体験型映画館アプリです。コンシェルジュは、鑑賞体験を向上させるテーマに沿ったスナック、レシピ、グッズを提案します。ARフィルターにより、ユーザーは衣装を「試着」したり、バーチャルスペースを装飾したりできます。共有バーチャルシアターがコミュニティの交流を促進します。 👉 デモ動画

__wf_reserved_inherit

これらのプロジェクトは、参加者の高い技術力を示すだけでなく、メディア&エンターテインメント業界向けの創造的かつ実用的なソリューションを生み出す能力を証明するものでした。

審査員およびスポンサーへの謝辞

__wf_reserved_inherit

ハッカソン期間中に開発された素晴らしいプロジェクトを評価するため、貴重な時間と専門知識を割いてくださった著名な審査員の皆様に心より感謝申し上げます。皆様の洞察とフィードバックは、最も革新的なソリューションを選定する上で極めて重要でした。審査員の方々は以下の通りです:

  • Greg Young氏: Prime Video & Amazon Studios、制作・ポストプロダクション技術部門責任者

  • Vivek Gangasani氏: AWSにて生成AIスタートアップを支援するAI/MLソリューションアーキテクト

  • Pranav Murthy氏: AWS、シニアジェネレーティブAI/MLスペシャリスト・ソリューションアーキテクト、WWテックリード(SageMaker Studio)

  • Brad Boim氏: NFL Media、アセットマネジメントおよびポストプロダクション担当シニアディレクター

  • Eric Peters氏: NFL Media、ポストプロダクションおよびメディア管理担当ディレクター

  • Simran Butalia氏: 元BeBop Technology、CTO

  • Rachel Joy Victor氏: FBRC.ai、共同創業者

  • Manish Maheshwari氏: Twelve Labs、プロダクトマネージャー(デベロッパー・エクスペリエンス)

  • Soyoung Lee氏: Twelve Labs、共同創業者 兼 事業開発責任者

__wf_reserved_inherit

また、本イベントの開催を支えてくださったスポンサーの皆様の多大なるご支援に深く感謝いたします:

  • AWS: AWSは受賞チーム向けに賞品としてのクレジットを提供したほか、参加者にAmazon Bedrockへのアクセスを提供しました。これにより、主要なAI企業が提供する高性能な基盤モデル(FM)を単一のAPIを介して選択して利用できるようになり、セキュリティ、プライバシー、および責任あるAIを備えた生成AIアプリケーションの構築に必要な、幅広い機能が提供されました。

  • Fireworks.ai: Fireworks.aiは、Llama 3やStable Diffusion 3などの生成AIモデルを大規模に実行および調整するための、高速で信頼性の高いプラットフォームを開発者に提供しています。参加者はFireworksを使用することで、モデルの品質を損なうことなく、競合ソリューションと比較して最大4倍低い遅延で、応答性の高い素晴らしい体験を提供しました。

  • Vast.ai: Vast.aiは、計算負荷の高いワークロードのコストと摩擦を削減することに特化した、市場ベースのクラウドコンピューティングプラットフォームです。これにより、誰でも大規模なGPUリキディティを容易に活用でき、cloud.vast.aiでは何千ものGPUが利用可能となっています。

皆様からのご支援は、参加者が革新的なアイデアを実現するために必要なリソースとインフラを提供する上で重要不可欠なものでした。メディア&エンターテインメント分野におけるAIの発展に対する揺るぎないご支援とコミットメントに感謝いたします。

製品フィードバックとイノベーション

__wf_reserved_inherit

このハッカソンは、Twelve Labsが製品のフィードバックを収集し、最新のイノベーションを披露するための貴重な機会となりました。イベント中、主に次の2つの主要製品が紹介されました:

  1. Embed API: Twelve Labsのこの新しいサービスにより、ユーザーは動画とテキストの文脈に沿ったベクトル表現であるマルチモーダル埋め込み(Embeddings)を作成できます。これらの埋め込みは、異常検知、多様性ソート、感情分析、推奨アプリケーションなどのカスタムマルチモーダルモデルのトレーニングをはじめとする、さまざまな下流タスクで利用できます。さらに、RAG(検索構成拡張)システムを構築するためにも使用でき、メディア&エンターテインメントにおけるAIアプリケーションの機能を拡張します。なお、Embed APIは現在限定ベータ版であり、一部の選ばれたユーザーのみがアクセス可能です。詳細については、弊社のドキュメントをご参照ください。

  2. Jockey: Jockeyは、Twelve LabsのAPIとLangGraphをベースに構築されたオープンソースの対話型ビデオエージェントです。複雑な動画ワークフローを処理するために、ワークロードを適切な基盤モデルに割り当てることができます。大規模言語モデル(LLMs)は実行ステップを論理的に計画し、ユーザーと対話するために使用されます。一方で、動画に関連するタスクは、動画基盤モデル(VFMs)を搭載したTwelve LabsのAPIに渡され、事前生成されたキャプションのような中間的な表現を必要とせずに、ネイティブに動画の処理を行います。

参加者からのフィードバックは圧倒的に好意的なものであり、多くの人々がこれらのツールがワークフローに革命をもたらす可能性に興奮を示していました。このフィードバックは、ユーザーのニーズにより良く応えるために弊社製品を磨き、改善していく上で極めて有益なものとなります。

次回のお知らせ

10月に開催されるLA Tech Week期間中の大規模なハッカソンに参加できることを、私たちは大変嬉しく思っています。このイベントは、FBRC.aiおよびAI LAコミュニティと共同で開催され、今回のハッカソンよりもさらに規模が大きく、エキサイティングなものになる予定です。参加者の皆様は、新たな課題やさらなるコラボレーションの機会、最先端のAI技術を扱うチャンスを期待できます。詳細情報は順次お届けします。ぜひカレンダーに予定を書き込んで、この見逃せないイベントをお待ちください!

__wf_reserved_inherit

先週末、Twelve Labsは、FBRC.ai、AWS、Fireworks AI、そして Vast.ai の協力のもと、ロサンゼルスの素晴らしいビーチハウスにおいてエキサイティングなハッカソンを開催しました。このイベントには50名以上の参加者が集まり、15のチームを編成して24時間の熱いコーディングマラソンに挑みました。焦点は、AIがいかにメディア&エンターテインメント業界に変革をもたらしているかを示すことにあり、参加者は動画理解の限界を押し広げる革新的なプロジェクトに取り組みました。

概要

__wf_reserved_inherit

このハッカソンには、マルチモーダルAIの最先端応用を探求しようと意欲に満ちたAIエンジニア、データサイエンティスト、エンターテインメント業界のプロフェッショナルが一堂に会し、非常に活気に満ちた集まりとなりました。人間と同じようにニュアンスを含んだ文脈でコンピューターが動画を解釈できるようにするマルチモーダルAIは、視覚、音声、テキストなどのデータを統合的に分析する「動画理解」を通じて、業界に大きな変革をもたらしています。

シリコンバレーの技術革新とハリウッドの創造性が交差する独自のポジションにあるロサンゼルスのAIコミュニティは、このイベントで極めて重要な役割を果たしました。AI研究者、エンジニア、アーティスト、起業家が密接にコラボレーションする活発なエコシステムを擁するLAは、AI駆動型のメディア&エンターテインメントの未来を牽引する立場にあります。

ハッカソン課題

__wf_reserved_inherit

参加者は、メディア&エンターテインメントにおけるAIの限界に挑戦するために設計された、以下の4つの魅力的な課題に取り組みました。

1 - Johnny Harris氏との動画編集: ジョニー・ハリス氏のスイスのシェルター映像とスクリプトを分析できるAI搭載の動画編集ツールを開発する課題です。目的は、スクリプトに基づいて関連するクリップの探索やモンタージュ作成のプロセスを自動化し、動画編集のワークフローを効率化することでした。

2 - Drew Binsky氏とのハイライトリール生成: ドリュー・ビンスキー氏の旅行映像を分析し、魅力的なハイライト動画を自動生成するAIツールを作成する課題です。世界中での彼の冒険から最高の瞬間を捉え、魅力的な旅行ストーリーをより簡単に共有できるようにすることを目指しました。

__wf_reserved_inherit

3 - スポーツ記者会見の要約とハイライト生成: スポーツの記者会見動画から、簡潔な要約と魅力的なハイライトリールを自動生成するAI搭載ツールを開発する課題です。このツールにより、ファンやメディアは記者会見全体を視聴することなく、主要なポイントや最も印象的なシーンを迅速に把握できるようになります。

4 - RAGを活用したAWS駆動の動画Q&Aチャットボット: RAG(検索拡張生成)アプローチを用いて、映画やテレビ番組のトレーラー(予告編)ライブラリに関する質問に答えるAI搭載チャットボットを開発する課題です。公開予定の作品についてもっと知りたいユーザーに対して、魅力的で情報に富んだQ&A体験を提供することを目指しました。

これらの課題は、参加者の技術的なスキルだけでなく、急速に進化するメディア&エンターテインメント分野におけるAIの創造性と革新の能力をも試すものでした。

誕生した素晴らしいプロジェクトの数々

ハッカソンは創造性と技術力のショーケースであり、参加者は多様な革新的プロジェクトを開発しました。以下はそのハイライトです:

受賞プロジェクト

__wf_reserved_inherit
  1. 🏆 ThirteenLabs Smart AI Editor(最優秀賞): ユーザーが定義したプロンプトに基づいてAIが動画を編集する、高度な動画処理アプリケーションです。このアプリは、スポーツの記者会見やYouTube動画からハイライトリールを作成し、動画の説明文を生成し、多言語でのアフレコ(ダビング)を提供できます。さまざまなAIモデルを活用して、高品質な動画編集および文字起こしサービスを実現しています。 👉 デモ動画

  2. 🏆 AISR: AI Sports Recap(第2位): YouTube動画のリンクを入力すると、スポーツの記者会見のハイライト動画とテキストによる要約を生成する、Streamlitベースのアプリケーションです。OpenAIのGPT-4o、Twelve LabsのPegasus-1、シームレスな統合と展開を可能にするDockerなど、最先端の技術を活用しています。 👉 デモ動画

  3. 🏆 AI-Assistant Editor(第3位): 反復的な作業を自動化し、シーンの組み立てに関するインテリジェントな提案を行うことで、動画編集プロセスを支援するスマートなAIエディターです。コンテンツクリエイターは、映像の整理やラフカットの作成にかける時間を減らし、ストーリーテリングに集中できるようになります。 👉 デモ動画

  4. 🏆 Samur.ai(第3位): Twelve Labsの「Jockey」にインスパイアされた Samur.ai は、綿密なLLMプロンプトと「インストラクター・プランナー」に類似したアーキテクチャを持つGPT-4oベースのツールです。プロンプトの主観性や客観性に基づいて、記者会見全体から関連部分を抽出し、生成に関するフィードバックを受け付け、ソーシャルメディアプラットフォームへ共有することができます。 👉 デモ動画

__wf_reserved_inherit

その他の注目すべきプロジェクト

  1. 🎥 Cactus: Twelve Labsの最先端のマルチモーダル基盤モデルを活用した、長尺のYouTube動画をわずかな手間で魅力的な短尺リールに変換するコンテンツ生成プラットフォームです。動画コンテンツを分析し、最もエンゲージメントの高い瞬間を特定し、さまざまなソーシャルメディアに合わせて最適化されたハイライトリールにまとめます。

  2. 📽️ SportRecap: 記者会見動画とテキストプロンプトを分析して、関連するコンテンツを検出するツールです。動画セクションの開始と終了のタイムスタンプを出力し、動画をカットしてハイライトを生成します。 👉 デモ動画

  3. 🎬 Eddie: 自動セグメンテーション、コンテキストマッチング、コンパイルを通じて、デイリー素材(撮影済み未編集映像)の掘り起こし作業を高速化し、シーンの組み立てを簡素化するAIアシスタントエディターです。編集者が最適なテイクを素早く見つけて整理するのを助けます。

__wf_reserved_inherit
  1. 🌐 Infinite Jest: ユーザーが映画やテレビ番組のトレーラーライブラリと対話できるように設計された、高度なAIチャットボットです。Twelve Labs Embed API、ベクトルデータベース、およびLLMを活用して、マルチモーダルRAGワークフローを構築しています。 👉 デモ動画

  2. 🚀 Trailer-GPT: Infinite Jestと同様に、Trailer-GPTは映画やテレビ番組のトレーラーライブラリに関する質問に答えるAIチャットボットであり、魅力的で情報に富んだユーザー体験を提供します。 👉 デモ動画

  3. AlmazingClips: 記者会見の動画を魅力的な記事に変換するツールです。これにより、ジャーナリストは動画素材を基にした記事作成をより簡単に行うことができます。 👉 デモ動画

  4. 🐱 Hello Garfield: パーソナライズされた映画のレコメンデーションを提供するチャットボットコンシェルジュ(ガーフィールド風)を特色とする、VR/MRの追体験型映画館アプリです。コンシェルジュは、鑑賞体験を向上させるテーマに沿ったスナック、レシピ、グッズを提案します。ARフィルターにより、ユーザーは衣装を「試着」したり、バーチャルスペースを装飾したりできます。共有バーチャルシアターがコミュニティの交流を促進します。 👉 デモ動画

__wf_reserved_inherit

これらのプロジェクトは、参加者の高い技術力を示すだけでなく、メディア&エンターテインメント業界向けの創造的かつ実用的なソリューションを生み出す能力を証明するものでした。

審査員およびスポンサーへの謝辞

__wf_reserved_inherit

ハッカソン期間中に開発された素晴らしいプロジェクトを評価するため、貴重な時間と専門知識を割いてくださった著名な審査員の皆様に心より感謝申し上げます。皆様の洞察とフィードバックは、最も革新的なソリューションを選定する上で極めて重要でした。審査員の方々は以下の通りです:

  • Greg Young氏: Prime Video & Amazon Studios、制作・ポストプロダクション技術部門責任者

  • Vivek Gangasani氏: AWSにて生成AIスタートアップを支援するAI/MLソリューションアーキテクト

  • Pranav Murthy氏: AWS、シニアジェネレーティブAI/MLスペシャリスト・ソリューションアーキテクト、WWテックリード(SageMaker Studio)

  • Brad Boim氏: NFL Media、アセットマネジメントおよびポストプロダクション担当シニアディレクター

  • Eric Peters氏: NFL Media、ポストプロダクションおよびメディア管理担当ディレクター

  • Simran Butalia氏: 元BeBop Technology、CTO

  • Rachel Joy Victor氏: FBRC.ai、共同創業者

  • Manish Maheshwari氏: Twelve Labs、プロダクトマネージャー(デベロッパー・エクスペリエンス)

  • Soyoung Lee氏: Twelve Labs、共同創業者 兼 事業開発責任者

__wf_reserved_inherit

また、本イベントの開催を支えてくださったスポンサーの皆様の多大なるご支援に深く感謝いたします:

  • AWS: AWSは受賞チーム向けに賞品としてのクレジットを提供したほか、参加者にAmazon Bedrockへのアクセスを提供しました。これにより、主要なAI企業が提供する高性能な基盤モデル(FM)を単一のAPIを介して選択して利用できるようになり、セキュリティ、プライバシー、および責任あるAIを備えた生成AIアプリケーションの構築に必要な、幅広い機能が提供されました。

  • Fireworks.ai: Fireworks.aiは、Llama 3やStable Diffusion 3などの生成AIモデルを大規模に実行および調整するための、高速で信頼性の高いプラットフォームを開発者に提供しています。参加者はFireworksを使用することで、モデルの品質を損なうことなく、競合ソリューションと比較して最大4倍低い遅延で、応答性の高い素晴らしい体験を提供しました。

  • Vast.ai: Vast.aiは、計算負荷の高いワークロードのコストと摩擦を削減することに特化した、市場ベースのクラウドコンピューティングプラットフォームです。これにより、誰でも大規模なGPUリキディティを容易に活用でき、cloud.vast.aiでは何千ものGPUが利用可能となっています。

皆様からのご支援は、参加者が革新的なアイデアを実現するために必要なリソースとインフラを提供する上で重要不可欠なものでした。メディア&エンターテインメント分野におけるAIの発展に対する揺るぎないご支援とコミットメントに感謝いたします。

製品フィードバックとイノベーション

__wf_reserved_inherit

このハッカソンは、Twelve Labsが製品のフィードバックを収集し、最新のイノベーションを披露するための貴重な機会となりました。イベント中、主に次の2つの主要製品が紹介されました:

  1. Embed API: Twelve Labsのこの新しいサービスにより、ユーザーは動画とテキストの文脈に沿ったベクトル表現であるマルチモーダル埋め込み(Embeddings)を作成できます。これらの埋め込みは、異常検知、多様性ソート、感情分析、推奨アプリケーションなどのカスタムマルチモーダルモデルのトレーニングをはじめとする、さまざまな下流タスクで利用できます。さらに、RAG(検索構成拡張)システムを構築するためにも使用でき、メディア&エンターテインメントにおけるAIアプリケーションの機能を拡張します。なお、Embed APIは現在限定ベータ版であり、一部の選ばれたユーザーのみがアクセス可能です。詳細については、弊社のドキュメントをご参照ください。

  2. Jockey: Jockeyは、Twelve LabsのAPIとLangGraphをベースに構築されたオープンソースの対話型ビデオエージェントです。複雑な動画ワークフローを処理するために、ワークロードを適切な基盤モデルに割り当てることができます。大規模言語モデル(LLMs)は実行ステップを論理的に計画し、ユーザーと対話するために使用されます。一方で、動画に関連するタスクは、動画基盤モデル(VFMs)を搭載したTwelve LabsのAPIに渡され、事前生成されたキャプションのような中間的な表現を必要とせずに、ネイティブに動画の処理を行います。

参加者からのフィードバックは圧倒的に好意的なものであり、多くの人々がこれらのツールがワークフローに革命をもたらす可能性に興奮を示していました。このフィードバックは、ユーザーのニーズにより良く応えるために弊社製品を磨き、改善していく上で極めて有益なものとなります。

次回のお知らせ

10月に開催されるLA Tech Week期間中の大規模なハッカソンに参加できることを、私たちは大変嬉しく思っています。このイベントは、FBRC.aiおよびAI LAコミュニティと共同で開催され、今回のハッカソンよりもさらに規模が大きく、エキサイティングなものになる予定です。参加者の皆様は、新たな課題やさらなるコラボレーションの機会、最先端のAI技術を扱うチャンスを期待できます。詳細情報は順次お届けします。ぜひカレンダーに予定を書き込んで、この見逃せないイベントをお待ちください!

__wf_reserved_inherit