会社情報

ライト、カメラ、AI-クション:Twelve LabsがNeurIPS 2024のメインステージにビデオ・ランゲージ・モデルをもたらす

エイデン・リー

Twelve Labsは、12月14日にNeurIPS 2024にて初となる「ビデオ言語モデルに関するワークショップ(Workshop on Video-Language Models)」を開催します。アレン人工知能研究所(Allen Institute for AI)、Microsoft、Apple、Amazon AGI、および主要大学の研究者を一堂に集め、ビデオ理解の分野を発展させることを目的としており、現在、論文への投稿を募集しています。

Twelve Labsは、12月14日にNeurIPS 2024にて初となる「ビデオ言語モデルに関するワークショップ(Workshop on Video-Language Models)」を開催します。アレン人工知能研究所(Allen Institute for AI)、Microsoft、Apple、Amazon AGI、および主要大学の研究者を一堂に集め、ビデオ理解の分野を発展させることを目的としており、現在、論文への投稿を募集しています。

この記事の内容

No headings found on page

ニュースレターに登録する

ニュースレターに登録する

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

AIを活用してビデオを検索、分析、探索します。

2024/09/01

2分

記事へのリンクをコピー

🎉 Twelve Labs、NeurIPS 2024にて初のビデオ言語モデルに関するワークショップを開催!

Twelve Labsが、NeurIPS 2024において、初開催となるビデオ言語モデルに関するワークショップ (Workshop on Video-Language Models)を主催することをお知らせいたします。このイベントは、AI分野における最も優秀な頭脳を結集し、ビデオ言語モデルにおける最新の進歩を探求するもので、NeurIPSにおいてこの重要な研究分野に特化したワークショップが開催されるのは今回が初めての試みとなります。

🗓️ 日程: 2024年12月14日

弊社のCTOであるAiden Lee(エイデン・リー)が率いるこのワークショップは、トップクラスの研究者と最先端の研究成果が一堂に会するエキサイティングな場となることをお約束します。私たちは、アレン人工知能研究所 (Allen Institute for AI)、Amazon AGI、Microsoft、Apple、NAVER AI Lab、KAIST、そしてノースカロライナ大学チャペルヒル校 (University of North Carolina at Chapel Hill)などの著名な機関と提携し、ビデオ言語モデルの最前線における議論を深めていきます。

📢 論文募集 (Call For Papers)

ビデオ言語モデルに関連するテーマについてのオリジナルな論文を募集します。募集テーマには以下が含まれますが、これらに限定されません:

  • ビデオ質問応答 (Video QA) およびビジュアル対話システム

  • 長尺ビデオの理解と要約

  • ビデオAIにおける倫理的配慮

  • マルチモーダル融合とクロスモーダル検索

  • ビデオとテキストの整合、生成、および時間的推論

投稿手順はこちらからご確認いただけます: https://openreview.net/group?id=NeurIPS.cc/2024/Workshop/Video-Langauge_Models#tab-recent-activity

投稿トラック:

  • ショートトラック (Short Track): 初期段階の斬新なアイデア向け(最大3ページ)

  • ロングトラック (Long Track): 包括的な論文向け(参考文献を除き最大9ページ)

優れた論文には、最優秀論文賞 (Best Paper Award)、および2つの準優秀論文賞 (Runner-Up Awards)を含む賞が授与されます。

🌟 注目のスピーカー

ビデオ言語モデルおよびAI分野において多大な貢献をされている、素晴らしいスピーカーの方々をお迎えできることを光栄に思います:

Kristen Grauman - テキサス大学オースティン校

Kristen Grauman教授(テキサス大学オースティン校教授、Facebook AI Researchリサーチサイエンティスト)は、コンピュータビジョンにおける功績で広く知られています。彼女は、ビデオ言語研究において不可欠なリソースである「Ego4Dデータセット」の開発を主導しました。

Jianwei Yang - Microsoft

Jianwei Yang氏(Microsoftシニアリサーチャー)は、ビデオ理解を通じた視覚認知の向上において、特に「Phi-3-Vision」や「Set-of-Marks」の開発を通じて貢献したことで評価されています。

Gedas Bertasius - ノースカロライナ大学チャペルヒル校

Gedas Bertasius助教授(ノースカロライナ大学チャペルヒル校)は、ビデオAI分野で大きな進歩を遂げてきました。「Timesformer」や「VindLU」に関する彼の研究は、ビデオ理解における新たなベンチマークを設定しています。

Dima Damen - ブリストル大学、Google DeepMind

Dima Damen教授(ブリストル大学教授、Google DeepMindリサーチャー)は、一人称視点(エゴセントリック)ビジョンの第一人者です。ビデオ言語研究に極めて重要な役割を果たした「EPIC-KITCHENS」データセットの作成者として最もよく知られています。

Doyup Lee - RunwayML シニアリサーチャー

Doyup Lee氏(RunwayMLシニアリサーチャー)は、ビデオ生成技術の開拓者です。同氏の「Gen-3」に関する研究は、高度なAIツールを通じてビデオコンテンツの制作と編集のあり方を変革しています。

Ishan Misra - Meta GenAI Research

Ishan Misra氏(Meta GenAI Researchリサーチサイエンティスト)は、自己教師あり学習技術を通じてビデオ理解能力に秀でた最先端のビデオ言語モデル「Emu Video」に関する研究で知られています。


☺️ 参加するメリット

本ワークショップは、最先端の研究に触れ、一流のエキスパートたちと意見を交わし、ビデオ言語モデルの未来を拓く絶好の機会です。研究者、開発者、あるいはこの分野に熱意を持つすべての人にとって、このイベントは刺激とコラボレーションの豊かな場となるでしょう。

皆様をNeurIPS 2024にお迎えできることを楽しみにしております!今後のアップデートにご注目いただき、この素晴らしいイベントへのご参加をお見逃しなく。

‍関連記事: ビデオ言語モデルの現状:初のNeurIPSワークショップにおける研究インサイト (英語のみ)

🎉 Twelve Labs、NeurIPS 2024にて初のビデオ言語モデルに関するワークショップを開催!

Twelve Labsが、NeurIPS 2024において、初開催となるビデオ言語モデルに関するワークショップ (Workshop on Video-Language Models)を主催することをお知らせいたします。このイベントは、AI分野における最も優秀な頭脳を結集し、ビデオ言語モデルにおける最新の進歩を探求するもので、NeurIPSにおいてこの重要な研究分野に特化したワークショップが開催されるのは今回が初めての試みとなります。

🗓️ 日程: 2024年12月14日

弊社のCTOであるAiden Lee(エイデン・リー)が率いるこのワークショップは、トップクラスの研究者と最先端の研究成果が一堂に会するエキサイティングな場となることをお約束します。私たちは、アレン人工知能研究所 (Allen Institute for AI)、Amazon AGI、Microsoft、Apple、NAVER AI Lab、KAIST、そしてノースカロライナ大学チャペルヒル校 (University of North Carolina at Chapel Hill)などの著名な機関と提携し、ビデオ言語モデルの最前線における議論を深めていきます。

📢 論文募集 (Call For Papers)

ビデオ言語モデルに関連するテーマについてのオリジナルな論文を募集します。募集テーマには以下が含まれますが、これらに限定されません:

  • ビデオ質問応答 (Video QA) およびビジュアル対話システム

  • 長尺ビデオの理解と要約

  • ビデオAIにおける倫理的配慮

  • マルチモーダル融合とクロスモーダル検索

  • ビデオとテキストの整合、生成、および時間的推論

投稿手順はこちらからご確認いただけます: https://openreview.net/group?id=NeurIPS.cc/2024/Workshop/Video-Langauge_Models#tab-recent-activity

投稿トラック:

  • ショートトラック (Short Track): 初期段階の斬新なアイデア向け(最大3ページ)

  • ロングトラック (Long Track): 包括的な論文向け(参考文献を除き最大9ページ)

優れた論文には、最優秀論文賞 (Best Paper Award)、および2つの準優秀論文賞 (Runner-Up Awards)を含む賞が授与されます。

🌟 注目のスピーカー

ビデオ言語モデルおよびAI分野において多大な貢献をされている、素晴らしいスピーカーの方々をお迎えできることを光栄に思います:

Kristen Grauman - テキサス大学オースティン校

Kristen Grauman教授(テキサス大学オースティン校教授、Facebook AI Researchリサーチサイエンティスト)は、コンピュータビジョンにおける功績で広く知られています。彼女は、ビデオ言語研究において不可欠なリソースである「Ego4Dデータセット」の開発を主導しました。

Jianwei Yang - Microsoft

Jianwei Yang氏(Microsoftシニアリサーチャー)は、ビデオ理解を通じた視覚認知の向上において、特に「Phi-3-Vision」や「Set-of-Marks」の開発を通じて貢献したことで評価されています。

Gedas Bertasius - ノースカロライナ大学チャペルヒル校

Gedas Bertasius助教授(ノースカロライナ大学チャペルヒル校)は、ビデオAI分野で大きな進歩を遂げてきました。「Timesformer」や「VindLU」に関する彼の研究は、ビデオ理解における新たなベンチマークを設定しています。

Dima Damen - ブリストル大学、Google DeepMind

Dima Damen教授(ブリストル大学教授、Google DeepMindリサーチャー)は、一人称視点(エゴセントリック)ビジョンの第一人者です。ビデオ言語研究に極めて重要な役割を果たした「EPIC-KITCHENS」データセットの作成者として最もよく知られています。

Doyup Lee - RunwayML シニアリサーチャー

Doyup Lee氏(RunwayMLシニアリサーチャー)は、ビデオ生成技術の開拓者です。同氏の「Gen-3」に関する研究は、高度なAIツールを通じてビデオコンテンツの制作と編集のあり方を変革しています。

Ishan Misra - Meta GenAI Research

Ishan Misra氏(Meta GenAI Researchリサーチサイエンティスト)は、自己教師あり学習技術を通じてビデオ理解能力に秀でた最先端のビデオ言語モデル「Emu Video」に関する研究で知られています。


☺️ 参加するメリット

本ワークショップは、最先端の研究に触れ、一流のエキスパートたちと意見を交わし、ビデオ言語モデルの未来を拓く絶好の機会です。研究者、開発者、あるいはこの分野に熱意を持つすべての人にとって、このイベントは刺激とコラボレーションの豊かな場となるでしょう。

皆様をNeurIPS 2024にお迎えできることを楽しみにしております!今後のアップデートにご注目いただき、この素晴らしいイベントへのご参加をお見逃しなく。

‍関連記事: ビデオ言語モデルの現状:初のNeurIPSワークショップにおける研究インサイト (英語のみ)