リサーチを起点に、人を中心に。

TwelveLabsは、人と同等の推論力で課題を解決できる動画特化型AIシステムを開発しています。 機械が世界を理解できるように。そして人が、視覚的なストーリーをより的確に取得し、捉え、伝えられるようにします。

At TwelveLabs, we’re developing video-native AI systems that can solve problems with human-level reasoning. Helping machines learn about the world — and enabling humans to retrieve, capture, and tell their visual stories better.

CTA Cover

TwelveLabsは、人の脳が感覚情報を絶えず処理し、何が起きたのかを理解し、次に何が起こるかを予測していることに着目しています。 この能力は「知覚的推論」と呼ばれ、人間の知能の基盤を成しています。

これまでに展開されてきたAIは、人の知覚を生み出す感覚入力に近い動画を通じて強固な世界表現を構築するという、重要な学習段階を経ずに進化してきました。

TwelveLabsは、このギャップを埋めるために、最先端の基盤モデルを訓練し、動画データから豊かでマルチモーダルな表現を学習させています。さらに、これらの表現を言語を伴う高度な推論タスクに活用しています。

TwelveLabsは、動画特化型AIを通じて、機械が世界を理解できるようにします。そして人が、視覚的なストーリーをより的確に取得し、捉え、伝えられるようにします。

細部を極める技術

知覚:動画特化型エンコーダーで感覚的な細部を捉えます

TwelveLabsの動画特化型エンコーダーモデル「Marengo」は、知覚を体現する存在です。 人の感覚器官は、視覚情報や聴覚情報を捉えることに優れています。 Marengoは、映像フレームとその時間的関係性を解析し、音声やサウンドもあわせて理解します。視覚要素と聴覚要素の両方を包括的に把握できます。

この文脈認識型の動画特化型表現エンコーダーは、TwelveLabsの知覚的推論パイプラインの基盤となります。

Our video-native encoder model, Marengo, is the embodiment of perception. The human sensory organs excel at capturing the world's visuals and auditory details. In line with this, Marengo can analyze visual frames and their temporal relationships, along with speech and sound – ensuring a thorough understanding of both visual and auditory elements.

This context-aware, video-native representation encoder serves as the foundation for our perceptual reasoning pipeline.

Research illustration
Research illustration

アライメントの力

推論:動画と言語のアライメントを通じて、知覚的推論能力を引き出します。

真の動画理解には、知覚した内容について推論する能力が不可欠です。 ここで、TwelveLabsの動画と言語を統合したモデル「Pegasus」が真価を発揮します。

Pegasusは、大規模言語モデルから学習した推論能力を、TwelveLabsの動画エンコーダーモデルから得た知覚的理解と融合します。 Pegasusは、これら二つのモダリティをアライメントすることで、クロスモーダル推論を実行します。Marengoが生成する豊かなマルチモーダル表現から、意味や意図を推論します。

TwelveLabsのAIシステムに知覚的推論能力をもたらすのは、MarengoとPegasusの相乗効果、すなわち動画と言語のアライメントです。 両モデルの強みを基盤に、TwelveLabsは、視覚世界を知覚し理解するだけでなく、人の認知に近い形でそれについて推論できるシステムを開発しています。

認識

TwelveLabsのサイエンスチームは、キャリアを通じて動画と言語の研究に取り組んできました。動画と言語分野における世界的コンペティションで5回以上の優勝実績を持ち、トップAI国際会議で100本以上の論文を発表しています。

Logo
Logo
ECCV
ECCV
ICLR
ICLR
Logo
Logo

AIの思考を、再定義します。

TwelveLabsは、最先端モデルを開発するだけではありません。AIシステムがどのように学習し、推論するかを再定義しています。

We’re not just developing state-of-the-art models — we’re rethinking how AI systems learn and reason. Explore our publications to learn more about our research and discoveries.

Cover image

動画をこれまでとは違う視点で?

Playgroundに動画をアップロードして、最先端の動画AIを実際に体験してください。

Cover image

動画をこれまでとは違う視点で?

Playgroundに動画をアップロードして、最先端の動画AIを実際に体験してください。

Cover image

動画をこれまでとは違う視点で?

Playgroundに動画をアップロードして、最先端の動画AIを実際に体験してください。