リサーチを起点に、人を中心に。

TwelveLabsは、人の脳が感覚情報を絶えず処理し、何が起きたのかを理解し、次に何が起こるかを予測していることに着目しています。 この能力は「知覚的推論」と呼ばれ、人間の知能の基盤を成しています。
これまでに展開されてきたAIは、人の知覚を生み出す感覚入力に近い動画を通じて強固な世界表現を構築するという、重要な学習段階を経ずに進化してきました。
TwelveLabsは、このギャップを埋めるために、最先端の基盤モデルを訓練し、動画データから豊かでマルチモーダルな表現を学習させています。さらに、これらの表現を言語を伴う高度な推論タスクに活用しています。
TwelveLabsは、動画特化型AIを通じて、機械が世界を理解できるようにします。そして人が、視覚的なストーリーをより的確に取得し、捉え、伝えられるようにします。
細部を極める技術
知覚:動画特化型エンコーダーで感覚的な細部を捉えます
アライメントの力
推論:動画と言語のアライメントを通じて、知覚的推論能力を引き出します。
真の動画理解には、知覚した内容について推論する能力が不可欠です。 ここで、TwelveLabsの動画と言語を統合したモデル「Pegasus」が真価を発揮します。
Pegasusは、大規模言語モデルから学習した推論能力を、TwelveLabsの動画エンコーダーモデルから得た知覚的理解と融合します。 Pegasusは、これら二つのモダリティをアライメントすることで、クロスモーダル推論を実行します。Marengoが生成する豊かなマルチモーダル表現から、意味や意図を推論します。
TwelveLabsのAIシステムに知覚的推論能力をもたらすのは、MarengoとPegasusの相乗効果、すなわち動画と言語のアライメントです。 両モデルの強みを基盤に、TwelveLabsは、視覚世界を知覚し理解するだけでなく、人の認知に近い形でそれについて推論できるシステムを開発しています。
認識
TwelveLabsのサイエンスチームは、キャリアを通じて動画と言語の研究に取り組んできました。動画と言語分野における世界的コンペティションで5回以上の優勝実績を持ち、トップAI国際会議で100本以上の論文を発表しています。
AIの思考を、再定義します。

Marengo 3.0: Video Intelligence Turns Video Into Strategic Assets

Every Video Revolution Evolved What Stories We Could Tell

Context Engineering for Video Understanding

Video Intelligence is Going Agentic

Pegasus 1.2: An Industry-Grade Video Language Model for Scalable Applications

The State of Video-Language Models: Research Insights from the Inaugural NeurIPS Workshop

Marengo 2.7: Pioneering Multi-Vector Embeddings for Advanced Video Understanding

TwelveLabs Embed API Beta

TWLV-I: Analysis and Insights from Holistic Evaluation on Video Foundation Models

Jockey: A Conversational Video Agent Powered by TwelveLabs APIs and LangGraph
Semantic Content Discovery for a Post-Production World

Pegasus 1 Beta: Setting New Standards in Video-Language Modeling

Marengo 2.6: A State-of-the-Art Video Foundation Model for Any-to-Any Search

Introducing Video-To-Text and Pegasus-1 (80B)

A Tour of Video Understanding Use Cases

The Multimodal Evolution of Vector Embeddings

What Is Multimodal AI?

The Past, Present, and Future of Video Understanding Applications

What makes Foundation Models special?

Foundation models are going multimodal











