リサーチを起点に、人を中心に。

TwelveLabsは、人の脳が感覚情報を絶えず処理し、何が起きたのかを理解し、次に何が起こるかを予測していることに着目しています。 この能力は「知覚的推論」と呼ばれ、人間の知能の基盤を成しています。
これまでに展開されてきたAIは、人の知覚を生み出す感覚入力に近い動画を通じて強固な世界表現を構築するという、重要な学習段階を経ずに進化してきました。
TwelveLabsは、このギャップを埋めるために、最先端の基盤モデルを訓練し、動画データから豊かでマルチモーダルな表現を学習させています。さらに、これらの表現を言語を伴う高度な推論タスクに活用しています。
TwelveLabsは、動画特化型AIを通じて、機械が世界を理解できるようにします。そして人が、視覚的なストーリーをより的確に取得し、捉え、伝えられるようにします。
細部を極める技術
知覚:動画特化型エンコーダーで感覚的な細部を捉えます
TwelveLabsの動画特化型エンコーダーモデル「Marengo」は、知覚を体現する存在です。 人の感覚器官は、視覚情報や聴覚情報を捉えることに優れています。 Marengoは、映像フレームとその時間的関係性を解析し、音声やサウンドもあわせて理解します。視覚要素と聴覚要素の両方を包括的に把握できます。
この文脈認識型の動画特化型表現エンコーダーは、TwelveLabsの知覚的推論パイプラインの基盤となります。
アライメントの力
推論:動画と言語のアライメントを通じて、知覚的推論能力を引き出します。
真の動画理解には、知覚した内容について推論する能力が不可欠です。 ここで、TwelveLabsの動画と言語を統合したモデル「Pegasus」が真価を発揮します。
Pegasusは、大規模言語モデルから学習した推論能力を、TwelveLabsの動画エンコーダーモデルから得た知覚的理解と融合します。 Pegasusは、これら二つのモダリティをアライメントすることで、クロスモーダル推論を実行します。Marengoが生成する豊かなマルチモーダル表現から、意味や意図を推論します。
TwelveLabsのAIシステムに知覚的推論能力をもたらすのは、MarengoとPegasusの相乗効果、すなわち動画と言語のアライメントです。 両モデルの強みを基盤に、TwelveLabsは、視覚世界を知覚し理解するだけでなく、人の認知に近い形でそれについて推論できるシステムを開発しています。
認識
TwelveLabsのサイエンスチームは、キャリアを通じて動画と言語の研究に取り組んできました。動画と言語分野における世界的コンペティションで5回以上の優勝実績を持ち、トップAI国際会議で100本以上の論文を発表しています。
AIの思考を、再定義します。

Pegasus 1.5の構築:クリップ単位のQAから時間単位のメタデータへ

Marengo 3.0: ビデオインテリジェンスがビデオを戦略的資産に変える

すべての映像革命は、私たちが語ることのできる物語を進化させてきた

ビデオ理解のためのコンテキストエンジニアリング

ビデオインテリジェンスはエージェンティック(自律エージェント型)へ

Pegasus 1.2: スケーラブルなアプリケーション向けの業界レベルのビデオ言語モデル

ビデオ言語モデルの現状:第1回NeurIPSワークショップからの研究インサイト

Marengo 2.7: 高度なビデオ理解を実現するパイオニア的マルチベクトル埋め込み

TwelveLabs Embed API ベータ

TWLV-I:ビデオ基盤モデルの包括的評価による分析と洞察

Jockey: TwelveLabsのAPIとLangGraphを搭載した会話型ビデオエージェント
ポストプロダクション界のためのセマンティックコンテンツディックコンテンツ発見

Pegasus 1 Beta: ビデオ言語モデリングにおける新たな基準の確立

Marengo 2.6:あらゆるメディア間の検索に対応する、最先端のビデオ・ファウンデーション・モデル

Video-To-Text(動画テキスト化)とPegasus-1(80B)のご紹介

ビデオ理解(Video Understanding)ユースケースの紹介

ベクトル埋め込み(Vector Embeddings)のマルチモーダルな進化

マルチモーダルAIとは?

ビデオ理解アプリケーションの過去、現在、そして未来

基盤モデル(Foundation Models)の何が特別なのでしょうか?

基盤モデルはマルチモーダル化しています











