MARENGO 3.0

どんな動画からも、あらゆるものを見つけ出す。

36の言語にわたって視覚、音声、対話、および動きを処理し、本番環境の検索にすぐに使用できる単一の512次元ベクトルを返す動画エンベディングモデル。

36の言語にわたって視覚、音声、対話、および動きを処理し、本番環境の検索にすぐに使用できる単一の512次元ベクトルを返す動画エンベディングモデル。

4時間

連続する動画と音声を、完全な時間的コンテキストを保持したまま処理。

36+

クエリと検索に対応する言語。翻訳を介さないネイティブ処理。

512次元

Amazon Novaの6分の1のエンベディング次元数。

30倍

動画のインデックス作成においてAmazon Novaより高速でありながら、精度においても業界をリード。

動画ネイティブな認識・推論・オーケストレーション

LLMはテキストを計算可能にしました。Twelve Labsはその概念を動画・画像・音声へと拡張し、発見から分析、そしてアクションへとつなげます。

LLMはテキストを計算可能にしました。Twelve Labsはその概念を動画・画像・音声へと拡張し、発見から分析、そしてアクションへとつなげます。

512次元

Marengoは動画を512次元のエンベディングにエンコードし、Amazon Novaと比較してストレージを6分の1に削減。精度を落とすことなく検索を高速化します。

1つのクエリで、画像と文章を組み合わせる。

選手の写真をドロップし、1〜2文を追加すれば、Marengoはそれらを1つのエンベディングに統合します。1つのクエリで画像、テキスト、音声をミックスできます。

36言語を、1つの空間で。

Marengoの統合ベクトル空間で36の言語を横断して検索。翻訳のステップは不要で、言語間での精度の低下もありません。

サンプルフレームによる検索。

テキストで条件を絞り込んだ画像クエリを使用して、一致する動画の瞬間を見つけ出す。

サインアップから最初の結果を得るまで、わずか5分。

同じモデル、プロンプト、JSON出力。チームに最適なインターフェースを選択してください。

同じモデル、プロンプト、JSON出力。チームに最適なインターフェースを選択してください。

Python
Node.js
1import requests
2 
3# Step 2: Define the API URL and the specific endpoint
4API_URL = "https://api.twelvelabs.io/v1.3"
5INDEXES_URL = f"{API_URL}/indexes"
6 
7# Step 3: Create the necessary headers for authentication
8headers = {
9 "x-api-key": "<YOUR_API_KEY>"
10}
11 
12# Step 4: Prepare the data payload for your API request
13INDEX_NAME = "<YOUR_INDEX_NAME>"
14data = {
15 "models": [
16 {
17 "model_name": "marengo3.0",
18 "model_options": ["visual", "audio"]
19 }
20 ]
21}

クイックスタート

最初の動画をインデックス化し、5分以内に検索を実行できます。

サンプルアプリ

プロダクション向けリポジトリ:動画検索、動画RAG、ハイライト生成、コンプライアンススキャナー。

MCPサーバ

Claude、Cursor、または任意のMCPクライアントを動画インデックスに接続します。

SDKとAPI

Python、Node、REST。完全なリファレンス、型付きレスポンス、ストリーミングに対応。

クイックスタート

最初の動画をインデックス化し、5分以内に検索を実行できます。

サンプルアプリ

プロダクション向けリポジトリ:動画検索、動画RAG、ハイライト生成、コンプライアンススキャナー。

MCPサーバ

Claude、Cursor、または任意のMCPクライアントを動画インデックスに接続します。

SDKとAPI

Python、Node、REST。完全なリファレンス、型付きレスポンス、ストリーミングに対応。

より速く、より軽く、より正確に。

Marengoは、ベンチマークやデモ、あるいは3分間のクリップのためではなく、本番環境のワークロードを想定して設計されました。それが実際に何を意味するのかを以下に示します。

Marengoは、ベンチマークやデモ、あるいは3分間のクリップのためではなく、本番環境のワークロードを想定して設計されました。それが実際に何を意味するのかを以下に示します。

73%

総合パフォーマンス。Google Vertexは52%、Amazon Novaは55%。

Composite video-retrieval performance

Composite video-retrieval performance

機能

MARENGO 3.0

Gemini Embedding 2

Nova Multimodal embeddings

エンベディング次元数

512

3072(デフォルト。Matryoshka経由で1536 / 768)

3072(デフォルト。Matryoshka経由で1024 / 384 / 256)

最大動画長

4時間(連続)

1リクエストあたり120秒

1セグメントあたり30秒(チャンク化)

マルチモーダル複合クエリ

対応(画像+テキスト+音声クエリ用の単一エンベディング)

ネイティブな複合クエリAPIはなし

ネイティブな複合クエリAPIはなし

スポーツ認識

5つのスポーツ

要求・公開されている機能ではない

要求・公開されている機能ではない

レイテンシ

0.05

~0.50

1.50+

エンベディング信頼度スコア

対応

非公開

非公開