🎉 TwelveLabs Raises $100M Series B to build the future of video superintelligence. Read more.

プラットフォーム

価格

ソリューション

構築

資料

会社情報

Select Language

Playgroundへ移動

営業担当に相談する

🎉 TwelveLabs Raises $100M Series B to build the future of video superintelligence. Read more.

商品

手動検索から一瞬での発見へ：TwelveLabsのビデオインテリジェンス機能をFrame.ioのワークフローに導入

ブリス・ペンヴェン、ジェームズ・ル

Twelve Labsは、カスタムアクションを介してMarengoおよびPegasusモデルをFrame.io V4に統合しました。これにより、クリエイティブチームはプラットフォームを離れることなく、自然言語を使用したビデオライブラリのセマンティック検索、メタデータの自動生成、画像からビデオへの検索による視覚的に類似したコンテンツの検出、タイムスタンプ付きコメントによるコンプライアンス違反のフラグ立てを行えるようになります。

この記事の内容

No headings found on page

Join our newsletter

Receive the latest advancements, tutorials, and industry insights in video understanding

AIを活用してビデオを検索、分析、探索します。

プレイグラウンドを試す

2025/11/20

22分

記事へのリンクをコピー

TLDR（要約）

この投稿では、TwelveLabsのマルチモーダルビデオ理解AIが Frame.io V4に直接統合されることで、クリエイティブチームが大規模なビデオコンテンツの検索、整理、管理をどのように変革するかを実証します。

自然言語を使用してビデオライブラリ全体をインデックス化し検索する：映像を手動でシークしたり、不完全なメタデータに頼ったりする代わりに、「海岸線の広大な空撮ドローン映像」などの探している内容を説明することで特定のショットを見つけます。
Pegasusを使用してリッチなメタデータを自動生成する：単なる画面上のオブジェクトだけでなく、ナラティブコンテキスト（文脈）を理解するAI生成の説明文、タグ、要約、テーマ、感情的なトーンを Frame.io のフィールドに入力します。
画像からビデオを検索し、視覚的に類似したコンテンツを発見する：参考写真をアップロードするだけで、ライブラリ全体から一致する映像を即座に特定します。Bロールや別テイク、テーマごとのまとめフィルムを見つけるのに最適です。
タイムスタンプ付きの違反検出でコンプライアンスチェックを自動化する：規制違反の原因や、ブランドガイドライン違反、コンテンツポリシー違反となる箇所が発生した正確なタイムスタンプをフラグ立てし、 Frame.io のコメントシステムに直接統合します。
Frame.io V4のカスタムアクションを活用したシームレスなワークフロー統合：右クリックだけでインデックス作成、メタデータ生成、セマンティック検索、コンプライアンスチェックを実行。すべての結果がおなじみの Frame.io のインターフェース内に整理されます。

1 - 概要紹介

TwelveLabs × Frame.ioを導入すべき理由

メディア・エンターテインメント業界は、ますます肥大化するビデオライブラリの管理において、山積する課題に直面しています。ポストプロダクションチーム、放送局、コンテンツクリエイターは、ビデオ資産から効率的に検索、分析、インサイトを引き出す方法を必要としています。AdobeのCreative Cloudエコシステムの一部となった Frame.io は、映画、テレビ、広告、デジタルメディア制作などのクリエイティブチームに利用され、ビデオコラボレーションとプレビューにおける業界標準となっています。しかし、従来のテキストベースのメタデータと手作業によるタグ付けは、現代の膨大なコンテンツ量に追いつくことができず、クリエイティブワークフローにボトルネックを生み出し、ビデオアーカイブの価値を最大限に引き出すことを困難にしています。

TwelveLabsと Frame.io の統合により、高度なマルチモーダルビデオ理解機能がコラボレーションプレビューのワークフローに直接もたらされます。 Frame.io V4 の導入において、この統合を特に強力にした2つの主要な機能が、 カスタムアクション と カスタマイズ可能なメタデータフィールド です。

カスタムアクションにより、ユーザーはプラットフォームを離れることなく、右クリックだけでビデオ理解ワークフローをトリガーし、オンデマンドのAI分析を実行できます。
柔軟なメタデータフィールドにより、TwelveLabsは構造化されたビデオインテリジェンスデータを Frame.io のネイティブインターフェースに直接書き戻すことができ、AIが生成したインサイトをつねに従来のプレビューツールのそばから即座に利用可能にします。

これらのV4機能は、マルチモーダルビデオ理解を制作ワークフローにシームレスに組み込むために必要な拡張性と柔軟性を提供し、 Frame.io をレビュープラットフォームからインテリジェントなビデオコンテンツ管理システムへと変貌させます。

Frame.io のコラボレーション機能と、TwelveLabsのビデオ基盤モデルである Pegasus および Marengo を組み合わせることで、チームはビデオコンテンツのインデックス作成、リッチなメタデータの生成、ライブラリ全体でのセマンティック検索、関連コンテンツの検出、コンプライアンスの確認など、すべておなじみの Frame.io 環境内で実行できます。 Marengo 2.7 は、ビデオ、オーディオ、テキストにわたるセマンティック検索とパターン認識を可能にするベクトル埋め込み（ベクターエンベディング）を作成します。一方で、 Pegasus 1.2 はビデオコンテンツから人間が読める形式の説明、要約、構造化されたメタデータを生成します。これらが組み合わさることで、これらのモデルはビデオコンテンツの「何が」と、その「理由」の両方を提供し、クリエイティブチームがより速く、よりスマートに作業できるように支援します。

対象となるユーザー

この統合は、 Frame.io に依存したビデオ中心のワークフローを運用し、規模に応じたインテリジェントなコンテンツ管理を必要とする企業を対象としています。 Frame.io を活用する弊社顧客の業界は多岐にわたります。広範な録画ライブラリを管理する放送局やニュース関係組織、複雑なポストプロダクションのワークフローを統制する制作会社、キャンペーン全体でクリエイティブ資産を再利用するマーケティング代理店、数千本に及ぶビデオにわたってブランドの一貫性を維持するエンタープライズコンテンツチームなどです。

具体的なワークフローはそれぞれ異なりますが、これらの組織が直面する共通の課題があります。膨大なビデオライブラリから特定の瞬間やテーマを見つけ出すこと、数千ものアセット間で一貫したメタデータを維持すること、ブランドや法令へのコンプライアンスを保証すること、そしてアーカイブに埋もれてしまっている関連コンテンツを発掘することです。手動でのタグ付けは時間がかかる上に一貫性に欠け、従来のキーワード検索ではビデオ特有の視覚的・文脈的な豊かさを捉えることができません。既存のプレビューやコラボレーションワークフローへのシームレスな、スケールに応じたインテリジェントなビデオ理解の必要性は、かつてないほど高まっています。

Frame.io V4 のカスタムアクションと柔軟なメタデータシステムは、チームがすでに作業しているその場に、TwelveLabsのビデオ理解機能を直接埋め込むための基礎を提供し、複数のツールやプラットフォームを行き来する手間を排除します。あなたが、完璧なBロールのショットを検索しているクリエイティブディレクターであれ、数千時間ものコンテンツを精査しているコンプライアンス責任者であれ、あるいは再利用可能なアセットを探してアーカイブを採掘しているプロデューサーであれ、この統合によって日々のワークフローにAI搭載のビデオインテリジェンスが導入されます。

2 - 主な機能

2.1 - アセットのインデックス作成

機能概要と利用シーン

インデックス生成機能は、Frame.io 内で稼働するすべてのTwelveLabs機能の柱となるベースです。ユーザーは、Frame.io のインターフェースから個別のアセットやフォルダーを直接右クリックし、カスタムアクション [Index Asset(s)]（アセットをインデックス化） を選択して実行できます。このプロセスは、ビデオコンテンツのマルチモーダルな理解データを生成し、視覚・音声・テキストの情報を分析して、その後のすべてのAI機能の原動力となる検索可能な表現情報を作成します。

インデックス作成は、未加工のビデオファイルを、クエリ照会可能なインテリジェントなアセットに変換する重要な初期ステップです。一度インデックスが作成されると、ビデオはセマンティックな検索に対して完全に応答可能になり、自動メタデータの作成、コンプライアンスチェック、画像ベースのコンテンツ検索をサポートできるようになります。

主な特徴

手動または自動によるトリガー：ユーザーは Frame.io の管理画面にあるカスタムアクションを通じてオンデマンドでインデックス作成を手動実行できるほか、特定プロジェクトやフォルダーにアセットを移動またはコピーした際に自動的にアセットをインデックス生成するワークフローも設定できます。この柔軟性により、臨時のインデックス要求からルール化された全処理までカバーします。
アセットおよびフォルダーレベルでの処理：単一のビデオファイルをインデックス化、またはフォルダーを選択して一連の含まれるすべてのアセットを1回のアクションで一括処理可能。これは、プロジェクトのアーカイブ作業やバルク形式のコンテンツライブラリで大変役立ちます。バッチ処理により、セマンティック検索や分析に向けた大量のビデオ群の下準備にかかる手作業の負担が劇的に軽減されます。
ステータスの追跡：インデックス処理の進捗状況は Frame.io 内のカスタムメタデータフィールド上で可視化され、アセットが処理済みか、処理中か、読み込みエラーが発生したかを確認できます。この透明性により、スタッフはどのアセットが高度なAI機能にかけられる状態かを正確に把握できます。
シームレスな統合：アセットのダウンロードや、 Frame.io 環境から別の場所に移動する必要はありません。チームがレビュー作業を進めている裏側で、バックグラウンドにてインデックス作成が実行されます。TwelveLabsは独自モデルMarengoおよびPegasusを介してこれを行ない、マルチモーダルエンベディングと構造化データを算出します。このプロセスはエンドユーザーに対しシンプルにバックグラウンド展開されるため、ユーザー側の作業は右クリックでの実行指示のみです。

一度インデックス化されると、TwelveLabsの他のさまざまな機能を通じて、そのアセットを検索・分析可能になります。クリエイティブチームがビデオコンテンツを発見、理解、活用する方法を変革する、先進的なビデオインテリジェンスワークフローがここから始まります。

デモ動画

Frame.io でのインデックス作成の様子をこちらでご覧ください： https://www.loom.com/share/5140914df15f4b9b83b30407daacf0c1

2.2 - メタデータ自動生成

機能概要と利用シーン

メタデータ生成は、未整理の未構造ビデオコンテンツを、体系化された検索可能なデータへと変化させます。ユーザーは手動でカスタムアクションを実行することもでき、またはアセットのインデックス生成が完了した後に自動でメタデータが組み立てられるように設定することもできます。この機能は、TwelveLabsが誇る ビデオ言語モデル Pegasus を利用してインデックス資産を解析し、構造化されたメタデータを生成して Frame.io のアセット詳細エリアに直接書き戻します。

Pegasus は、先進的なビデオ多言語対話および理解のために開発された、非常に最先端なマルチモーダルAI モデルです。手動による記入や単純なオブジェクト検出だけに依拠していた従来のタグ付け方法と異なり、Pegasusはビデオ内で動いている対象物、人物、出来事、それらの文脈的な相関関係までを把握して、深いセマンティックな意味を持つメタデータを構成します。これは、手作業での細かなデータ入力が現実的ではない何千本ものアセットを抱えるチームにとって極めて有意義な手法です。

生成されるメタデータフィールド例

以下の画像は、生成された各種メタデータが自動補完されている様子を示しています：

Description by TwelveLabs（TwelveLabsによる説明）：視覚的要素、設定、および雰囲気を含んだ詳細なシーン描写
Emotions by TwelveLabs（TwelveLabsによる感情調）：作中のムードやトーンを検出（例：「静か、安らか、平穏」）
Genre by TwelveLabs（TwelveLabsによるジャンル）：コンテンツのカテゴリー分類（例：「自然ドキュメンタリー」）
Summary by Twelve Labs（TwelveLabsによる要約）：主要テーマや場面の見どころをとらえた簡潔な概要
Tags by TwelveLabs（TwelveLabsによるタグ一覧）：事物、場所、物象、主題に基づいて自動抽出されたキーワード（例：「空撮, 島, 海洋, 崖, 天然プール, 波, 岩の形成, 景観」）
Theme by TwelveLabs（TwelveLabsによるテーマ）：大局的な内容テーマ（例：「大自然の風景」）
Status（進捗状況）：カスタムワークフロー進行状況（例：視覚インジケーターを伴う「承認済み」）
Rating（評価レベル）：視覚スターマークを用いたクオリティ評価やポリシーチェック度合い

Frame.io V4の拡張メタデータ構造は、放送用レギュレーション規格、マーケティング規準、独自のブランド分類方針など、チームの正確なニーズに合わせて自由に定義可能です。

主な特徴

カスタムメタデータ項目のバインド：組織独自の形式に合わせて、どの Frame.io フィールドにメタデータをマッピングするかを個別に設定できます。 Frame.io V4のアカウント階層カスタムメタデータ機能を使用すると、フィールド設定を一度保存すれば、アカウント内のあらゆるプロジェクトやワークスペースに広く一般適用でき、企業の各事業部門間でタグ付け規準を一貫して保持できます。
インテリジェントな自動要約：主要テーマ、要旨、見どころのハイライトを凝縮したまとまった短文を自動で組み立てます。Pegasusは全体のストーリー進行を把握するため、単純な映像の表面スキャンにとどまらない、意味の通るインシデント記述を生み出します。
オートメーションなタグ付け：ビデオ中から識別された重要ワード、登場人物、著名地、物件、事物を適宜引き抜きます。生成されるメタデータ群は周囲のプロット情報と脈絡を持った形で考慮されます。
物語を考慮したシーン解説文：画面上で何が起きているか、誰が何をして、いつどこでそれをしているかというビデオ全体の動的な文脈を取り入れた説明文を書き起こします。
カスタマイズ可能なプロンプト制御：必要とされる出力基準（放送用コンプライアンス等）に応じて、AIプロンプト命令をチューニングできます。また、PegasusモデルはJSONスキーマといった規格に基づいたアウトプット方式もサポートしているため、決められた構造でのデータやり取りに適しています。

自動生成された一連のデータ項目は、 Frame.io 内のネイティブ検索パフォーマンスを高めるだけでなく、チームメンバー間での手短な内容理解を劇的に効率化し、巨大な資産ライブラリを等しい規則のもとで維持することに貢献します。メンバーは映像を一本まるごと再視聴せずとも、対象ショットを的確に割り出すことができ、全体のワークフローが一層スマートになります。

デモ動画

Frame.io でのメタデータ自動生成の様子をこちらでご覧ください： https://www.loom.com/share/58e6dee73045429288b62b310c949959

2.3 - セマンティック検索

特定ショット／シーン切り抜きの検出フロー

セマンティック検索により、一般的なファイル名検索やあらかじめ付与された一部の単語に縛られず、日常的な話し言葉を検索窓に入力するだけで、あらゆる映像アセット内の目的の瞬間を見つけ出せます。「手元の映像にどんなワードがタグ付けされていたか」を必死に思い出そうとする必要がなくなります。ユーザーが描写したい情景をインプットすれば、システムはその条件に一致する映像の位置をミリ秒単位のタイムスタンプ情報と共に引き出します。この検索性能は、TwelveLabsが誇る Marengo 埋め込み表現モデル（エンベディングモデル）に基づき稼動しています。

これまでのキーワード検索では、文字が完全一致しなければ結果に出ないうえ、暗黙の文脈的な情報は加味されませんでした。セマンティック検索であれば、検索指示（クエリ）の奥底にある「意図」を賢く汲み取れるので、具体的な文字列がデータに登録されていなくても、シーンの中のアクション、場所、感情、複合的なテーマをベースに正確に合致する箇所を捉えられます。これにより、特定のカットを探し当てるためにチームメンバーが長時間に及ぶタイムライン再生を何度も往復する必要はなくなります。

主な特徴

自然な日常のおしゃべり言葉による検索クエリ：「オフィスで握手している男性たち」や「切り立った崖とぶつかり合う海のドローン見渡し映像」等、探したいイメージ通りの文章で検索できます。専門用語を使わずとも、情景、特定の動作、感情トーンを自由に組み合わせて記述可能です。
包括的なマルチモーダル設計：ビジュアルのアクション、交わされているセリフ音声、映像内のテロップ表示テキスト、特定の音響をすべて等しく網羅し並行スキャニングを実行。Marengoモデルは音、文字、画の３つの媒体を共通の指標下で処理します。「赤いTシャツを着た男性が店に入っていくシーン」というクエリが与えられた際、その一連のアクションを画像・状況など多様なアプローチから読み解いて正しい一瞬を引き当てます。
精密なタイムスタンプ切り出し：ヒットした部分は単にファイルを示すだけでなく、該当箇所をフレーム精度の正確な実開始／終了ポイント情報（例："0.00s—6.50s"など）を伴って瞬時に算出します。この特定シーンにクリティカルにジャンプできる仕組みが、全体の時間節約を後押しします。
プロジェクト横断型の検索：膨大なフォルダ階層や、様々なプロジェクト空間を突き抜けて総合検索を実行。見つかった候補はわかりやすく Frame.io 内の専用フォルダ体系としてアウトプット表示されるため、レビューの進行を止めません。

この最新のセマンティック検索システムを使うと、対象の一瞬が記録されたビデオファイルの該当場所に、AIが自動で解説コメントを挿入。チームはその吹き出しコメントを確認するだけで、該当位置をその場ですぐ確認、精査できるようになるため、作業時間を圧倒的に削減できます。

備考：セマンティック検索をかけて生成される作業用フォルダの構造、命名ルール等は、皆様の組織が通常好んで使われているルールに合わせて、細部まで完全にアジャスト可能です。

デモ動画

実際のセマンティック検索の動作をこちらでご覧ください： https://www.loom.com/share/a92b4b9787094977b20cd566c9ed0894

2.4 - 関連コンテンツの類似検索

再利用のための類似映像あわせ・代替アセット探し

関連コンテンツ類似検索機能は、ストックされた巨大なライブラリ群の中から、雰囲気が一致するものや、同じモチーフ・設定で撮影されている映像をすぐに見つけ出します。予備のBロールショットを集めたり、撮影パターンの異なる同じ場面、同じテーマをもとにしたコンピレーション映像などの制作を大きく手助けしてくれます。何時間もの素材フォルダを探し回ることなく、参考になる1枚を頼りに瞬時に類似アセットに到達できます。

この機能は、単なるテキスト検索を超え、「手元にある参照用の画像ファイルそのもの」を検索キーとして、同じ構図や類似する事物などが登場するシーン位置を探します。以下のように、参照用のイメージから該当する正確な開始位置と相関度の高さを、AIが順位付けした結果を出力してくれます。

主な特徴

画像ベースのターゲットサーチ（Image-to-Video）：写真を読み込むだけで、そのレイアウトや雰囲気、映り込んでいる物体を含み、構成として一番似ているシーン部分を瞬時に割り出します。顧客からのラフデザイン指示書、サンプルのイラスト、あるいは映像の一時停止画面から類似ショットを特定したい際に非常に効率的です。例えば、ランナーのアウトドア風景写真を使って、同様のアクション・アングルの素材を根こそぎ見つけることができます。
本質（セマンティクス）の理解：単なるピクセル画素の合致や色のグラデーションチェックにとどまりません。Marengoが備える高度な処理により、「木」の画像を指定した場合、オブジェクトの外見的な形状に引きずられることなく、「生い茂る森の風景」や「自然公園」など背景シーンからそのニュアンスが一致するシーンを文脈的にピックアップします。
類似性に基づいたランキング：発見されたシーンは、関連性のスコアリング基準（Rank 9、Rank 8といった確信度ランク形式）をともない、実行元のプロジェクトフォルダの下に新設される作業ディレクトリに自動的に一覧ソートして追加されます。これによりスタッフは、関連度のきわめて高いものから順よく審査に移ることができます。

このシステムは、 顧客から「雰囲気を別のアングルに変えてほしい」と急なオーダーが入った際、 同じテーマのまとめ映像を作成する際、あるいは 既存のキャンペーンリソースからもう一度素材を有効に再活用したい際に、素晴らしい威力を発揮します。短時間で希望するシーンの候補を抽出し、一連のエディター作業の手を止めずに、必要なリソースを手に入れることが可能です。

TwelveLabsの有能な Marengo埋め込み技術 は、静止画像と各ビデオシーンを統一した数学的な相関基準として捉え、画質のレベルや単色変化にとどまらない映像的な一貫性を正確さをもって導き出します。これまでの旧世代の検出技術では見失いがちであった、全体の雰囲気や時間の流れまで把握することで、より高品質でクリエイティブチームを満足させるアセット選択をもたらします。

デモ動画

画像からビデオを検出するデモンストレーション動画はこちらです： https://www.loom.com/share/86b9ae43199a4b7baa221732df5e5a61

2.5 - コンプライアンス・チェック（規約監視）

検出と承認、修正指摘のインテグレータ

コンプライアンス自動機能は、ブランド基準、特定の業界放送規定、あるいは法的ガイドラインにアセットが違反していないかどうかをAIの目で連続自動スキャンします。ビデオの中身を調査し、基準に引っかかりそうな危ない要素のあるその瞬間に、 Frame.io のタイムラインコメント欄を介してピンポイントで注意を促す文字メッセージを書き込み、フラグを立てます。すべてのクリップの最初から最後までを人間の目でくまなく監視し続ける必要はなく、コラボレーション環境内でそのまま修正作業に繋げることができます。

以下の実施サンプルが示すとおり、不適切だと判定された一瞬一瞬（例：タイム「00:00」「00:19」「00:23」など）に、AIコンプライアンス名義での詳細な指摘文言（例：「コンプライアンス却下：戦闘シーン（ロケットランチャー射撃）」「コンプライアンス却下：爆発表現」など）が、フレームとピタッと重なるようにコメント生成されます。

主な特徴

完全にカスタマイズできるハウスルール設定：放送用の自主規準、未成年者対策、ロゴマークの表示規則、商標侵害ガイド、広告用テキストチェックなど、それぞれの業態、ルール、ブランドのレギュレーション方針を事前に自由にセットアップできます。
AIによる自動判定・スクリーニング分析：TwelveLabsが誇るPegasusモデルの高度なビデオ内容分析を通して、シーンにふさわしくない乱暴な動きや、セリフ内の汚い言葉、不適切な文脈をスキャンして自動で検出します。これにより、マニュアルで映像を見直すのに取られていた膨大な総時間をスリム化します。
タイムラインアノテーション（吹き出し書き込み）：問題が検出されたすべての正確なタイムコードにコメントマーカーがつきます。制作の進行に関するクリエイティブチームの普段のやりとりのスレッドに交じるようにコメントが表示されるため、編集者が該当の理由と部分をすばやく受け止め、修正を開始することが容易になります。
丁寧な違反事由のレポーティング：単に違反フラグを投げるだけでなく、「なぜこれが該当したのか」という事由（例: "Violence: Soldiers adjusting and aiming rifles"）を一緒に解説し、次の処理アクションを容易にさせます。
おなじみの普段のレビューフローにマッチ：既存の Frame.io のコラボレーションレビュー行程の中にそのまま違和感なく溶け込むため、各部門のアシスタント、ライセンス担当、リーガル部門の方々がシステムを何個も乗り換える必要がありません。
優先度の格付けラベル分類：検出されたインシデントについて「重大」「要注意」「単に注意補足」といったアラートの深刻度レベルをあらかじめ設けておけるため、どれから真っ先に対策が必要なのか、重要度に基づいたトリアージ（整理）と順序づけが可能になります。

この効率的なコンプライアンス補助機能は、 各放送倫理に対応した迅速な事前検閲、 コンテンツ展開前のブランドロゴ一律チェック、 主要SNSや広告枠それぞれの審査に抵触しないかを検証する広告代理業務、そして 権利侵害となり得る要素の検出を行いたいメディア法務・知財部門において大きく役立つでしょう。検証効率と検出率を並行させ、公開に関わるリスクを低く維持できます。

システム全体は各ビデオクリップの走査完了とともに、すぐに結果まとめデータを Frame.io の既存コメント欄へ直接フィードバックします。情報をスプレッドシートや別口のツールへコピー移動させる必要はありません。

備考：これは連携動作例です。それぞれのチェック強度やコメント表示用の書式、違反の基準はお客様の用途に合わせて調整可能です。

デモ動画

このコンプライアンス管理機能がどう稼働するかは、以下からご確認いただけます： https://www.loom.com/share/0e7308a9beac438db49c7855783825e3

3 - アーキテクチャとデータ実装

以下図面の全体ワークフロー図は、一般における実装構築イメージです。ユーザーが Frame.io 画面上で何らかのアクションをトリガーしたとき、Webhook配信にてイベントデータがOrchestrator（ワークフロー自動処理サーバー）へ流通し、そこから双方のAPI（TwelveLabs と Frame.io REST）に対して処理オーダーを送って情報連携が図られます。その結果を同Orchestrator経由で安全に書き戻し処理することで、双方向なシームレス操作を実現しています。

3.1 - インデックス生成の実装フロー

ユーザーが「アセットをインデックス生成する」カスタム動作を起動したとき、 Frame.io からOrchestrator側へ、アセット情報を含んだイベントが届きます。Orchestratorは、処理対象が単体のファイルなのか、指定したフォルダーの中身すべてを処理すべきものなのかを理解し、フォルダー指定であれば中身の全ファイルをAPI参照することから始めます。

上の図は、連携処理の完了までを描いた完全なシステムステップです：

ステップ 1: Frame.io インデックス作成の起動 — ユーザーが Frame.io 上でファイルあるいは特定フォルダー階層を右クリックし「Index Asset(s)」を選びます。この瞬間に専用のイベントWebhookがシステムにブロードキャストされます。
ステップ 2: Webhookパケットの着信と読み解き — OrchestratorはWebhookから取得したペイロードの解析をただちに始めます。フォルダ規模の指定であれば、そこに配置されているすべてのビデオ構造とリストを取得するために、さらに統合APIへの問い合わせを展開します。
ステップ 3: 保護されたメディア一時アクセスキーの発行（Frame.io API） — 解析サーバーは安全にメディアファイル自体を取得するために、一時的なセキュアダウンロード用URLの発給を依頼します。これにより認証をパスしてファイルの中身を安全にダウンロードする権限を得ます。
ステップ 4: TwelveLabs アップロードとMarengoの稼動 — サーバは受け取った一時アクセスURLを使用してメディアにアクセスし、その足でTwelveLabsのインデックス生成APIへ流し込みを開始します。ここからMarengoモデルはリアルタイムでのインシデントスキャンに取り掛かります。
ステップ 5: 完了ポーリングと監視 — ビデオのインデックス処理には一定の時間（メディアの長さ等によります）を要するため、ポーリング（一定秒ごとの問い合わせ確認処理）を実行することで完了、あるいは何らかのエラー・中断状態のステータス遷移を細かくキャッチします。
ステップ 6: インデックスキー「video_id」と結果の記録（Frame.io API） — 生成が問題なくフィニッシュしたあかつきには、TwelveLabsプラットフォーム内での個別アセット識別子video_idと作業済みフラグが該当アセットのカスタムメタデータとして自動登録され、画面に完了状態が表示されます。

この自動化されたパイプラインを設定しておけば、一度仕込んだあとは、編集者が新しく上がってきた動画データを指定の Frame.io フォルダへ移動配置するだけというルール運用にするだけで、一切の手動選択のアクションを重ねる必要がなくなります。

3.2 - メタデータ自動生成の実装フロー

メタデータ生成処理では、あらかじめアセットに結びついているTwelveLabsの video_id を読み解いた上で、外部から編集可能な「AIへの指示プロンプトテンプレート」をロードしてAPI起動へ促します。この手法により、プログラミングコードを一切いじることなく、非技術部署のコンテンツ管理者、コンプライアンス管理部門が思い思いに必要な抽出プロンプト条件を編集アレンジすることが可能です。

メタデータ生成全体の進行フローは以下の通りです：

ステップ 1: Frame.io メタデータ生成の開始 — カスタム追加メニューや、インデックス作成完了と連動する自動処理によってWebhook呼び出しが発生します。
ステップ 2: Webhookデータのパーシング — 解析を要求されているターゲットを識別し、 Frame.io 側の情報を手短に問い合わせて対象アセットに関連づく video_id を取り出します。
ステップ 3: 対象アセット情報の取得（Frame.io API） — 前述のステップでアセットに記憶させた video_id を参照。これを次の段階でTwelveLabsへのスキャンキーに割り当てます。
ステップ 4: プロンプト設定の読み込み — ソースコードに直接「解説文を作って、タグを設定して」などのプロシージャ指示を直書きせず、外部設定からテンプレート設定シートをマッピングロードします。これにより指示文面の変更を誰でも手軽に実施できるようにしています。
ステップ 5: プロンプトとvideo_idを使った処理の開始（TwelveLabs Analyze API） — 抽出指示の内容を満載した状態でPegasusによるインシデント推論へ回します。Pegasusは画面構成物をはじめ登場キャラ、進行文脈からリッチな構造化情報（例：mood, titleなどを仕分けたJSON等）を紡ぎだします。
ステップ 6: クリーニング済みの構造化データの受け渡し — AIでの計算が無事に終わると、その処理済みのメタデータ構造（JSONテキスト）がOrchestrator側に戻されます。
ステップ 7: 整形と一斉書き戻し（Frame.io API） — 出力テキストデータを、規定文字数、データ型、配列規則に完全に沿うように整形計算を行います。その上で、API呼び出しエラーやレートリミット（段階的なリクエストバケット制限）への対策を考慮した最適なバッチ処理方法（一斉書き出しルール）を用いて、データ項目を一挙に書き直します。

レートリミット対策のための自動リトライ機能、一時遮断に対するエクスポネンシャルバックオフ設計を組み込んだこのシステムは、何千本もの大容量のアセットライブラリに対しても、処理を中断することなく最後まで安定して、メタデータの安全な移行・付与を完了させられます。

3.3 - セマンティック検索の実装フロー

ユーザーは、 Frame.io 上のモーダルな検索コンソールを介して自然言語クエリを入力するだけで検索を開始できます。検索条件に含まれるコンセプトに基づきTwelveLabs側のベクトルデータベースから該当する候補と特定タイムスタンプ一覧を取得します。

セマンティック検索処理全体の詳細は以下のようになっています：

ステップ 1: セマンティック検索のトリガー（Frame.io） — ユーザーは検索枠に「wide aerial drone shot of rocky coastline meeting the ocean（切り立った崖にぶつかり合う海のドローン空撮）」といった言葉を入力します。
ステップ 2: 自然言語クエリを受け渡し — Frame.io はOrchestratorへクエリエントリを含むペイロードイベントをただちにディスパッチします。
ステップ 3: 対象データベースの照会（TwelveLabs Search API） — サーバはMarengoベクトル化検索へ自然言語のクエリを入力します。これによりマッチするスコアが高かったタイムライン範囲を取得します。
ステップ 4: マッチ箇所の一覧を取得 — 各アセット内部の該当部分の開始・終了マーク地点のタイムスタンプデータ（秒単位）を取得。適合スコア情報、 video_id の束を入手します。
ステップ 5: アセットFPS性能の照会（Frame.io API） — TwelveLabsが返す秒単位の時間情報を、 Frame.io タイムライン上で寸分たがわぬフレーム情報へと正しくマッピングするために、各ビデオファイルのフレームレート（FPS、24fpsや30fps、60fpsなど）を問い合わせます。
ステップ 6: コメント座標の精密マッピング — 受信した正確なフレームレート値から、コメントを配置するためのフレーム数を正確に逆算コンバートします。
ステップ 7: フォルダー自動作成・素材配置・コメント書き込み（Frame.io API） — システムはさらに、戻ってきた結果一覧から以下のような一連の自動整理作業を行います：
1. フォルダー自動作成：検索指示名および日時をもとに名付けられた一時用のフォルダー（例：「TL_Search_wide_aerial_drone_shot_2025-11-07」等）を新規作成します。
2. アセットのコピー：検出された該当アセット一覧のリストを、この特定フォルダ側へ並行コピー配備。検索結果を一歩も移動することなく総チェックを完了できます。
3. タイムラインへのコメント自動記入：秒単位の該当開始場所ピンポイント位置に対し、どのように類似して合致したかの情報欄、およびマッチ根拠コメント（例："Content similar to: wide aerial drone shot of rocky coastlineky coastline meeting the ocean | 5.25s—10.50s Rank 9"）を書き込みます。
ステップ 8: 進捗終了通知（Frame.io） — 最終的に準備が完了した確認信号が戻り、検索指示モーダルに結果フォルダーへアクセスするためのリンクアドレスが表示されます。

この自動化されたスマートなフローにより、エディターはタイムラインを最初からシークして探し回る労力から解放され、探したいビジュアル・アクトをそのまま日常的な言語で入力してアセットを把握、修正作業へ進めることが可能になります。

3.4 - 関連コンテンツ類似検索の実装フロー

画像データを参照にして起動されたこの検索システムは、同じ仕組みにより対象ファイルの画像情報をベクトルに数値変換し、Marengoデータ内で非常に相関性が高い部分にフォーカスさせ検出を行います。

類似コンテンツ検索の全進行のようすは、以下となります：

ステップ 1: Frame.io にて類似検索のスタート — ユーザーが参考画像の上で「関連コンテンツ類似検索」をかけ、Orchestratorへトリガーを送ります。
ステップ 3: 画像ダウンロード用の暗号キーの確認（Frame.io API） — システムは安全に対象参照画像ファイルをサーバーローカルへ引っ張るための一時キーを要請します。
ステップ 4: ファイル受領と一時キャッシュ — 受け取ったURLを経由し、対象となる静止キーファイルをホストへ読み込みます。
ステップ 5: 画像によるシーン検索の問い合わせ（TwelveLabs Search API） — サーバは受け取った写真を検索キーに割き、TwelveLabsのエンベディングエンジンへ送達。対象物の空間構成や特徴を分析します。単に同等の特定色が塗られているものをピクセルレベルで引っ張るといったものではなく「似たポーズでアスリートが屋外にいる構造か」などの相関チェックをします。
ステップ 6: 該当箇所の検出と足切り（しきい値判定） — 条件に一番合致する動画の区間時刻（タイムスタンプ）データ、および相関度の重み、 video_id リストを取得。信頼性のしきい値（しきい値を上げれば極限まで一致した場面に絞られ、下げればゆるやかな関連テーマの幅へと拡大されます）の下でふるいに掛けられます。
ステップ 7: フォルダー作成・コピー・自動アノテーション付与（Frame.io API） — さらに以下の手順で結果整理をおこないます：
1. 類似性チェックのしきい値処理：しきい値をパスしたクオリティのみに綺麗に絞り込んでソート順を設定します。
2. 専用結果フォルダ作成：インプット元の画像のタイトルを含むユニークな追及用ディレクトリ（例：「TL_ImageSearch_pexels-chevanon-317157_2025-11-07」等）を設置します。
3. 素材データ転送記載：対象となったヒット商品をすべてフォルダにマージコピー記載します。
4. 解説注釈メッセージ書き込み：該当するタイムスタンプの地点に「このように似ています（例："Content similar to: pexels-chevanon-317157vanon-317157 | 5.25s—10.50s Rank 9"）」といったタグ情報を追記配置させます。

このようにして、イメージに基づいた完璧にマッチする差し替えクリップ探し、雰囲気がよく合致したカットの選択などが、手動でおこなわれていた頃に比べてはるかに短い手数で快適に完了可能になります。

3.5 - コンプライアンス自動検証の実装フロー

このワークフローは、あらかじめ仕込んだ「検証規準ガイドライン」のテキスト（プロンプト）を満載してPegasusへ命令を渡し、暴力、粗野な台詞表現、特定商標ポリシーに対する侵害箇所の自動マッピングを依頼します。

コンプライアンス管理における自動検出の仕組み図です：

ステップ 1: Frame.io コンプライアンス処理の開始 — 右クリックボタンや公開前、アップロード完了をマイルストーンとして動作するプロセスを契機とし開始シグナルを受け取ります。
ステップ 3: アセット記述キーの呼び戻し（Frame.io API） — 同様にアセットにインデックス時に記述されたメタデータの video_id を調べ直して、TwelveLabsとの間でビデオ識別情報が一致するように連動させます。
ステップ 5: 検証ガイド情報付き判定リクエストの送達（TwelveLabs Analyze API） — 審査対象物 video_id に対し、社内で定義された監視したいルールの指示プロンプトを満載してPegasusプロセッサへと送ります。Pegasusはビジュアル要素をすべてなめるように把握、ストーリー上で危ない場面の開始箇所と終了箇所、及び総合の判定ステータス（APPROVED / REJECTED / NEEDS_REVIEW）を表にします。
ステップ 6: ステータス、警告理由、検出時間の一覧ロード — チェックが終了すると、検出情報を含んだ以下構造のまとまりデータがサーバーへ引き渡されます。例: { "status": "REJECTED", "violations": [...] }
ステップ 7: アセットFPS値のチェック（Frame.io API） — 同様に該当フレームと完全に重なり合うコメントロケーション情報を計算するため、動画ごとのFPS仕様を抽出します。
ステップ 9: メタデータ判定ステータスの書き込み、コメントの一括マッピング（Frame.io API） — Orchestratorは、取得した結果を元に以下2つの処理を行います：
1. 総合評価フィールドの決定： Frame.io 画面内のコンプライアンスドロップダウン項目エリアに対し、最終評価ステータス「危険（危険・却下）」などを直ちに書き込んで可視化させます。
2. タイムライン位置にインシデントコメント書き込み：危険と出た該当箇所秒数の、その精細なフレーム位置に対し、規準と事由メッセージ（例："Compliance REJECTED at 0:00: Violence: Soldier firing rocket launcher"）を書き込み配備します。

この解説のコメントをもとに、リーガルマネージャー、エディター、そして進行監督らは、何をおいても対処が必要なアラートに素早くたどり着き、同一コラボレーションシステムの中で「この危険シーンは別のセキュア画像へ差し変える」「この言葉を自主規制音（ピー音）にする」などのチャット対話を迅速に繰り広げられます。

法務審査チームが動画にへばりついて無駄な上映を幾度もやる必要はなくなります。この無駄のないスマートなチェック機構が、コンテンツをスピード公開させるためのセーフガードとして威力を発揮します。

4 - 結論：AIでコンテンツ制作とビデオの管理を今すぐリメイクしよう

TwelveLabsと Frame.io の連携が示す機能は、最新AIテクノロジーがどうやっておなじみのいつもの制作フローと違和感なく噛み合うべきかの答えとなります。卓越したメタデータ、セマンティック技術、Pegasus、Marengoらの優秀なモデルを用いることで、メディア、エンタメ、放送関連を含む様々な専門組織に、これまで手の届かなかった強力な機能をもたらします。

制作の現場で得られる変化、そのバリュー

実際のさまざまな場面で、この連携が以下のように大きな価値を提供します：

ポストプロダクション製作チーム：「wide aerial drone shot of rocky coastline」などの自然言語を使ったセマンティック検索により、インデックスされた映像から目的の一カットに秒単位・フレーム単位でたどり着けるようになり、無駄にビデオの早送りを繰り返す時間を解消、公開スピードが高速化します。
アセットストックとアセットマネジメント：Pegasusによるインテリジェント書き出し機能が、 Frame.io のメタデータフィールドを瞬く間にリッチな記述・要約・感情トーン、テーマなどで補完します。イメージ画像を頼りに関連カット、代替候補ショットも引き出すことができるため、過去の埋もれてしまっていたアーカイブ素材の素晴らしい有効利用を促します。
検閲とポリシー、法的承認チーム：ブランドガイドライン適応、著作、暴力箇所といった危ないシーン位置へのAI自動チェックが、そのままタイムラインのインクリメンタルなコメントとして連想マップされ、スタッフは余計な画面切り替えをしたりシートを用意して整理・指摘する時間を削減できます。
プロモーションとエージェンシー、放送ネット：沢山のキャンペーンマテリアルであっても、一貫性を持ったタグ付け手法が徹底されます。既存の使い慣れたやり方をそのままにし、そこにAIの視覚をインストールできます。

テクノロジーとしての進化要素

この優れた双方向システムは、Frame.io V4仕様のカスタムアクション、拡張フレキシブルメタデータ形式の機能解放を通して完全にシームレスになりました。インデックス、内容サマリ生成、関連データ類似検索などのアクションが、画面のアートスペースを汚すことなく自然に組み上がっています。リミット制限、リトライエラーなど、実用的なエンタープライズ規模のセキュリティ・負荷ポリシーにも抜かりありません。

視覚、聴覚、言葉のインパルスから映像の文意そのものを正確に汲むTwelveLabsのマルチモーダルビデオ理解が、チームのコラボレーション力を大きくレベルアップします。

始めるには

皆さんのいつもの Frame.io ワークフローに、この最新のマルチモーダルビデオインテリジェンスを取り入れたいと思いませんか？プロダクションアセットと自動メタデータマネジメントのスケールを加速するために、必要な前提条件は以下となります：

最小システム要件：

エンタープライズ権利を備えた Frame.io V4のアカウント
カスタムアクション（Custom Actions）およびカスタムメタデータ項目群を使える実行設定
インデックスとスキャンを行うための TwelveLabs APIキーの発行ライセンス

お問い合わせ・展開への歩み：

システムの組み込みやプロンプト設定、具体的な導入のご相談は、 是非TwelveLabs（もしくは弊社テクニカル窓口、brice@twelvelabs.io）までお問い合わせください。コンプライアンス指示のカスタマイズ方法や、社内の放送サーバーや既存アセットストレージとの連携等をお手伝いします。

関連ドキュメントなど：

APIの使い方や実装の詳細ガイド： TwelveLabs 開発者ドキュメント
Webhookやメタデータフィールド設定の詳細について： Frame.io V4 API デベロッパー向け参考ドキュメント
記事全体を通してご紹介している、各機能の実際の動きが手早くわかる各種ショートデモビデオ

これからのビデオ運用の未来とは、人間のアイデアやエディターの知性を機械がロボットのように代わりに置き換えることではなく、「本当に大切な表現や仕上げ、クリエイティブそのものに、スタッフがもっと集中できる時間をふんだんに手にする」ために、無駄で退屈な検索・手作業のタグ付けの手間を徹底的に無くしていくことです。TwelveLabs と Frame.io の見事なマリアージュを、皆さんの明日からの作品作りに是非ご活用ください。

TLDR（要約）

自然言語を使用してビデオライブラリ全体をインデックス化し検索する：映像を手動でシークしたり、不完全なメタデータに頼ったりする代わりに、「海岸線の広大な空撮ドローン映像」などの探している内容を説明することで特定のショットを見つけます。
Pegasusを使用してリッチなメタデータを自動生成する：単なる画面上のオブジェクトだけでなく、ナラティブコンテキスト（文脈）を理解するAI生成の説明文、タグ、要約、テーマ、感情的なトーンを Frame.io のフィールドに入力します。
画像からビデオを検索し、視覚的に類似したコンテンツを発見する：参考写真をアップロードするだけで、ライブラリ全体から一致する映像を即座に特定します。Bロールや別テイク、テーマごとのまとめフィルムを見つけるのに最適です。
タイムスタンプ付きの違反検出でコンプライアンスチェックを自動化する：規制違反の原因や、ブランドガイドライン違反、コンテンツポリシー違反となる箇所が発生した正確なタイムスタンプをフラグ立てし、 Frame.io のコメントシステムに直接統合します。
Frame.io V4のカスタムアクションを活用したシームレスなワークフロー統合：右クリックだけでインデックス作成、メタデータ生成、セマンティック検索、コンプライアンスチェックを実行。すべての結果がおなじみの Frame.io のインターフェース内に整理されます。