🎉 TwelveLabs Raises $100M Series B to build the future of video superintelligence. Read more.

プラットフォーム

価格

ソリューション

構築

資料

会社情報

Select Language

Playgroundへ移動

営業担当に相談する

🎉 TwelveLabs Raises $100M Series B to build the future of video superintelligence. Read more.

パートナーシップ

ApertureDBとTwelve Labsを活用したビデオデータの管理

ジェームズ・リー

機械学習向けのビデオデータ管理は、大規模な計算、複雑な前処理、そして大規模な手動アノテーションを必要とするため、リソースを集中的に消費します。この記事では、ApertureDBとTwelve Labsが、専用のビデオデータ管理とマルチモーダルビデオ理解APIを通じて、これらの課題にどのように対処しているかを検証します。

この記事の内容

No headings found on page

Join our newsletter

Receive the latest advancements, tutorials, and industry insights in video understanding

AIを活用してビデオを検索、分析、探索します。

プレイグラウンドを試す

2023/06/20

7分

記事へのリンクをコピー

現代社会において、動画理解アプリケーションは私たちの日常生活で極めて重要な役割を果たしています。ソーシャルメディアから防犯カメラにいたるまで、動画はあらゆる場所に溢れており、様々な目的で抽出・活用できる豊富な情報を含んでいます。例えば、動画データは公共の安全向上、交通フローの最適化、顧客体験の向上などに役立てることができます。しかし、動画から意味のある情報を抽出することは、高度なコンピュータビジョンアルゴリズムとソフトウェアインフラを必要とする複雑なタスクです。

実用的な動画理解アプリケーションの構築を目指す技術系開発者であれば、動画データをどのように管理するか、また、そのデータから意味を抽出するために市場でどのようなソリューションが利用可能かについての知見を持つ必要があります。このブログ記事では、動画データ管理における技術的な課題を検証し、それらの課題解決を支援する2つのソリューションであるApertureDBとTwelve Labsについて詳しく見ていきます。

動画データ管理における技術的課題

1 - サイズとボリュームに起因するリソースの複雑さ

個々の動画ファイルは、しばしば非常に大容量（数百メガバイトから数ギガバイト）になることがあり、ストレージの空き容量を大きく圧迫し、デコードや処理の際には膨大なメモリ要件が発生します。

さらに、動画データは複雑で分析が難しい場合があります。このデータに対する変換処理は独特です。リサイズ、クロップ、サンプリング（動画フレームや動画に対して実行される処理）といった一般的な操作であっても、計算負荷が非常に高くなることがあります。保存の際、大容量の動画はスニペットに分割されることが多く、その結果、興味深いイベントが複数のスニペットをまたいでしまうこともあります。このような動画を扱うには、FFmpegのような極めて扱いづらいコンピュータビジョンライブラリを操作したり、コンテナタイプ、コーデック、マルチプレクシング（多重化）などに関する知識が必要になったりします。

特に機械学習のユースケースにおいて、動画データの管理は、扱うデータの絶対的なボリュームの多さから非常に困難なものとなります。動画は、特にMLユースケースにおいて大量に発生し、処理の複雑さを考慮すると、多くの動画を扱うアプリケーションは、通常、高度に並列化された処理を実装したり、キーフレームインデックス、再マルチプレクシング、再エンコードといった他の最適化手法に頼ったりする必要があります。これらはすべて、特に非常に大規模なスケールにおいて、膨大なプログラミングの労力とテストを必要とします。

したがって、生の動画ファイルをダウンロードして処理するためには、十分に大きなマシンリソースが必要になります。これは、瞬く間に企業のコストを増加させ、特にリソースが限られている組織や予算が小規模な組織にとって大きな課題となります。

2 - 機械学習における困難な変換処理

MLのユースケースは、独自のプリプロセッシング（前処理）要件も生み出します。一部のモデルのトレーニングでは、オリジナルの高フレームレートのコンテンツの代わりにサンプリングされた動画が要求されたり、フレームのみで動作したりする場合があります。また、モデルによってはRGB形式の入力を必要とする一方で、動画がYUV形式であることもあるため、モデルが異なる色空間を処理できなければなりません。ユースケースによっては、動画の中から短いけれど興味深いクリップだけを必要とする場合もあります。このような場合、低いフレームレートでサンプリングするためだけ、あるいは動画からいくつかのキーフレームを抽出してトレーニングするためだけに、何ギガバイトものデータをダウンロードしなければならないことがあります。これは時間とリソースを大量に消費するプロセスであり、個人やチームが動画データを効率的に扱うことを困難にします。

元の動画に加えて、動画をフレームに展開したり、あらかじめクリップを保存したりすることは、データのフットプリント（占有容量）を大幅に増加させ、管理や作業のプロセスをさらに複雑にする可能性があります。すべてのフレームに価値のある情報が含まれているわけではないため、これは非効率的でもあります。逆に、大容量になりがちな動画全体をダウンロードした後に、その大部分を破棄するのも時間とリソースの無駄になります。

そのため、動画データがストレージや処理リソースに与える影響を慎重に考慮し、効果的に管理するための戦略を立てることが重要です。

3 - メタデータ管理

動画のクエリ、可視化、そしてデバッグは、動画データを管理する上で欠かせないステップです。しかし、これらのタスクは、動画ファイルに関連付けられたメタデータの量と複雑さのために困難を極めることがよくあります。メタデータには、ビジュアルオブジェクト、関連するアプリケーション、アノテーション、およびコンテンツを説明するエンベディング（埋め込みベクトル）に関する貴重な情報が含まれています。動画理解を自動化するにつれて、このメタデータは進化し、既存の動画や新たに入力される動画から発見された新しい知見を含むようになります。したがって、このメタデータの管理はすぐに複雑化する可能性があり、適切なツールがなければ、動画のクエリ、可視化、およびデバッグを効果的に行うことは難しくなります。

もう一つの課題は、動画のメタデータが異なるソース（異なるストレージデバイス、データベース、アプリケーションなど）に散在していることが多い点です。このようにメタデータが散在していると、動画データの統一されたビューを作成し、そこから意味のある知見を導き出すことが困難になります。さらに、メタデータの整理方法がソースごとに異なる場合があり、動画のクエリ、可視化、デバッグのプロセスをさらに複雑にします。この課題に対処するには、さまざまなソースを統合し、メタデータの統一されたビューを提供する包括的なメタデータ管理戦略が必要です。

4 - 手動アノテーション

動画データを機械学習に役立つものにするためには、手動でのアノテーション（注釈付け）が必要となる場合があり、これには膨大な時間と労力がかかります。データを効果的に活用するためには、適切に分類し、セグメント化する必要があるからです。さらに、アノテーションのプロセスでは、正確性を担保するために複数回にわたる見直しと修正が行われることが多く、タスクにかかる時間と労力がさらに増加します。

具体的には、動画アノテーションとは、ラベル、タグ、テキストによる説明、あるいはその他のメタデータを動画のタイムライン自体に直接追加する作業を指します。アノテーターは、手作業でクリップを最初から最後まで視聴し、必要に応じて関連する瞬間にタグを付けることに時間を費やします。24fpsの動画1時間をアノテーションするのに（どれだけ調子が良くても）約5分かかることを考えると、シーズン全体のドラマや長編映画すべてにアノテーションを行うのにどれほどの労力が必要になるか想像してみてください。

5 - ビデオモデリング

ビデオモデリングがテキストや画像のモデリングほど注目されてこなかった理由の一つは、それに伴う高い計算負荷にあります。前述の通り、動画はテキストや画像よりもサイズがはるかに大きく、処理するためにはるかに多くの処理能力が必要となります。この問題は、シーケンスフレームの長さに対して二次関数の複雑さを持つTransformerアーキテクチャ（現在のプレトレーニングされた大規模モデル開発における標準的な手法）において、さらに顕著になります。

例として、通常1秒あたり30フレーム（画像）を持つ10分間の動画を想定してみましょう。これは、動画に10 * 60 * 30フレーム、つまり18,000枚の画像が含まれていることを意味します。Transformerの二次関数の複雑さを考えると、必要なコンピューティング全体は非常に大きくなります。

さらに、時系列モデリングならではの固有の課題もあります。テキストや画像とは異なり、動画には分析の際に考慮しなければならない時間軸の次元が存在します。これには、他のモダリティでは一般的に使用されない専門的な技術が必要となります。

最後に、動画クリップに提示される視覚情報に加えて、追加の処理を必要とする同期されたオーディオキュー（音声シグナル）が存在します。これらの音声シグナルには、動画内での物音や会話が含まれており、視聴者に追加の文脈や情報を提供します。これらの音声シグナルは、動画に表示される視覚情報と同じくらい重要であることが多く、見過ごすべきではない点に留意することが重要です。したがって、これらの音声シグナルの処理は、動画分析における重要な側面であり、視覚的なシグナルと同等の注意を払う必要があります。

ApertureDBとTwelve Labsによるソリューション

前セクションでは、機械学習のユースケースにおける動画データの管理に伴ういくつかの課題を取り上げました。幸いなことに、これらの課題を克服するのに役立つツールが利用可能です。このセクションでは、そうした2つのツールであるApertureDBとTwelve Labsについて詳しく見ていきます。

1 - ApertureDB

ApertureDBは、画像、動画、特徴ベクトル、およびアノテーションを含む関連メタデータなどのビジュアルデータ向けに専用設計されたデータベースです。その構造上、ApertureDBは画像と動画の管理をネイティブにサポートしています。データにアクセスする際に、ズーム、クロップ、サンプリング、サムネイル作成など、必要な前処理操作を提供します。ApertureDBの動画APIは、複数の動画エンコーディングやコンテナに対応しており、効率的なフレームレベルのアクセスが可能です。ApertureDBは、S3やGoogle Cloud Storageなどのクラウドバケットからこのデータを保存・アクセスすることができ、あるいはデータをApertureDBサーバー側で保存・管理することも可能です。

このデータには通常、貴重なアプリケーションメタデータが伴うため、私たちはそれをナレッジグラフとして管理しています。これにより、メタデータとデータ間の内部関係を捉え、複雑なビジュアル検索を可能にします。ApertureDBの統一されたAPIは、動画データの管理とクエリのプロセスを簡素化できます。実際、動画や動画内の興味深いクリップに様々なアノテーションを付加できる機能により、フレームごとやクリップごとのデータの重複を避けることが非常に容易になり、同時にそれを利用してクエリを実行し、価値のあるビジネス上の知見を導き出すことができます。

ApertureDB内のエンベディング（埋め込み）を使用する際、統一されたAPIを介したベクトルインデックスおよび検索機能により、類似した動画を見つけることも可能です。

動画のプリプロセッシング、フレームやクリップの抽出、およびキーフレームのインデックス作成に対するApertureDBのネイティブAPIサポートにより、カスタマイズされたデプロイの必要性が減り、動画を扱う際のトレーニング/推論ワークフローが簡素化されます。これは、かつて数日かかっていたワークフローが、今ではクエリを記述して実行するだけの数分で完了することを意味します。

スケール、パフォーマンス、そして最適化されたデータアクセスが、ApertureDBの主要な特徴です。

2 - Twelve Labs

動画検索ソリューションは強力なインデックス作成ツールとして機能し、マルチメディアアセット内の目的のシーンの迅速な閲覧や検索を可能にします。低レベルのビジュアル分析を伴う退屈な作業を処理することにより、これらのテクノロジーは関連するカットの特定を容易にし、プロジェクト期間中の効率的なタグ付けと迅速なターンアラウンドタイムを実現します。

例えば、テレビ番組や映画を制作しているアニメーションスタジオを考えてみましょう。手作業で映像を確認し、骨の折れるカットリストやキーフレームメモの作成に何ヶ月も費やす代わりに、チームはデジタルアセット管理プラットフォームに統合された最先端の検索エンジンを活用できます。その後、後で参照するための関連シーンやキャラクターの表情を特定し、制作サイクルをスピードアップさせることができます。

要するに、最適化された動画検索ソリューションを活用することで、手動で動画アセットにタグ付けする担当者の負担を大幅に軽減できます。

Twelve Labsは、動画理解の力を活用したアプリケーションの作成を支援するために設計された、APIスイート形式のマルチモーダル基盤モデルを提供しています。その中の一つが、自然言語のクエリを使って、動画内の特定の関心のある瞬間をシームレスに見つけ出す「Video Search API」です。

大まかに言えば、Twelve LabsのAPIは3つの検索オプションを可能にします：

ビジュアル（視覚）：APIが動画のマルチモーダルな音響・視覚分析を実行し、オブジェクト、アクション、音、動き、場所、シチュエーションイベント、および複雑な音響・視覚テキストの説明から検索できるようにします。ビジュアル検索の例としては、「歓声を上げる群衆」や「オフィスを去る疲れ果てた開発者😆」などが挙げられます。
カンバセーション（会話）：APIが動画から音声テキスト（トランスクリプト）を抽出し、そのテキストに対してセマンティックな自然言語処理（NLP）分析を行います。これにより、検索している会話が行われている動画内の正確な瞬間を特定できます。動画内で行われる会話の検索例としては、「あなたが兄弟に嘘をついた瞬間😜」などがあります。
テキスト・イン・ビデオ（動画内テキスト）：APIがテキスト認識（OCR）を行い、看板、ラベル、字幕、ロゴ、プレゼンテーション、ドキュメントなど、動画内に表示されるテキストを検索できるようにします。この場合、例えばサッカーの試合中に表示されるブランドを検索することができます 🏈。

動画をアップロードすると、システムは自動的に動画のインデックス作成プロセスを開始します。Twelve Labsは、時間的文脈を組み込み、動き、オブジェクト、音、画面上のテキスト、音声などの情報を動画から抽出するためにマルチモーダル基盤モデルを使用することに関連して、動画インデックス作成の概念を説明しており、これによって強力な動画エンベディングを生成します。これにより、日常的な言葉を使って動画内の特定の瞬間を見つけたり、提供されたラベルやプロンプトに基づいて動画セグメントを分類したりすることが可能になります。

システムが動画のインデックス作成と動画エンベディングの生成を完了した後は、検索APIを活用して特定の瞬間を見つけることができます。このAPIは、入力したクエリのセマンティック（意味的）な意味に対応する、関連動画内の正確な開始・終了のタイムコードを特定します。選択したインデックスオプションに応じて、セマンティック動画検索で同じオプションのサブセットから選択できるようになります。例えば、インデックスのすべてのオプションを有効にした場合、音響・視覚的、会話、動画内に現れるあらゆるテキストから検索する機能が得られます。インデックスと検索の両方のレベルで同じオプションセットを提供する理由は、動画コンテンツを分析するためにプラットフォームをどのように利用したいか、また、現在のコンテキストに適したオプションの組み合わせを使用して動画コンテンツ全体をどのように検索したいかを、柔軟に決定できるようにするためです。

結論

動画データの管理は、十分なコンピューティングリソース、慎重なメタデータ管理、および手動アノテーションを必要とする、困難なタスクになる場合があります。しかし、ApertureDBやTwelve Labsのような革新的なソリューションの助けを借りることで、これらの課題を克服できます。開発者はこれらのツールの機能を活用することで、動画データ管理の複雑さに悩まされることなく、実用的な動画理解アプリケーションの構築に集中することができます。

未来に目を向けると、私たちは動画データの管理がもはや困難なタスクではない世界を思い描いています。動画AIが進化し続けるにつれて、動画データの管理やアノテーションプロセスの自動化を支援する、より高度なソリューションが登場することが期待されます。これらのツールを使用することで、動画データの可能性を最大限に引き出し、動画理解の恩恵に誰もがアクセスできる世界を創造することができます。ぜひ今すぐApertureDBとTwelve Labsをチェックして、これらが皆さんの動画理解アプリケーションを次のレベルに引き上げるためにどのように役立つか、確かめてみてはいかがでしょうか？

ビジュアル（視覚）：APIが動画のマルチモーダルな音響・視覚分析を実行し、オブジェクト、アクション、音、動き、場所、シチュエーションイベント、および複雑な音響・視覚テキストの説明から検索できるようにします。ビジュアル検索の例としては、「歓声を上げる群衆」や「オフィスを去る疲れ果てた開発者😆」などが挙げられます。
カンバセーション（会話）：APIが動画から音声テキスト（トランスクリプト）を抽出し、そのテキストに対してセマンティックな自然言語処理（NLP）分析を行います。これにより、検索している会話が行われている動画内の正確な瞬間を特定できます。動画内で行われる会話の検索例としては、「あなたが兄弟に嘘をついた瞬間😜」などがあります。
テキスト・イン・ビデオ（動画内テキスト）：APIがテキスト認識（OCR）を行い、看板、ラベル、字幕、ロゴ、プレゼンテーション、ドキュメントなど、動画内に表示されるテキストを検索できるようにします。この場合、例えばサッカーの試合中に表示されるブランドを検索することができます 🏈。