パートナーシップ

AIエージェントに動画を理解させる:StrandsエージェントとTwelveLabsの統合

ジェームズ・リー

Twelve Labsは、MarengoおよびPegasusモデルをStrands Agentsにネイティブに統合しました。これにより、開発者はオープンソースのStrands Agents Toolsリポジトリを通じて、3つの環境変数で設定可能な、自然言語による動画検索用の「search_video」と対話型の動画分析用の「chat_video」という2つのツールを利用できるようになります。

Twelve Labsは、MarengoおよびPegasusモデルをStrands Agentsにネイティブに統合しました。これにより、開発者はオープンソースのStrands Agents Toolsリポジトリを通じて、3つの環境変数で設定可能な、自然言語による動画検索用の「search_video」と対話型の動画分析用の「chat_video」という2つのツールを利用できるようになります。

この記事の内容

No headings found on page

ニュースレターに登録する

ニュースレターに登録する

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

AIを活用してビデオを検索、分析、探索します。

2025/11/06

4 分

記事へのリンクをコピー

はじめに:AIビデオ理解をエージェントワークフローに導入する

AIの状況は、スタンドアロンモデルから、複雑でマルチステップのタスクを実行できる洗練されたエージェント駆動型システムへと急速に進化しています。TwelveLabsの業界をリードするビデオ理解テクノロジーが Strands Agentsにネイティブ統合されたことを発表できることを嬉しく思います。これは、開発者エコシステム全体でビデオインテリジェンスを民主化するという私たちの取り組みにおけるもう一つのマイルストーンとなります。

このパートナーシップは、単なる技術的な統合以上のものを表しています。開発者がエージェントワークフロー内でマルチモーダルビデオ理解のパワーをどのように活用できるかという戦略的な拡大を意味します。当社のMarengoおよびPegasusモデルをStrandsエコシステムに直接もたらすことで、開発者が複雑なAPIやインフラストラクチャの懸念に対処することなく、高度なビデオ機能をAIアプリケーションに簡単に追加できるようにしています。


この統合が提供するもの

この統合は、TwelveLabsの最先端のビデオ基盤モデルとStrandsの直感的なエージェントフレームワークをシームレスに融合させる、2つの強力なツールを提供します。


search_video ツール - TwelveLabs Marengo搭載

このツールは、自然言語クエリを使用してエージェントがビデオコンテンツを発見および取得する方法を変革します。「AIについて議論している人々」や特定の視覚要素を検索している場合でも、Marengoのマルチモーダル理解は、設定可能な信頼度しきい値とグループ化オプションを使用して、正確な結果を提供します。


chat_video ツール - TwelveLabs Pegasus搭載

これにより、エージェントはビデオコンテンツに関する高度な会話を行い、洞察を抽出し、要約を生成し、ビデオ内で何が起こっているかについての複雑な質問に答えることができます。会議の録画の分析から教育コンテンツの理解まで、Pegasusはビデオデータに会話型インテリジェンスをもたらします。


開発者第一の体験

この統合は、環境変数を3つ設定するだけで開始できるという、最小限のセットアップ要件で当社の開発者第一の哲学を体現しています。複雑な認証フローや時間のかかるSDKのインストールは不要で、開発者が統合ではなく構築に集中できるようにするシンプルな構成です。

AWSパートナーエコシステムへのこのシームレスな統合は、開発者がいる場所で彼らに応えるという当社の取り組みを示すと同時に、 Strands Agents Toolsリポジトリを通じてオープンソースコミュニティに有意義に貢献しています。ビデオ理解機能への参入障壁を下げることで、ビジュアルコンテンツを真に理解し、それと対話できる次世代のインテリジェントアプリケーションを支援しています。


コード例:シンプルでありながら強力

ビデオ対応の強力なエージェントの構築が、かつてないほど簡単になりました。この統合により、複雑なビデオAI機能が、開発者が数日ではなく数分で実装できるシンプルで自然言語によるインタラクションに変換されます。

from strands import Agent
from strands_tools import search_video, chat_video

# ビデオ理解のスーパーパワーを持つエージェントを作成する
agent = Agent(tools=[search_video, chat_video])

# 自然言語を使用してビデオコンテンツを検索する 
result = agent.tool.search_video(
    query="AI技術について議論している人々",
    threshold="high",
    group_by="video",
    page_limit=5
)

# 既存のビデオとチャットする(index_idは不要)
result = agent.tool.chat_video(
    prompt="このビデオで議論されている主なトピックは何ですか?",
    video_id="existing-video-id"
)

# 新しいビデオファイルとチャットする(アップロードにはindex_idが必要)
result = agent.tool.chat_video(
    prompt="このビデオで何が起こっているか説明してください",
    video_path="/path/to/video.mp4",
    index_id="your-index-id"
)

この洗練されたシンプルさは、3つの環境変数、2つのツール、そして無限の可能性という、当社の 開発者第一の哲学を示しています。マルチモーダルAIの複雑さを抽象化することで、開発者がインフラストラクチャに苦労することなく、革新的なアプリケーションの構築に集中できるようにしています。クリーンなAPI設計により、企業のお客様が求める堅牢性を維持しながら、ビデオ理解機能が既存のStrands Agentsワークフローにシームレスに統合されます。


実世界のユースケースとメリット

この統合は、高度なビデオ理解を標準的な関数を呼び出すのと同じくらいアクセスしやすくすることで、業界全体で変革的なアプリケーションを可能にします。

  • コンテンツの発見と管理: 膨大なビデオライブラリを検索可能なナレッジベースに変換し、エージェントが自然言語クエリを使用して「四半期収益に関する議論」や「製品デモンストレーションの瞬間」を即座に見つけられるようにします。組織は、メタデータだけでなくコンテキストを理解するインテリジェントなコンテンツ管理システムを構築できるようになります。

  • 自動ビデオ分析: 会議、トレーニングセッション、または顧客とのやり取りから、重要な洞察を自動的に抽出し、要約を生成し、ToDoを特定するエージェントをデプロイします。この機能は、受動的なビデオコンテンツを実行可能なビジネスインテリジェンスに変換し、営業からコンプライアンスまでの各部門の効率を高めます。

  • インタラクティブな学習システム: ビデオレッスンに関する特定の質問に答えたり、学習ガイドを生成したり、視覚的なコンテンツに基づいてパーソナライズされた説明を提供したりできる教育用エージェントを作成します。この統合により、教材内の話された要素と視覚的な要素の両方に反応する適応的な学習体験が可能になります。

  • カスタマーサポートの強化: 投稿されたビデオを分析し、技術的なデモンストレーションを理解し、視覚的なトラブルシューティングコンテンツに基づいてコンテキストに応じたアシスタンスを提供するサポートエージェントを構築します。これにより、静的なナレッジベースが、ビデオを認識する動的なサポートシステムに変革されます。

これらのユースケースは、当社の AWSパートナーシップの勢い がどのように複合的な価値を生み出すかを示しています。つまり、各統合が両方のエコシステムを強化すると同時に、ビデオAIアプリケーションのトータルアドレス可能市場を拡大します。Strandsを通じてこの機能を オープンソースコミュニティ に提供することで、単にツールを構築しているだけでなく、次世代のインテリジェントアプリケーションの基本インフラストラクチャとしてビデオ理解を確立しています。


結論:今日から構築を始めましょう

Strands AgentsでTwelveLabsのビデオAIを使い始めるのは非常に簡単です。ただ3つの環境変数(TWELVELABS_API_KEY、 TWELVELABS_MARENGO_INDEX_ID、 TWELVELABS_PEGASUS_INDEX_ID)を設定するだけで、強力なビデオ理解をエージェントワークフローに統合する準備が整います。

マージされた プルリクエスト で完全な統合を確認し、 Strands Agents Toolsリポジトリを実際に体験してください。包括的な ドキュメント には、ビデオ対応エージェントの構築を今すぐ始めるために必要なすべての情報が記載されています。

エージェントがビデオコンテンツを理解する方法を変革する準備はできましたか?ツールをインストールし、API認証情報を設定して、高度なビデオAIと洗練された開発者体験が出会ったときに何が可能になるかを発見してください。ビデオ対応AIエージェントの未来は、あなたの次の pip install strands-agents-tools から始まります。

はじめに:AIビデオ理解をエージェントワークフローに導入する

AIの状況は、スタンドアロンモデルから、複雑でマルチステップのタスクを実行できる洗練されたエージェント駆動型システムへと急速に進化しています。TwelveLabsの業界をリードするビデオ理解テクノロジーが Strands Agentsにネイティブ統合されたことを発表できることを嬉しく思います。これは、開発者エコシステム全体でビデオインテリジェンスを民主化するという私たちの取り組みにおけるもう一つのマイルストーンとなります。

このパートナーシップは、単なる技術的な統合以上のものを表しています。開発者がエージェントワークフロー内でマルチモーダルビデオ理解のパワーをどのように活用できるかという戦略的な拡大を意味します。当社のMarengoおよびPegasusモデルをStrandsエコシステムに直接もたらすことで、開発者が複雑なAPIやインフラストラクチャの懸念に対処することなく、高度なビデオ機能をAIアプリケーションに簡単に追加できるようにしています。


この統合が提供するもの

この統合は、TwelveLabsの最先端のビデオ基盤モデルとStrandsの直感的なエージェントフレームワークをシームレスに融合させる、2つの強力なツールを提供します。


search_video ツール - TwelveLabs Marengo搭載

このツールは、自然言語クエリを使用してエージェントがビデオコンテンツを発見および取得する方法を変革します。「AIについて議論している人々」や特定の視覚要素を検索している場合でも、Marengoのマルチモーダル理解は、設定可能な信頼度しきい値とグループ化オプションを使用して、正確な結果を提供します。


chat_video ツール - TwelveLabs Pegasus搭載

これにより、エージェントはビデオコンテンツに関する高度な会話を行い、洞察を抽出し、要約を生成し、ビデオ内で何が起こっているかについての複雑な質問に答えることができます。会議の録画の分析から教育コンテンツの理解まで、Pegasusはビデオデータに会話型インテリジェンスをもたらします。


開発者第一の体験

この統合は、環境変数を3つ設定するだけで開始できるという、最小限のセットアップ要件で当社の開発者第一の哲学を体現しています。複雑な認証フローや時間のかかるSDKのインストールは不要で、開発者が統合ではなく構築に集中できるようにするシンプルな構成です。

AWSパートナーエコシステムへのこのシームレスな統合は、開発者がいる場所で彼らに応えるという当社の取り組みを示すと同時に、 Strands Agents Toolsリポジトリを通じてオープンソースコミュニティに有意義に貢献しています。ビデオ理解機能への参入障壁を下げることで、ビジュアルコンテンツを真に理解し、それと対話できる次世代のインテリジェントアプリケーションを支援しています。


コード例:シンプルでありながら強力

ビデオ対応の強力なエージェントの構築が、かつてないほど簡単になりました。この統合により、複雑なビデオAI機能が、開発者が数日ではなく数分で実装できるシンプルで自然言語によるインタラクションに変換されます。

from strands import Agent
from strands_tools import search_video, chat_video

# ビデオ理解のスーパーパワーを持つエージェントを作成する
agent = Agent(tools=[search_video, chat_video])

# 自然言語を使用してビデオコンテンツを検索する 
result = agent.tool.search_video(
    query="AI技術について議論している人々",
    threshold="high",
    group_by="video",
    page_limit=5
)

# 既存のビデオとチャットする(index_idは不要)
result = agent.tool.chat_video(
    prompt="このビデオで議論されている主なトピックは何ですか?",
    video_id="existing-video-id"
)

# 新しいビデオファイルとチャットする(アップロードにはindex_idが必要)
result = agent.tool.chat_video(
    prompt="このビデオで何が起こっているか説明してください",
    video_path="/path/to/video.mp4",
    index_id="your-index-id"
)

この洗練されたシンプルさは、3つの環境変数、2つのツール、そして無限の可能性という、当社の 開発者第一の哲学を示しています。マルチモーダルAIの複雑さを抽象化することで、開発者がインフラストラクチャに苦労することなく、革新的なアプリケーションの構築に集中できるようにしています。クリーンなAPI設計により、企業のお客様が求める堅牢性を維持しながら、ビデオ理解機能が既存のStrands Agentsワークフローにシームレスに統合されます。


実世界のユースケースとメリット

この統合は、高度なビデオ理解を標準的な関数を呼び出すのと同じくらいアクセスしやすくすることで、業界全体で変革的なアプリケーションを可能にします。

  • コンテンツの発見と管理: 膨大なビデオライブラリを検索可能なナレッジベースに変換し、エージェントが自然言語クエリを使用して「四半期収益に関する議論」や「製品デモンストレーションの瞬間」を即座に見つけられるようにします。組織は、メタデータだけでなくコンテキストを理解するインテリジェントなコンテンツ管理システムを構築できるようになります。

  • 自動ビデオ分析: 会議、トレーニングセッション、または顧客とのやり取りから、重要な洞察を自動的に抽出し、要約を生成し、ToDoを特定するエージェントをデプロイします。この機能は、受動的なビデオコンテンツを実行可能なビジネスインテリジェンスに変換し、営業からコンプライアンスまでの各部門の効率を高めます。

  • インタラクティブな学習システム: ビデオレッスンに関する特定の質問に答えたり、学習ガイドを生成したり、視覚的なコンテンツに基づいてパーソナライズされた説明を提供したりできる教育用エージェントを作成します。この統合により、教材内の話された要素と視覚的な要素の両方に反応する適応的な学習体験が可能になります。

  • カスタマーサポートの強化: 投稿されたビデオを分析し、技術的なデモンストレーションを理解し、視覚的なトラブルシューティングコンテンツに基づいてコンテキストに応じたアシスタンスを提供するサポートエージェントを構築します。これにより、静的なナレッジベースが、ビデオを認識する動的なサポートシステムに変革されます。

これらのユースケースは、当社の AWSパートナーシップの勢い がどのように複合的な価値を生み出すかを示しています。つまり、各統合が両方のエコシステムを強化すると同時に、ビデオAIアプリケーションのトータルアドレス可能市場を拡大します。Strandsを通じてこの機能を オープンソースコミュニティ に提供することで、単にツールを構築しているだけでなく、次世代のインテリジェントアプリケーションの基本インフラストラクチャとしてビデオ理解を確立しています。


結論:今日から構築を始めましょう

Strands AgentsでTwelveLabsのビデオAIを使い始めるのは非常に簡単です。ただ3つの環境変数(TWELVELABS_API_KEY、 TWELVELABS_MARENGO_INDEX_ID、 TWELVELABS_PEGASUS_INDEX_ID)を設定するだけで、強力なビデオ理解をエージェントワークフローに統合する準備が整います。

マージされた プルリクエスト で完全な統合を確認し、 Strands Agents Toolsリポジトリを実際に体験してください。包括的な ドキュメント には、ビデオ対応エージェントの構築を今すぐ始めるために必要なすべての情報が記載されています。

エージェントがビデオコンテンツを理解する方法を変革する準備はできましたか?ツールをインストールし、API認証情報を設定して、高度なビデオAIと洗練された開発者体験が出会ったときに何が可能になるかを発見してください。ビデオ対応AIエージェントの未来は、あなたの次の pip install strands-agents-tools から始まります。

はじめに:AIビデオ理解をエージェントワークフローに導入する

AIの状況は、スタンドアロンモデルから、複雑でマルチステップのタスクを実行できる洗練されたエージェント駆動型システムへと急速に進化しています。TwelveLabsの業界をリードするビデオ理解テクノロジーが Strands Agentsにネイティブ統合されたことを発表できることを嬉しく思います。これは、開発者エコシステム全体でビデオインテリジェンスを民主化するという私たちの取り組みにおけるもう一つのマイルストーンとなります。

このパートナーシップは、単なる技術的な統合以上のものを表しています。開発者がエージェントワークフロー内でマルチモーダルビデオ理解のパワーをどのように活用できるかという戦略的な拡大を意味します。当社のMarengoおよびPegasusモデルをStrandsエコシステムに直接もたらすことで、開発者が複雑なAPIやインフラストラクチャの懸念に対処することなく、高度なビデオ機能をAIアプリケーションに簡単に追加できるようにしています。


この統合が提供するもの

この統合は、TwelveLabsの最先端のビデオ基盤モデルとStrandsの直感的なエージェントフレームワークをシームレスに融合させる、2つの強力なツールを提供します。


search_video ツール - TwelveLabs Marengo搭載

このツールは、自然言語クエリを使用してエージェントがビデオコンテンツを発見および取得する方法を変革します。「AIについて議論している人々」や特定の視覚要素を検索している場合でも、Marengoのマルチモーダル理解は、設定可能な信頼度しきい値とグループ化オプションを使用して、正確な結果を提供します。


chat_video ツール - TwelveLabs Pegasus搭載

これにより、エージェントはビデオコンテンツに関する高度な会話を行い、洞察を抽出し、要約を生成し、ビデオ内で何が起こっているかについての複雑な質問に答えることができます。会議の録画の分析から教育コンテンツの理解まで、Pegasusはビデオデータに会話型インテリジェンスをもたらします。


開発者第一の体験

この統合は、環境変数を3つ設定するだけで開始できるという、最小限のセットアップ要件で当社の開発者第一の哲学を体現しています。複雑な認証フローや時間のかかるSDKのインストールは不要で、開発者が統合ではなく構築に集中できるようにするシンプルな構成です。

AWSパートナーエコシステムへのこのシームレスな統合は、開発者がいる場所で彼らに応えるという当社の取り組みを示すと同時に、 Strands Agents Toolsリポジトリを通じてオープンソースコミュニティに有意義に貢献しています。ビデオ理解機能への参入障壁を下げることで、ビジュアルコンテンツを真に理解し、それと対話できる次世代のインテリジェントアプリケーションを支援しています。


コード例:シンプルでありながら強力

ビデオ対応の強力なエージェントの構築が、かつてないほど簡単になりました。この統合により、複雑なビデオAI機能が、開発者が数日ではなく数分で実装できるシンプルで自然言語によるインタラクションに変換されます。

from strands import Agent
from strands_tools import search_video, chat_video

# ビデオ理解のスーパーパワーを持つエージェントを作成する
agent = Agent(tools=[search_video, chat_video])

# 自然言語を使用してビデオコンテンツを検索する 
result = agent.tool.search_video(
    query="AI技術について議論している人々",
    threshold="high",
    group_by="video",
    page_limit=5
)

# 既存のビデオとチャットする(index_idは不要)
result = agent.tool.chat_video(
    prompt="このビデオで議論されている主なトピックは何ですか?",
    video_id="existing-video-id"
)

# 新しいビデオファイルとチャットする(アップロードにはindex_idが必要)
result = agent.tool.chat_video(
    prompt="このビデオで何が起こっているか説明してください",
    video_path="/path/to/video.mp4",
    index_id="your-index-id"
)

この洗練されたシンプルさは、3つの環境変数、2つのツール、そして無限の可能性という、当社の 開発者第一の哲学を示しています。マルチモーダルAIの複雑さを抽象化することで、開発者がインフラストラクチャに苦労することなく、革新的なアプリケーションの構築に集中できるようにしています。クリーンなAPI設計により、企業のお客様が求める堅牢性を維持しながら、ビデオ理解機能が既存のStrands Agentsワークフローにシームレスに統合されます。


実世界のユースケースとメリット

この統合は、高度なビデオ理解を標準的な関数を呼び出すのと同じくらいアクセスしやすくすることで、業界全体で変革的なアプリケーションを可能にします。

  • コンテンツの発見と管理: 膨大なビデオライブラリを検索可能なナレッジベースに変換し、エージェントが自然言語クエリを使用して「四半期収益に関する議論」や「製品デモンストレーションの瞬間」を即座に見つけられるようにします。組織は、メタデータだけでなくコンテキストを理解するインテリジェントなコンテンツ管理システムを構築できるようになります。

  • 自動ビデオ分析: 会議、トレーニングセッション、または顧客とのやり取りから、重要な洞察を自動的に抽出し、要約を生成し、ToDoを特定するエージェントをデプロイします。この機能は、受動的なビデオコンテンツを実行可能なビジネスインテリジェンスに変換し、営業からコンプライアンスまでの各部門の効率を高めます。

  • インタラクティブな学習システム: ビデオレッスンに関する特定の質問に答えたり、学習ガイドを生成したり、視覚的なコンテンツに基づいてパーソナライズされた説明を提供したりできる教育用エージェントを作成します。この統合により、教材内の話された要素と視覚的な要素の両方に反応する適応的な学習体験が可能になります。

  • カスタマーサポートの強化: 投稿されたビデオを分析し、技術的なデモンストレーションを理解し、視覚的なトラブルシューティングコンテンツに基づいてコンテキストに応じたアシスタンスを提供するサポートエージェントを構築します。これにより、静的なナレッジベースが、ビデオを認識する動的なサポートシステムに変革されます。

これらのユースケースは、当社の AWSパートナーシップの勢い がどのように複合的な価値を生み出すかを示しています。つまり、各統合が両方のエコシステムを強化すると同時に、ビデオAIアプリケーションのトータルアドレス可能市場を拡大します。Strandsを通じてこの機能を オープンソースコミュニティ に提供することで、単にツールを構築しているだけでなく、次世代のインテリジェントアプリケーションの基本インフラストラクチャとしてビデオ理解を確立しています。


結論:今日から構築を始めましょう

Strands AgentsでTwelveLabsのビデオAIを使い始めるのは非常に簡単です。ただ3つの環境変数(TWELVELABS_API_KEY、 TWELVELABS_MARENGO_INDEX_ID、 TWELVELABS_PEGASUS_INDEX_ID)を設定するだけで、強力なビデオ理解をエージェントワークフローに統合する準備が整います。

マージされた プルリクエスト で完全な統合を確認し、 Strands Agents Toolsリポジトリを実際に体験してください。包括的な ドキュメント には、ビデオ対応エージェントの構築を今すぐ始めるために必要なすべての情報が記載されています。

エージェントがビデオコンテンツを理解する方法を変革する準備はできましたか?ツールをインストールし、API認証情報を設定して、高度なビデオAIと洗練された開発者体験が出会ったときに何が可能になるかを発見してください。ビデオ対応AIエージェントの未来は、あなたの次の pip install strands-agents-tools から始まります。