제품

요금제

솔루션

개발자 센터

연구

회사 소개

블로그

Select Language

플레이그라운드

엔터프라이즈 문의하기

Product

Jockey: TwelveLabs API와 LangGraph 기반의 대화형 비디오 에이전트

제임스 러, 트래비스 쿠튀르

Jockey는 LangGraph와 Twelve Labs API를 기반으로 구축된 오픈소스 대화형 비디오 에이전트로, 개발자가 자연어 인터페이스를 통해 비디오 콘텐츠를 검색, 편집 및 텍스트로 생성할 수 있도록 지원합니다. 또한 모듈식 아키텍처를 채택하여 특정 사용 사례에 맞게 커스터마이징하고 확장할 수 있습니다.

In this article

No headings found on page

뉴스레터 구독하기

영상 이해 분야의 최신 기술 업데이트, 튜토리얼 및 인사이트를 받아보세요.

AI로 영상을 검색하고, 분석하고, 탐색하세요.

플레이그라운드 체험하기

2024. 7. 3.

5분

링크 복사하기

요약

LangGraph의 유연한 프레임워크와 Twelve Labs의 강력한 비디오 이해 API를 결합한 고급 대화형 비디오 에이전트, Jockey를 소개합니다. 이 글에서는 Jockey의 아키텍처, LangGraph 및 Twelve Labs와의 통합 방식, 그리고 그 기능을 맞춤 설정하고 확장하는 방법을 다룹니다. Jockey 개발에 함께 힘을 모아준 LangChain 팀에 깊은 감사를 전합니다!

‍

Twelve Labs는 비디오 콘텐츠에서 풍부한 인사이트와 정보를 추출하는 최첨단 비디오 이해 API를 제공합니다. 고급 비디오 파운데이션 모델(VFM)을 기반으로 하는 이 API는 미리 생성된 캡션 같은 중간 표현에 의존하지 않고 비디오 자체를 기본적으로 직접 처리합니다. 덕불어 시각적 요소, 오디오, 화면 텍스트, 시간적 관계를 포함한 비디오 전체를 더욱 정확하고 맥락에 맞게 이해할 수 있습니다.

Twelve Labs API의 주요 기능에는 비디오 검색, 분류, 요약, 질의응답 등이 있습니다. 개발자는 이 API를 쉽게 통합하여 콘텐츠 탐색, 비디오 편집 자동화, 대화형 비디오 FAQ, AI 생성 하이라이트 릴 등 다양한 사용 사례에 맞는 애플리케이션을 구축할 수 있습니다. 엔터프라이즈급 보안과 대규모 비디오 아카이브까지 처리할 수 있는 확장성을 갖춘 Twelve Labs API는 비디오 기반 애플리케이션의 새로운 가능성을 열어줍니다.

2 - LangGraph v0.1 및 LangGraph Cloud 출시

최근 LangChain은 에이전트 및 멀티 에이전트 애플리케이션을 더욱 정교하고 정밀하게 구축할 수 있는 프레임워크인 LangGraph v0.1을 출시했습니다. 기존의 LangChain AgentExecutor와 달리, LangGraph는 맞춤형 인지 아키텍처를 위한 유연한 API를 제공하여 개발자가 코드의 흐름, 프롬프트, LLM 호출을 정밀하게 제어할 수 있게 합니다. 또한 LangGraph는 빌트인 지속성 레이어(persistence layer)를 통해 인간과 에이전트 간의 협업을 촉진하며, 작업 실행 전 인간의 승인을 받거나 에이전트의 행동을 편집하고 재개하는 '타임 트래블' 같은 기능을 지원합니다. 이러한 뛰어난 유연성과 저수준 제어 능력 덕분에 단일 에이전트 및 멀티 에이전트 구성이 가능해졌을 뿐만 아니라 에이전트의 신뢰성도 크게 향상되었습니다. 이는 Replit, Norwegian Cruise Line, Elastic 같은 기업들에 매우 중요한 요소였습니다.

LangGraph 프레임워크를 보완하기 위해 LangChain은 현재 비공개 베타로 제공되는 LangGraph Cloud도 함께 출시했습니다. LangGraph Cloud는 LangGraph 에이전트 배포를 위해 설계된 확장성 높은 인프라를 제공하며, 수평적으로 확장되는 서버와 작업 대기열을 관리하여 수많은 동시 사용자를 효율적으로 처리하고 대규모 상태(state)를 저장합니다. 또한, 현재 실행 중인 스레드에 새로운 사용자 입력을 처리하는 '이중 텍스트 전송(double-texting)'이나 장시간 실행되는 작업을 위한 비동기 백그라운드 작업 등 실제 상용화 환경의 인터랙션 패턴을 지원합니다. LangGraph Cloud는 에이전트의 궤적을 시각화하고 디버깅할 수 있는 도구인 LangGraph Studio와 통합되어, 개발자가 에이전트 기반 애플리케이션을 신속하게 반복 개발하고 피드백을 반영할 수 있도록 돕습니다.

3 - Jockey가 LangGraph 및 Twelve Labs API를 활용하는 방식

오픈소스 대화형 비디오 에이전트인 Jockey는 이번 v1.1 릴리스를 통해 큰 진화를 이루었습니다. 원래 v1.0에서 LangChain을 기반으로 구축되었던 Jockey는 이제 LangGraph의 강력한 성능을 활용하여 프론트엔드와 백엔드 작업 모두에서 한층 강화된 확장성과 개선된 기능을 제공합니다. 이러한 전환은 Jockey 아키텍처의 핵심적인 발전으로, 복잡한 비디오 워크플로우를 더욱 효율적이고 정밀하게 제어할 수 있게 해줍니다.

기본적으로 Jockey는 LangGraph의 유연한 프레임워크를 통해 대형 언어 모델(LLM)의 강점과 Twelve Labs의 특화된 비디오 API를 결합합니다. 위 이미지의 LangGraph UI는 Jockey의 의사 결정 과정을 구성하는 복잡한 노드 네트워크를 보여줍니다. 여기에는 supervisor, planner, video-editing, video-search, video-text-generation 노드가 포함되며, 각 노드는 사용자 질의를 처리하고 비디오 관련 작업을 실행하는 데 중요한 역할을 합니다.

LangGraph를 채택함으로써 얻는 가장 큰 장점 중 하나는 워크플로우의 각 단계에 대해 세밀한(granular) 제어가 가능하다는 점입니다. 이를 통해 Jockey는 노드 간에 어떤 정보가 전달되고 각 노드의 응답이 전체 상태(state)에 어떻게 기여하는지 정밀하게 관리할 수 있습니다. 이러한 정교한 제어는 토큰 사용량을 최적화할 뿐만 아니라 노드 응답을 더욱 정확하게 가이드하여 비디오 처리의 효율성과 효과를 극대화합니다.

위의 Jockey 데이터 파일 흐름도는 시스템 전체에서 정보가 어떻게 이동하는지 시각적으로 명확하게 보여줍니다. 최초 질의 입력부터 시작해, 질의의 복잡도를 판단하는 LangGraph의 분석 단계, 그리고 단순한 텍스트 응답으로 보낼지 아니면 더 복잡한 비디오 처리 단계 체인으로 보낼지 결정하는 후속 라우팅 과정을 거치는 의사 결정 프로세스를 한눈에 볼 수 있습니다. 여기에는 Twelve Labs API에서 비디오를 검색하고, 필요에 따라 비디오 콘텐츠를 결합 및 분할하며, 최종 결과를 사용자에게 전달하는 과정이 포함됩니다.

LangGraph의 확장 가능한 아키텍처와 Twelve Labs의 강력한 비디오 API를 활용하는 Jockey는 비디오를 이해하고 다루는 정교한 접근 방식을 선보입니다. 이러한 결합을 통해 비디오 검색 및 편집부터 비디오 콘텐츠 기반 텍스트 생성에 이르기까지 다양한 작업을 지능적인 대화형 인터페이스를 통해 매끄럽게 처리할 수 있습니다.

4 - Jockey 아키텍처 개요

Jockey의 아키텍처는 정교한 멀티 에이전트 시스템을 통해 복잡한 비디오 관련 작업을 효율적으로 처리하도록 설계되었습니다. 위 다이어그램에 표시된 것처럼, 시스템은 크게 세 가지 주요 구성 요소로 나뉩니다: 상위 관리자(Supervisor), 기획자(Planner), 그리고 작업자(Workers). 각 요소는 사용자 요청을 처리하고 비디오 관련 작업을 실행하는 데 핵심적인 역할을 담당합니다.

Supervisor는 중앙 조정자 역할을 하며, 서로 다른 노드 간의 작업을 라우팅하고 전반적인 워크플로우를 관리합니다. 사용자 입력을 수신하여 복잡한 요청에 대해 Planner를 작동시킬지, 아니면 특정 Worker에게 바로 작업을 지시할지 등의 다음 행동을 결정합니다. 또한 Supervisor는 오류 복구를 처리하며, 시스템이 현재 계획을 준수하도록 관리하거나 필요한 경우 재계획(replanning)을 지시합니다.

Planner는 복잡한 사용자 요청에 대해 상세한 단계별 계획을 수립하기 위해 Supervisor의 호출을 받습니다. 이 구성 요소는 까다로운 작업을 Worker가 실행할 수 있는 관리 가능한 단계들로 분할하는 데 필수적입니다. Planner의 역할은 전략적 접근이 필요한 다단계 비디오 처리 워크플로우를 다룰 때 특히 중요합니다.

Workers 섹션은 다음의 두 가지 주요 구성 요소로 상호 작용합니다:

Instructor는 Planner의 전략에 따라 개별 작업자(worker)를 위한 정확하고 완전한 작업 지시서를 만듭니다.
실제 작업자(Actual Workers)는 제공된 도구를 사용하여 지시 사항을 실행하는 특화된 에이전트들입니다. 여기에는 비디오 검색(Video Search), 비디오 텍스트 생성(Video Text Generation), 비디오 편집(Video Editing) 기능이 포함됩니다.

이 아키텍처 덕분에 Jockey는 광범위한 비디오 관련 작업을 유연하고 정밀하게 처리할 수 있습니다. 시스템은 단순한 텍스트 응답부터 복잡한 비디오 편집 작업에 이르기까지 다양한 유형의 쿼리에 동적으로 대처합니다. 또한 LangGraph 프레임워크를 기반으로 노드 간 상태를 효율적으로 관리하고 토큰 사용을 최적화하며, 비디오 처리 워크플로우의 각 단계 실행을 세밀하게 제어할 수 있습니다.

5 - Jockey 맞춤 설정하기

Jockey의 모듈식 디자인은 맞춤 설정과 기능 확장을 용이하게 합니다. 개발자는 프롬프트를 수정하고, 더 복잡한 시나리오를 처리하도록 상태(state)를 확장하거나, 특정 사용 사례를 완수하기 위한 새로운 작업자를 추가할 수 있습니다. 이를 통해 Jockey를 고도화된 비디오 AI 애플리케이션 구축을 위한 다재다능한 기반으로 활용할 수 있습니다.

기능으로서의 프롬프트 (Prompt as a Feature)

이 접근 방식은 Jockey의 언어 모델 기능을 활용하여 기본 소스코드를 수정하지 않고도 새로운 기능을 도입합니다. 예를 들어, 핵심 시스템 수정 없이 Jockey가 비디오에서 액션 시퀀스나 감정적인 순간과 같은 특정 유형의 장면을 식별하고 추출하도록 지시하는 프롬프트를 작성할 수 있습니다.

Jockey 확장 및 수정

더 심도 있는 맞춤 설정을 위해 개발자는 Jockey의 구성 요소를 직접 수정할 수 있습니다:

프롬프트 수정: Supervisor, Planner, Workers 등 Jockey의 다양한 구성 요소가 사용하는 기존 프롬프트를 편집할 수 있습니다. 이를 통해 시스템의 의사 결정 세부 프로세스와 출력 생성을 미세 조정할 수 있습니다.
상태(State) 확장 및 수정: 추가 정보를 포함하도록 Jockey의 상태 관리를 확장하거나 새로운 데이터 유형을 처리하도록 수정할 수 있습니다. 이는 Jockey를 외부 시스템과 통합하거나 특수한 비디오 메타데이터를 다룰 때 특히 유용합니다. 상태 객체에 새 필드를 추가하거나, 기존 상태 정보가 구성 요소 간에 처리되고 전달되는 방식을 수정할 수 있습니다.
작업자(Workers) 추가 및 수정: 고급 비디오 효과나 비디오 생성 같은 작업을 위한 새로운 특화 Worker를 만들거나, 기존 Worker를 수정하여 기능을 향상 및 새로운 API와 연동할 수 있으며, 새로운 유형의 작업을 처리하도록 Instructor에 커스텀 로직을 구현할 수 있습니다.

6 - Jockey 및 Twelve Labs API 시작하기

Jockey는 LangGraph의 유연한 에이전트 프레임워크와 Twelve Labs의 최첨단 비디오 이해 API가 강력하게 융합된 결과물로, 지능형 비디오 처리 및 상호 작용의 새로운 가능성을 열어줍니다. 시작하려면 Jockey GitHub 리포지토리를 방문하여 소스 코드와 설명서에 액세스하세요: https://github.com/twelvelabs-io/tl-jockey. 개발 및 테스트를 위해 Jockey를 로컬에 배포하거나, 확장 가능한 프로덕션 배포를 위해 LangGraph Cloud를 활용할 수 있습니다.

Jockey를 실행하려면 Twelve Labs 계정에 가입하고 https://playground.twelvelabs.io/에서 API 키를 발급받아야 합니다. Twelve Labs가 제공하는 포괄적인 비디오 이해 도구 모음과 Jockey의 지능적인 오케스트레이션을 사용하면, 전례 없는 단순함과 정확성으로 비디오 콘텐츠를 검색, 분석, 편집할 수 있는 차세대 비디오 기반 애플리케이션을 성공적으로 구축할 수 있을 것입니다.

마지막으로, Jockey를 사용하면서 질문이 있거나 문제를 겪으시면 Twelve Labs의 Multimodal Minds Discord 서버에 참여해 의견을 나누어 보세요!

요약

LangGraph의 유연한 프레임워크와 Twelve Labs의 강력한 비디오 이해 API를 결합한 고급 대화형 비디오 에이전트, Jockey를 소개합니다. 이 글에서는 Jockey의 아키텍처, LangGraph 및 Twelve Labs와의 통합 방식, 그리고 그 기능을 맞춤 설정하고 확장하는 방법을 다룹니다. Jockey 개발에 함께 힘을 모아준 LangChain 팀에 깊은 감사를 전합니다!

‍

Instructor는 Planner의 전략에 따라 개별 작업자(worker)를 위한 정확하고 완전한 작업 지시서를 만듭니다.
실제 작업자(Actual Workers)는 제공된 도구를 사용하여 지시 사항을 실행하는 특화된 에이전트들입니다. 여기에는 비디오 검색(Video Search), 비디오 텍스트 생성(Video Text Generation), 비디오 편집(Video Editing) 기능이 포함됩니다.

프롬프트 수정: Supervisor, Planner, Workers 등 Jockey의 다양한 구성 요소가 사용하는 기존 프롬프트를 편집할 수 있습니다. 이를 통해 시스템의 의사 결정 세부 프로세스와 출력 생성을 미세 조정할 수 있습니다.
상태(State) 확장 및 수정: 추가 정보를 포함하도록 Jockey의 상태 관리를 확장하거나 새로운 데이터 유형을 처리하도록 수정할 수 있습니다. 이는 Jockey를 외부 시스템과 통합하거나 특수한 비디오 메타데이터를 다룰 때 특히 유용합니다. 상태 객체에 새 필드를 추가하거나, 기존 상태 정보가 구성 요소 간에 처리되고 전달되는 방식을 수정할 수 있습니다.
작업자(Workers) 추가 및 수정: 고급 비디오 효과나 비디오 생성 같은 작업을 위한 새로운 특화 Worker를 만들거나, 기존 Worker를 수정하여 기능을 향상 및 새로운 API와 연동할 수 있으며, 새로운 유형의 작업을 처리하도록 Instructor에 커스텀 로직을 구현할 수 있습니다.