연구

비디오 인텔리전스, 에이전트 시대로의 진화

제임스 러

Twelve Labs의 Jockey는 수동적인 비디오 분석에서 행위자 중심의 비디오 인텔리전스로의 전환을 의미합니다. 비디오 파운데이션 모델과 LLM 기반 추론을 결합하여, 사용자가 복잡한 다단계 워크플로우 전반에서 자연어를 통해 비디오 콘텐츠를 검색, 편집, 생성할 수 있도록 지원합니다.

Twelve Labs의 Jockey는 수동적인 비디오 분석에서 행위자 중심의 비디오 인텔리전스로의 전환을 의미합니다. 비디오 파운데이션 모델과 LLM 기반 추론을 결합하여, 사용자가 복잡한 다단계 워크플로우 전반에서 자연어를 통해 비디오 콘텐츠를 검색, 편집, 생성할 수 있도록 지원합니다.

목차

No headings found on page

뉴스레터 구독하기

뉴스레터 구독하기

영상 이해 분야의 최신 기술 업데이트, 튜토리얼 및 인사이트를 받아보세요.

영상 이해 분야의 최신 기술 업데이트, 튜토리얼 및 인사이트를 받아보세요.

AI로 영상을 검색하고, 분석하고, 탐색하세요.

2025. 4. 4.

30분 분량

링크 복사하기

요약 (TLDR): 에이전틱 비디오 인텔리전스(Agentic Video Intelligence)의 부상

  • 우리는 지금 획기적인 전환점을 목격하고 있습니다. 비디오 AI가 단순한 분석 도구에서 벗어나 맥락을 이해하고, 콘텐츠를 추론하며, 복잡한 크리에이티브 작업을 실행할 수 있는 지능형 협업 파트너로 진화하고 있습니다.

  • TwelveLabs의 Jockey(자키)는 단순한 하나의 AI 도구가 아닙니다. 우리의 비디오 네이티브 파운데이션 모델들을 마치 오케스트라처럼 지휘하여, 혼란스럽고 복잡했던 비디오 워크플로우를 조화로운 크리에이티브 프로세스로 바꾸어 주는 정교한 오케스트레이터(Orchestrator)입니다.

  • 불편하고 복잡한 비디오 인터페이스는 이제 잊으세요: 이 새로운 비디오 에이전트들은 여러분의 언어로 직접 대화하면서도 사용자가 시각적 요소를 직접 제어할 수 있게 함으로써, 마침내 인간의 창의성과 기계의 효율성 사이의 장벽을 허물어 줍니다.

  • 기술적인 비디오 도구들과 씨름하던 시대는 이제 얼마 남지 않았습니다. AI 어시스턴트에게 가장 매력적인 고객 성공 사례를 찾아줘라고 말하기만 하면, 어시스턴트가 완벽한 하이라이트 영상을 구성하는 모습을 곧 보게 될 것입니다.

  • 엄청난 양의 비디오 콘텐츠에 압도당하고 있는 기업들에게 이것은 단순한 업그레이드가 아닙니다. 자연스러운 대화를 통해 방대한 미디어 라이브러리를 언제든 활용 가능한 자산으로 전환하는 새로운 혁명입니다.

NotebookLM으로 생성된 이 대화를 통해 본 아티클을 오디오로 들으실 수 있습니다: https://soundcloud.com/james-le-56344460/agentic-video-intelligence



1 - 서론: 비디오 인텔리전스의 진화

2025년, 우리는 기계가 시각 미디어를 이해하고 다루는 방식에 있어서 근본적인 변화의 기로에 서 있습니다. 매일 다양한 플랫폼에 수십억 시간의 비디오 콘텐츠가 업로드되는 상황에서, 콘텐츠가 제한적이고 정형화된 작업만 수행하던 시절에 설계된 전통적인 프로세싱 도구들은 빠르게 도태되고 있습니다. 이러한 콘텐츠의 폭발적 증가는 전례 없는 기회와 동시에 거대한 과제를 안겨주었습니다.

최근 비디오 파운데이션 모델이 등장하면서 기술의 수준은 단순한 프레임 단위의 비디오 분석을 넘어 정교한 공간적 이해와 시간적 추론이 가능한 단계로 발전했습니다. 하지만 원시 모델의 기능과 실제 비즈니스 적용 사례 사이에는 여전히 큰 격차가 존재합니다. 이 격차를 메우기 위해 등장한 것이 바로 에이전틱 비디오 인텔리전스(Agentic Video Intelligence)입니다. 이는 비디오 콘텐츠에 대한 수동적인 분석에서 벗어나 능동적이고 목표 지향적인 상호작용으로 나아가는 패러다임의 전환을 의미합니다. 이러한 시스템들은 에이전트 계획 프레임워크를 통해 비디오 파운데이션 모델과 대규모 언어 모델(LLM)을 결합함으로써, 비디오에 무엇이 등장하는지뿐만 아니라 그것이 왜 중요한지, 그리고 어떤 후속 조치를 취해야 하는지까지 이해하는 AI 시스템을 구현합니다.

TwelveLabs는 독자적인 에이전트 아키텍처를 통해 비디오 파운데이션 모델과 LLM 기반의 추론 능력을 결합한 대화형 비디오 에이전트인 Jockey를 통해 이러한 과제들을 해결하고 있습니다. 본 아티클에서는 엔지니어링과 디자인 관점 모두에서 기술적 혁신을 살펴보며, 비디오 인텔리전스가 어떻게 점점 더 에이전틱(Agentic)해지고 있는지 알아보겠습니다. 미디어 제작부터 스포츠 하이라이트 생성에 이르기까지, 이러한 변화는 과거에는 불가능했던 콘텐츠 제작 및 분석에 대한 완전히 새로운 접근을 가능하게 합니다. 차세대 비디오 애플리케이션을 구축하려는 기업들에게 이는 인간의 창의성과 기계의 효율성을 극대화할 수 있는 혁신적인 기회가 될 것입니다. 비디오 인텔리전스의 혁명은 머지않은 미래가 아니라 이미 우리 곁에 와 있습니다. 그리고 그것은 에이전트의 형태를 띠고 있습니다.



2 - LLM 분야에서 AI 에이전트의 부상

대규모 언어 모델(LLM)의 등장은 스스로 이해하고, 계획하며, 행동할 수 있는 자율 에이전트를 가능하게 함으로써 AI 분야에 혁신을 가져왔습니다. 이러한 LLM 기반 에이전트들은 자연스럽게 대화할 수 있는 언어를 인터페이스로 사용하여 목적을 이해하고, 정교한 추론과 도구 연동을 통해 복잡한 작업을 수행합니다. 이 기능은 기본적인 프롬프트 엔지니어링에서 출발하여, 복잡한 문제를 단계별로 세분화하여 해결하는 생각의 사슬(Chain-of-Thought) 프롬프팅을 활용하는 고급 방식으로 진화했습니다.

출처: https://www.letta.com/blog/ai-agents-stack

최근 Open AI Agents SDK, Letta, LangGraph와 같은 고급 에이전트 프레임워크가 신뢰할 수 있는 에이전트 구축을 위한 핵심 인프라로 떠올랐습니다. 이러한 프레임워크는 계획 수립, 도구 연동, 메모리 관리, 자기 성찰(Self-reflection)을 포함한 핵심 기능들을 체계적으로 구현합니다. 현대적인 에이전트 아키텍처는 인지 기능을 세분화하여 전략을 세우는 '기획자(Planners)', 작업을 수행하는 '실행자(Executors)', 결과를 평가하는 '검토자(Critics)' 등의 전문 컴포넌트로 분리함으로써 점차 고도화되는 복잡한 작업들을 매끄럽게 처리해 냅니다.

실제 비즈니스 현장에서 LLM 에이전트들은 뛰어난 완성도와 유연함을 보여주었습니다. LLM의 뛰어난 추론 능력을 특정 도구 및 워크플로우와 결합함으로써 소프트웨어 개발, 고객 서비스부터 리서치 요약에 이르기까지 검증된 수준의 성과를 내고 있습니다. 이러한 구조는 단순 자동화보다 훨씬 유연하게 복잡한 문제들을 해결하는 동시에, LLM을 그대로 사용할 때 발생할 수 있는 불안정성을 크게 낮추고 일관된 신뢰성을 보장합니다.

출처: https://weaviate.io/blog/what-are-agentic-workflows#planning-pattern

그동안 시장에서는 에이전트의 성공을 이끄는 여러 핵심 디자인 패턴들을 정립해 왔습니다. 여기에는 작업 세분화(목표를 실행 가능한 단계로 쪼개기), 재귀적 추론(이전 단계의 결과에 논리를 지속적으로 적용하기), 도구 보강(API를 통한 기능 확장), 그리고 인간 협업(Human-in-the-loop)(사용자 피드백 반영) 등이 포함됩니다. 이러한 패턴들은 다양한 분야에서 성공적으로 작동하며 효과적인 에이전트 설계의 핵심 원칙으로 자리 잡았습니다.

LLM 에이전트 개발에서 얻은 이러한 통찰은 비디오 인텔리전스 시스템 구축에 중요한 이정표가 됩니다. 파운데이션 모델은 특정 작업 요구사항에 맞춰 체계적으로 설계된 아키텍처 내에서 작동할 때 가장 뛰어난 성능을 발휘한다는 점, 그리고 시스템의 신뢰성을 확보하기 위해서는 명확한 계획 수립과 검토 프로세스가 필수적이라는 점을 보여줍니다. 가장 중요한 것은 가장 효과적인 시스템은 완전 자동화가 아닌 인간과의 유기적인 협업을 통해 기계와 인간의 지능이 최상의 시너지를 내는 균형 잡힌 시스템이라는 사실입니다. 비디오 에이전트를 개발해 나가는 과정에서 이러한 원칙들은 시각 미디어를 이해하고 다루는 고유한 과제들을 해결하는 데 강력한 가이드가 될 것입니다.



3 - 비디오 에이전트의 등장: 새로운 패러다임

비디오 파운데이션 모델과 LLM 기반 에이전트 아키텍처의 결합은 비디오 에이전트의 시대를 열었습니다. 이는 시각적 미디어를 전례 없이 정교한 수준으로 이해하고, 편집하며, 추론할 수 있도록 정밀하게 설계된 시스템입니다. 기존의 도구들과 달리 이러한 에이전트들은 단순히 비디오 콘텐츠를 수동적으로 분석하는 데 그치지 않고 시각적 내러티브, 시간적 인과관계, 그리고 멀티모달 맥락에 대한 전문적인 지식을 활용하여 콘텐츠와 능동적으로 상호작용합니다. 이 새로운 패러다임은 시맨틱 이해도가 부족했던 기존 비디오 프로세싱 파이프라인의 한계와, 비디오 콘텐츠 고유의 복잡한 시공간적 차원을 처리하는 데 어려움을 겪었던 범용 AI 에이전트의 한계를 모두 극복합니다.

비디오 에이전트가 완벽히 차별화되는 지점은 비디오 인텔리전스 고유의 까다로운 과제들을 해결해 내는 능력에 있습니다. 비디오 데이터는 시각, 청각, 시간적 요소가 결합된 초고차원의 영역에 존재하므로, 텍스트나 정적 이미지를 다룰 때보다 훨씬 높은 수준의 인지 능력이 필요합니다. 또한 비디오의 길이나 해상도가 증가함에 따라 연산 요구량이 극적으로 늘어나기 때문에 어텐션(Attention) 엔진과 메모리를 효율적으로 최적화하는 기술이 필수적입니다. 무엇보다 비디오를 깊이 있게 감상하고 분석하려면 프레임 단위를 넘어 씬(Scene) 구성, 전체 스토리 구조에 이르기까지 거시적이고 미시적인 시간 축을 동시에 관통하며 추론해야 합니다. 마켓의 주요 혁신 모델 중 하나인 OmAgent는 멀티모달 RAG(검색 증강 생성) 기술과 분할 정복(Divide-and-Conquer) 추론 방식을 결합한 혁신적인 아키텍처를 도입하여 이러한 과제들을 선도적으로 해결해 냈습니다.

출처: https://www.om-agent.com/

학계에서도 이러한 유기적인 변화에 속도를 내며 비디오 이해를 위한 에이전틱 프레임워크 연구에 집중해 왔습니다. 북경대학교의 "VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding" 연구는 메모리 메커니즘을 통해 시간적 추론 능력을 극대화할 수 있는 방법을 제시했으며, 스탠퍼드 대학교의 "VideoAgent: Long-form Video Understanding with Large Language Model as Agent" 연구는 긴 비디오 속에서 필요한 정보를 빠르게 검색하고 효율적으로 취합하는 방안을 다루었습니다. 이 혁신적인 시도들은 한 가지 공통점을 가집니다. 모든 비디오 콘텐츠를 기계적으로 무작정 처리하는 대신, 똑똑한 에이전트가 어떤 정보가 가장 중요한지 먼저 논리적으로 판단하고 관련된 세그먼트만 선별하여 주의를 집중시키는 유연하고 반복적인 분석 모델을 지향한다는 점입니다.

출처: https://wxh1996.github.io/VideoAgent-Website/

또한 LAVE와 같이 LLM 기반 추론과 비디오 전문 도구들을 영리하게 연결하려는 시도도 계속되고 있습니다. 이러한 시스템들은 대개 멀티모달 피처를 추출하는 지각 시스템, 비디오의 전체 맥락을 구조적으로 저장하고 다시 불러오는 메모리 장치, 복잡한 사용자 니즈를 작게 쪼개는 계획 수립 모듈, 그리고 실제 비디오 툴들과 통신하는 실행부와 같이 정밀하게 분화된 모듈들로 이뤄집니다. 이러한 모듈식 설계 덕분에 파운데이션 모델의 풍부한 추론 능력과 영상 편집 프로토콜에 대한 특화 지식을 결합해 최상의 결과물을 낼 수 있습니다.

출처: https://arxiv.org/abs/2402.10294

비디오 에이전트가 학술 프로젝트 단계를 넘어 전 세계 기업들이 사용하는 프로덕션 시스템으로 빠르게 자리를 잡아가면서, 콘텐츠 크리에이션부터 미디어 인사이트 수집, 정보 검색 등 다양한 영역의 비즈니스 과제들이 해결되고 있습니다. 방송, 영상 제작 및 소셜 미디어 분야의 혁신 기업들은 이미 하이라이트 자동 추출, 부적절 콘텐츠 필터링, 프로모션 클립 제작과 같이 고된 수작업이 들어가던 파이프라인들을 자동화하는 데 이 기술들을 활용하고 있습니다. 가장 고도화된 최신 에이전트 시스템들은 영상에 담긴 표면적인 오브젝트를 파악하는 단계를 넘어 영상의 본질적인 목적, 무드, 스토리라인의 숨은 의도까지 파악해 냅니다. 이 덕분에 복잡한 기계를 단순히 다루는 느낌이 아니라, 깊이 있는 지식을 갖춘 전문 조수와 일하는 듯한 매끄러운 협업 감각을 선사합니다. 이와 같은 수동적 분석에서 능동적 협업으로의 패러다임 전환은 멀티모달 AI 도입 이래 비디오 업계에서 벌어진 가장 극적이고 중요한 이정표가 될 것입니다.





4 - TwelveLabs의 접근법: 비디오 에이전트 프레임워크, Jockey

지난해부터 인큐베이팅 프로젝트로 시작된 Jockey는 비디오 인텔리전스 기술의 중요한 진화를 대변합니다. TwelveLabs 고유의 강력한 비디오 파운데이션 모델들을 코어로 삼으면서, 그 위에 정교한 오케스트레이션 레이어를 추가해 복잡하고 다각적인 워크플로우를 완벽히 해결해 냈습니다. Jockey의 근간에는 두 개의 선도적인 비디오 네이티브 모델이 있습니다. 시맨틱 비디오 검색에 특화된 Marengo 2.7과 영상 기반 텍스트 이해 및 답변을 수행하는 Pegasus 1.2입니다. Jockey는 이 우수한 모델들을 단순 대체하는 형태가 아니라, 각각의 장점을 최대로 극대화하는 기획자-수행자-검토자(Planner-Worker-Reflector) 아키텍처를 통해 이들을 영리하게 조율합니다. 기획을 위한 LLM이 전체적인 사고와 설계의 브레인 역할을 맡고, 시각 정보 지각이 깊게 필요한 고부하 태스크들은 맞춤형 비디오 모델들에 직접 배분하는 지능적인 분업 구조입니다.

이 아키텍처는 비디오 인텔리전스 분야의 치명적인 한계점을 우아하게 풀어냅니다. 개별 파운데이션 모델들은 단일 인지나 추론엔 뛰어나지만 정작 여러 워크플로우를 연계하여 진행하는 정교한 태스크 수행에는 어려움을 겪는 경우가 많았습니다. Jockey의 멀티 에이전트 구조는 세부 실행 계획을 수립하는 Planner, 비디오 API들과 유기적으로 소동하는 전용 Worker, 그리고 수행한 행동들의 결과를 명확히 요약·교정해 주는 Reflector를 배치해 이 공백을 완전히 메웠습니다. 이러한 역할의 깔끔한 분리 덕분에 LLM은 순수 언어와 논리 추론에 온전히 집중하고, 비디오 파운데이션 모델들은 한 차원 높은 멀티모달 비주얼 데이터 해석에만 역량을 쏟을 수 있습니다.

특히 Jockey의 진정한 강점은 여러 세부 단계를 거쳐야 하는 초고난도 워크플로우 전반에 걸쳐 유기적인 맥락(Context)을 고스란히 유지한다는 데 있습니다. 예를 들어 크리에이티브 팀이 비디오 하이라이트를 추출하고자 할 때 Jockey는 단 한 번의 단편적인 조회에 기대지 않습니다. 정밀한 요구 조건에 근거해 탐색 단계를 연속적으로 설계하고, 검색 결과를 똑똑하게 대조 및 병합하며, 궁극적으로 사용자가 실제로 원했던 최종 크리에이티브 시각 조건에 알맞게 후처리 보정까지 완벽히 마칩니다. LangGraph 기반의 그래프 프레임워크를 기반으로 작동하기 때문에 사용자가 여러 종류의 작업을 오가더라도 개개의 클립 정보를 잃지 않고 정확히 추적하며, 아주 세밀하고 파편적인 하위 연산들이 동시에 돌 때조차 전체 태스크 목표를 정방향으로 빈틈없이 끌고 갑니다.

출처: https://github.com/twelvelabs-io/tl-jockey/blob/main/jockey/stirrups/stirrup.py

Jockey를 코딩하고 설계하면서 우리가 가장 타협하지 않았던 방향은 바로 기업 고객들의 실제 도입 장벽을 낮출 수 있는 유연성(Adaptability)이었습니다. 철저한 모듈식 아키텍처 덕분에 단순 프롬프트 수정부터 새로운 비디오 분석 Worker 모듈 추가까지 다채로운 커스터마이징이 극도로 간편합니다. 개발자들은 가동 중인 메인 엔진 전체를 흔들 필요 없이, 비즈니스에 특정된 고유의 전용 워크플로우를 얼마든지 가볍게 연결하고 확장해 활용할 수 있습니다.



5 - Jockey 가 주는 압도적 투명성

가장 뛰어난 비디오 에이전트를 개발하는 것은 일반적인 LLM 프롬프트 앱을 만드는 것과는 차원이 다른 엔지니어링 집중도가 필요합니다. 특히 긴 비디오에서 원하는 구간을 정확히 도려내고 붙이는 연산 파이프라인에서 극상의 최적화 속도를 달성해야 합니다. 우리는 이를 돌파하기 위해 두 가지 전략적인 선택을 내렸습니다.

  1. 첫째, base_search(), process_clips(), download_remaining()과 같이 완결성 있는 연산들을 독립된 펑션 디스패처를 이용해 동시 다발적이고 효율적으로 비동기 처리하는 강력한 파이프라인 구조를 구축했습니다.

  2. 둘째, 기계 뒤에 숨겨져 있던 복잡한 처리 과정을 유저가 눈으로 볼 수 있게 UI 인터페이스상에 투명한 '생각 중(Thinking)' 상태로 직접 시각화했습니다 (자세한 내용은 섹션 6 참조).

이러한 정보 공개는 단순한 로딩 스피너 그 이상입니다. 에이전트가 어떤 데이터 경로와 수식적 판단을 거쳐 최종 클립 결과물에 도달했는지 논리적 여정을 상세히 공개함으로써, 기업 파트너가 도구의 작동 방식과 결과물을 완벽하게 신뢰할 수 있게 만듭니다.

우리는 수많은 실전 피드백을 수집하며, 사용자들이 비록 수 초의 연산 시간이 더 걸리더라도 시스템이 그 결과를 위해 어떻게 추론하고 동작 중인지 설득력 있게 설명해 줄 때 장기적으로 시스템에 대해 몇 배나 단단한 제품 신뢰를 보내준다는 점을 확인했습니다. 이러한 중요한 깊이가 저희 UI 설계에 고스란히 녹아 있습니다. 사용자가 질문을 던졌을 때 Marengo 모델의 고화질 비디오 검색 기술이 쓰이고 있는지, Pegasus의 수준 높은 서사 이해가 개입 중인지 작동 상황을 낱낱이 명시합니다. 신뢰할 수 있고 명백히 검증 가능한 의사결정 프로세스를 최우선으로 여기는 많은 엔터프라이즈 및 콘텐츠 스튜디오 비즈니스 파트너사들에 깊은 지지를 얻고 있는 지점이기도 합니다.

앞으로 Jockey는 한 단계 더 진화하여, 에이전트의 사고 과정을 단순히 모니터링하는 데 그치지 않고 사용자가 그 경로에 직접 개입하여 논리를 즉시 제어할 수 있는 양방향 추론 제어 시스템(Bidirectional Thinking)을 선보일 예정입니다. 예를 들어 에이전트의 작동 중간에 탐색 키워드가 원하던 것과 빗나가고 있다면 (예컨대 일본의 카멜레온에서 일본의 도마뱀으로) 사용자가 대화창에서 방향을 지시하여 잘못된 검색이나 프로세싱 실수를 직관적으로 정정하거나 에이전트의 초점을 교정할 수 있게 됩니다. 이는 단순히 결과를 기계적으로 인출하는 시스템을 넘어 적극적으로 소통하는 진정한 크리에이티브 파트너가 됨을 뜻합니다. 당사가 MLSE(Maple Leaf Sports & Entertainment) 팀을 포함한 일선 크리에이티브 기업 파트너들과 집중적으로 진행한 연구 분석 결과와도 깊이 맞닿아 있습니다. 전문가들은 고가치의 영상 IP나 독창적인 크리에이티브 자산을 가공할 때, 기계의 무조건적인 자동화 스피드보다 진행 과정을 세부적으로 통제하고 원하는 대로 자유롭게 주도권을 쥘 수 있는 직관적인 콘트롤러 환경을 훨씬 높게 선호하기 때문입니다.

출처: https://www.latent.space/p/why-mcp-won

모델 컨텍스트 프로토콜(MCP) 프레임워크는 향후 Jockey 생태계 확장, 특히 다양한 서드파티 통합 솔루션들과의 유기적인 결합 과정에서 대단히 흥미진진한 기술적 가능성들을 열어줄 것입니다. MCP는 Jockey 코어 엔진과 외부 차세대 도구들—예컨대 비디오 생성 서비스(RunwayML, Luma Labs), 프로페셔널 오디오 디바이스(ElevenLabs, Suno), 더 나아가 고성능 오브젝트 트래킹 및 메타 데이터 분절 툴(Meta의 SAM 등)들을 일직선으로 연동하는 하나의 글로벌 상호 운용성 표준 인터페이스가 될 수 있습니다.

  • 매번 새로운 커넥터를 무두질해 각 툴마다 붙여주는 반복적인 번거로움 대신, MCP를 장착하면 컨텍스트 공유 및 펑션 콜 파이프라인의 단일 정밀 API 인터페이스를 우아하게 구축할 수 있습니다. 즉 기존 N×M 형태의 기하급수적으로 꼬여 나가던 구조(N개의 에이전트 프레임워크와 M개의 서드파티 툴)를 아주 직관적인 N+M 호환 모형으로 혁신하여 기술 유지비와 통합 리스크를 크게 낮추고 개방형 레이아웃의 완성도를 끌어올립니다.

  • Jockey의 실전 응용 관점에서도 이는 굉장한 시너지입니다. 예컨대 Marengo를 통해 찾은 최상의 비디오 신을 MCP 프로토콜을 통과시켜 외부 서드파티 보정 툴로 지연 없이 즉각 자동 전송하고, 이어 또 다른 오디오 전용 생성 툴에 물려 인공지능 보이스 오버를 실시간 합성한 후, 최종 편집 및 송출 콘솔망에 얹어버리는 물 흐르듯 유기적인 하이퍼 스케일 워크플로우를 완벽하게 유지한 채 한 호흡에 끝낼 수 있게 됩니다.



6 - 직관적인 멀티모달 인터페이스의 강력함

기존의 전통적인 비디오 분석 툴을 쓸 때 사용자들은 늘 한쪽을 포기해야만 했습니다. 영상의 세밀한 시각적 정보나 흐름은 배제된 메마른 검색창을 쓰거나, 혹은 반대로 간단한 대화나 조작 기능조차 주어지지 않는 빈약한 플레이어 화면을 마주해야 했습니다. Jockey는 소통형 대화 인터페이스와 뛰어난 비디오 전용 UI 컴포넌트들을 이상적으로 접목시킨 완벽한 멀티모달 최우선 인터페이스를 설계해 이 케케묵은 간극을 허물었습니다. 어는 편 하나를 부차적으로 끼워 넣는 것이 아닌, 두 혁신 기술을 전면 배치하는 동등한 1등 구조입니다. 아래 준비된 데모 스크린샷처럼 왼쪽의 자유롭고 자연스러운 대화 창구는 복잡한 크리에이티브 시나리오를 마음껏 서술하고 수집하며, 중간의 실시간 사고 트랙 영역은 AI가 탐색 과정을 어떻게 파고드는지 상세히 드러냅니다. 동시에 완성된 결과 클립들은 깔끔한 그리드 보드 세트에 담겨 썸네일, 메타 데이터, 정확한 인출 지점 안내 등과 통합 표기되어 사용자에게 최상의 시각 제어력을 보증합니다. 이로써 사용자들은 막막했던 광범위한 고수준의 요구 조건(예: 사람들이 온갖 역경을 견디고 일어나는 감동적인 장면들을 다 가져와줘)을 던지는 작업부터, 인출된 시각 원료들을 기민하게 재조정하는 작업까지 하나의 캔버스에서 마법처럼 막힘 없이 연결해 실행할 수 있습니다.

이 인터페이스의 진정한 강점은 텍스트 정보와 시각적 데이터 간의 유기적이고 실시간인 쌍방향 정보 정합에 있습니다. 사용자가 글로 명령을 던지면 Jockey는 텍스트 답변은 물론 관련 비디오 세그먼트로 이동하는 인터랙티브 타임라인 링크를 즉각 표시합니다. 이때 정확히 비디오의 어느 지점에 어떤 디테일과 개념이 머무르는지도 선명히 타임스탬프로 표기됩니다. 이 정교한 타임 앵커 구조를 통해 문자로 소통하던 추상적인 발상들과 실제 저장된 수백 기가바이트의 날것인 물리 영상 데이터가 한 치의 오차도 없이 맞물려 돌아가게 됩니다.

더욱이, 사용자는 썸네일 위를 가볍게 마우스로 올리거나 터치하면서 전체 영상을 굳이 길게 재생할 필요 없이 빠르고 기민하게 프리뷰하고 검색할 수 있습니다. 언어와 비주얼이 매끄럽게 교차하고 서로 힘을 보태는 가장 이상적인 형태의 협력 고리가 형성되는 셈입니다. 사용자는 대화를 통해 가장 확실하게 자신의 고수준 의도를 명시하고, 영리해진 에이전트는 텍스트 문서만으로는 미처 파악하기 힘들었던 시각적 정취, 디테일, 미장센 감각들을 고화질 프리뷰로 가득 전해 주어 작업 생산성을 획기적으로 개선합니다. 가령 하단에 수록된 두 번째 스크린샷은 에이전트의 상세 연산 시퀀스와 그에 매칭된 정확한 타임스탬프 결과물들이 나란히 어떻게 직관적으로 노출되는지 잘 가리키고 있습니다.

이 기술 지향적인 인터페이스는 비디오를 다룰 때 수반되던 만성적인 인지 피로 과제들을 효과적으로 제거합니다. 영상은 필연적으로 타임라인을 끝없이 드래그해 넘겨봐야 진의를 다 읽을 수 있는 불투명하고 무거운 매체이기 때문에 탐독, 서치 혹은 전반적인 신 비교 작업이 쉽지 않았습니다. 하지만 Jockey의 입체적 정보 레이아웃은 수많은 시각 진입점을 동시 제공합니다. 눈으로 가볍게 스캔하는 다이내믹 썸네일 그리드, 에이전트가 완벽하게 다듬은 맥락 요약문 카드, 각 핵심 콘셉트가 출연하는 특정 타겟 프레임으로의 직접 순간 이동 키 등을 동시 활용할 수 있어, 사상 유례없는 탐색적 여유를 만끽하게 해 줍니다. 사용자는 동시에 수많은 비디오 자산들을 늘어놓고 교차 분석을 이어갈 때조차, 본 차트 아래 이미지처럼 복잡한 인지 부하의 장벽 없이 아주 직관적으로 통찰력을 잃지 않고 컨트롤할 수 있게 됩니다. (예: 이 모든 수색 및 편집 비디오 결과들을 종합해서 정말 극적이고 감성을 자극하는 연출 숏으로 압축해서 요약해 줄래?)

더욱 매력적인 혁신은 단순 일방적인 질의 응답 영역을 넘어선, 진실되고 온전한 인간-기계 상생 크리에이티브 공간으로 격상된다는 점입니다. 아래 스크린샷에서 도드라지는 상세 기획 프로세스 로그는 Jockey가 던져진 복잡한 타겟 미션을 수행하기 위해 당신의 복잡한 니즈를 면밀히 읽고 파악 중 혹은 미디어 DB 라이브러리에서 적합 컨텍스트 추출 중 같은 핵심 동작 단계를 실시간으로 성실하게 보고합니다. 이는 기계에만 전적으로 의존하는 수동적 관계에서 탈피하여, 한 쌍의 크리에이터들이 호흡을 조절하듯 필요하면 진행 중간에 사용자가 즉각 끼어들어 중지, 재참조, 타겟 조정 등을 밀고 당기듯 유연하게 수행하게 함으로써 도구 생산성을 극한으로 견인해 냅니다. 기계의 알고리즘 정밀도와 일류 제작자의 주관적 판단 지평이 마이크로 단위로 마주치는 지점입니다.

앞으로 이 멀티모달 여정이 나아갈 길은 궁극적으로

요약 (TLDR): 에이전틱 비디오 인텔리전스(Agentic Video Intelligence)의 부상

  • 우리는 지금 획기적인 전환점을 목격하고 있습니다. 비디오 AI가 단순한 분석 도구에서 벗어나 맥락을 이해하고, 콘텐츠를 추론하며, 복잡한 크리에이티브 작업을 실행할 수 있는 지능형 협업 파트너로 진화하고 있습니다.

  • TwelveLabs의 Jockey(자키)는 단순한 하나의 AI 도구가 아닙니다. 우리의 비디오 네이티브 파운데이션 모델들을 마치 오케스트라처럼 지휘하여, 혼란스럽고 복잡했던 비디오 워크플로우를 조화로운 크리에이티브 프로세스로 바꾸어 주는 정교한 오케스트레이터(Orchestrator)입니다.

  • 불편하고 복잡한 비디오 인터페이스는 이제 잊으세요: 이 새로운 비디오 에이전트들은 여러분의 언어로 직접 대화하면서도 사용자가 시각적 요소를 직접 제어할 수 있게 함으로써, 마침내 인간의 창의성과 기계의 효율성 사이의 장벽을 허물어 줍니다.

  • 기술적인 비디오 도구들과 씨름하던 시대는 이제 얼마 남지 않았습니다. AI 어시스턴트에게 가장 매력적인 고객 성공 사례를 찾아줘라고 말하기만 하면, 어시스턴트가 완벽한 하이라이트 영상을 구성하는 모습을 곧 보게 될 것입니다.

  • 엄청난 양의 비디오 콘텐츠에 압도당하고 있는 기업들에게 이것은 단순한 업그레이드가 아닙니다. 자연스러운 대화를 통해 방대한 미디어 라이브러리를 언제든 활용 가능한 자산으로 전환하는 새로운 혁명입니다.

NotebookLM으로 생성된 이 대화를 통해 본 아티클을 오디오로 들으실 수 있습니다: https://soundcloud.com/james-le-56344460/agentic-video-intelligence



1 - 서론: 비디오 인텔리전스의 진화

2025년, 우리는 기계가 시각 미디어를 이해하고 다루는 방식에 있어서 근본적인 변화의 기로에 서 있습니다. 매일 다양한 플랫폼에 수십억 시간의 비디오 콘텐츠가 업로드되는 상황에서, 콘텐츠가 제한적이고 정형화된 작업만 수행하던 시절에 설계된 전통적인 프로세싱 도구들은 빠르게 도태되고 있습니다. 이러한 콘텐츠의 폭발적 증가는 전례 없는 기회와 동시에 거대한 과제를 안겨주었습니다.

최근 비디오 파운데이션 모델이 등장하면서 기술의 수준은 단순한 프레임 단위의 비디오 분석을 넘어 정교한 공간적 이해와 시간적 추론이 가능한 단계로 발전했습니다. 하지만 원시 모델의 기능과 실제 비즈니스 적용 사례 사이에는 여전히 큰 격차가 존재합니다. 이 격차를 메우기 위해 등장한 것이 바로 에이전틱 비디오 인텔리전스(Agentic Video Intelligence)입니다. 이는 비디오 콘텐츠에 대한 수동적인 분석에서 벗어나 능동적이고 목표 지향적인 상호작용으로 나아가는 패러다임의 전환을 의미합니다. 이러한 시스템들은 에이전트 계획 프레임워크를 통해 비디오 파운데이션 모델과 대규모 언어 모델(LLM)을 결합함으로써, 비디오에 무엇이 등장하는지뿐만 아니라 그것이 왜 중요한지, 그리고 어떤 후속 조치를 취해야 하는지까지 이해하는 AI 시스템을 구현합니다.

TwelveLabs는 독자적인 에이전트 아키텍처를 통해 비디오 파운데이션 모델과 LLM 기반의 추론 능력을 결합한 대화형 비디오 에이전트인 Jockey를 통해 이러한 과제들을 해결하고 있습니다. 본 아티클에서는 엔지니어링과 디자인 관점 모두에서 기술적 혁신을 살펴보며, 비디오 인텔리전스가 어떻게 점점 더 에이전틱(Agentic)해지고 있는지 알아보겠습니다. 미디어 제작부터 스포츠 하이라이트 생성에 이르기까지, 이러한 변화는 과거에는 불가능했던 콘텐츠 제작 및 분석에 대한 완전히 새로운 접근을 가능하게 합니다. 차세대 비디오 애플리케이션을 구축하려는 기업들에게 이는 인간의 창의성과 기계의 효율성을 극대화할 수 있는 혁신적인 기회가 될 것입니다. 비디오 인텔리전스의 혁명은 머지않은 미래가 아니라 이미 우리 곁에 와 있습니다. 그리고 그것은 에이전트의 형태를 띠고 있습니다.



2 - LLM 분야에서 AI 에이전트의 부상

대규모 언어 모델(LLM)의 등장은 스스로 이해하고, 계획하며, 행동할 수 있는 자율 에이전트를 가능하게 함으로써 AI 분야에 혁신을 가져왔습니다. 이러한 LLM 기반 에이전트들은 자연스럽게 대화할 수 있는 언어를 인터페이스로 사용하여 목적을 이해하고, 정교한 추론과 도구 연동을 통해 복잡한 작업을 수행합니다. 이 기능은 기본적인 프롬프트 엔지니어링에서 출발하여, 복잡한 문제를 단계별로 세분화하여 해결하는 생각의 사슬(Chain-of-Thought) 프롬프팅을 활용하는 고급 방식으로 진화했습니다.

출처: https://www.letta.com/blog/ai-agents-stack

최근 Open AI Agents SDK, Letta, LangGraph와 같은 고급 에이전트 프레임워크가 신뢰할 수 있는 에이전트 구축을 위한 핵심 인프라로 떠올랐습니다. 이러한 프레임워크는 계획 수립, 도구 연동, 메모리 관리, 자기 성찰(Self-reflection)을 포함한 핵심 기능들을 체계적으로 구현합니다. 현대적인 에이전트 아키텍처는 인지 기능을 세분화하여 전략을 세우는 '기획자(Planners)', 작업을 수행하는 '실행자(Executors)', 결과를 평가하는 '검토자(Critics)' 등의 전문 컴포넌트로 분리함으로써 점차 고도화되는 복잡한 작업들을 매끄럽게 처리해 냅니다.

실제 비즈니스 현장에서 LLM 에이전트들은 뛰어난 완성도와 유연함을 보여주었습니다. LLM의 뛰어난 추론 능력을 특정 도구 및 워크플로우와 결합함으로써 소프트웨어 개발, 고객 서비스부터 리서치 요약에 이르기까지 검증된 수준의 성과를 내고 있습니다. 이러한 구조는 단순 자동화보다 훨씬 유연하게 복잡한 문제들을 해결하는 동시에, LLM을 그대로 사용할 때 발생할 수 있는 불안정성을 크게 낮추고 일관된 신뢰성을 보장합니다.

출처: https://weaviate.io/blog/what-are-agentic-workflows#planning-pattern

그동안 시장에서는 에이전트의 성공을 이끄는 여러 핵심 디자인 패턴들을 정립해 왔습니다. 여기에는 작업 세분화(목표를 실행 가능한 단계로 쪼개기), 재귀적 추론(이전 단계의 결과에 논리를 지속적으로 적용하기), 도구 보강(API를 통한 기능 확장), 그리고 인간 협업(Human-in-the-loop)(사용자 피드백 반영) 등이 포함됩니다. 이러한 패턴들은 다양한 분야에서 성공적으로 작동하며 효과적인 에이전트 설계의 핵심 원칙으로 자리 잡았습니다.

LLM 에이전트 개발에서 얻은 이러한 통찰은 비디오 인텔리전스 시스템 구축에 중요한 이정표가 됩니다. 파운데이션 모델은 특정 작업 요구사항에 맞춰 체계적으로 설계된 아키텍처 내에서 작동할 때 가장 뛰어난 성능을 발휘한다는 점, 그리고 시스템의 신뢰성을 확보하기 위해서는 명확한 계획 수립과 검토 프로세스가 필수적이라는 점을 보여줍니다. 가장 중요한 것은 가장 효과적인 시스템은 완전 자동화가 아닌 인간과의 유기적인 협업을 통해 기계와 인간의 지능이 최상의 시너지를 내는 균형 잡힌 시스템이라는 사실입니다. 비디오 에이전트를 개발해 나가는 과정에서 이러한 원칙들은 시각 미디어를 이해하고 다루는 고유한 과제들을 해결하는 데 강력한 가이드가 될 것입니다.



3 - 비디오 에이전트의 등장: 새로운 패러다임

비디오 파운데이션 모델과 LLM 기반 에이전트 아키텍처의 결합은 비디오 에이전트의 시대를 열었습니다. 이는 시각적 미디어를 전례 없이 정교한 수준으로 이해하고, 편집하며, 추론할 수 있도록 정밀하게 설계된 시스템입니다. 기존의 도구들과 달리 이러한 에이전트들은 단순히 비디오 콘텐츠를 수동적으로 분석하는 데 그치지 않고 시각적 내러티브, 시간적 인과관계, 그리고 멀티모달 맥락에 대한 전문적인 지식을 활용하여 콘텐츠와 능동적으로 상호작용합니다. 이 새로운 패러다임은 시맨틱 이해도가 부족했던 기존 비디오 프로세싱 파이프라인의 한계와, 비디오 콘텐츠 고유의 복잡한 시공간적 차원을 처리하는 데 어려움을 겪었던 범용 AI 에이전트의 한계를 모두 극복합니다.

비디오 에이전트가 완벽히 차별화되는 지점은 비디오 인텔리전스 고유의 까다로운 과제들을 해결해 내는 능력에 있습니다. 비디오 데이터는 시각, 청각, 시간적 요소가 결합된 초고차원의 영역에 존재하므로, 텍스트나 정적 이미지를 다룰 때보다 훨씬 높은 수준의 인지 능력이 필요합니다. 또한 비디오의 길이나 해상도가 증가함에 따라 연산 요구량이 극적으로 늘어나기 때문에 어텐션(Attention) 엔진과 메모리를 효율적으로 최적화하는 기술이 필수적입니다. 무엇보다 비디오를 깊이 있게 감상하고 분석하려면 프레임 단위를 넘어 씬(Scene) 구성, 전체 스토리 구조에 이르기까지 거시적이고 미시적인 시간 축을 동시에 관통하며 추론해야 합니다. 마켓의 주요 혁신 모델 중 하나인 OmAgent는 멀티모달 RAG(검색 증강 생성) 기술과 분할 정복(Divide-and-Conquer) 추론 방식을 결합한 혁신적인 아키텍처를 도입하여 이러한 과제들을 선도적으로 해결해 냈습니다.

출처: https://www.om-agent.com/

학계에서도 이러한 유기적인 변화에 속도를 내며 비디오 이해를 위한 에이전틱 프레임워크 연구에 집중해 왔습니다. 북경대학교의 "VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding" 연구는 메모리 메커니즘을 통해 시간적 추론 능력을 극대화할 수 있는 방법을 제시했으며, 스탠퍼드 대학교의 "VideoAgent: Long-form Video Understanding with Large Language Model as Agent" 연구는 긴 비디오 속에서 필요한 정보를 빠르게 검색하고 효율적으로 취합하는 방안을 다루었습니다. 이 혁신적인 시도들은 한 가지 공통점을 가집니다. 모든 비디오 콘텐츠를 기계적으로 무작정 처리하는 대신, 똑똑한 에이전트가 어떤 정보가 가장 중요한지 먼저 논리적으로 판단하고 관련된 세그먼트만 선별하여 주의를 집중시키는 유연하고 반복적인 분석 모델을 지향한다는 점입니다.

출처: https://wxh1996.github.io/VideoAgent-Website/

또한 LAVE와 같이 LLM 기반 추론과 비디오 전문 도구들을 영리하게 연결하려는 시도도 계속되고 있습니다. 이러한 시스템들은 대개 멀티모달 피처를 추출하는 지각 시스템, 비디오의 전체 맥락을 구조적으로 저장하고 다시 불러오는 메모리 장치, 복잡한 사용자 니즈를 작게 쪼개는 계획 수립 모듈, 그리고 실제 비디오 툴들과 통신하는 실행부와 같이 정밀하게 분화된 모듈들로 이뤄집니다. 이러한 모듈식 설계 덕분에 파운데이션 모델의 풍부한 추론 능력과 영상 편집 프로토콜에 대한 특화 지식을 결합해 최상의 결과물을 낼 수 있습니다.

출처: https://arxiv.org/abs/2402.10294

비디오 에이전트가 학술 프로젝트 단계를 넘어 전 세계 기업들이 사용하는 프로덕션 시스템으로 빠르게 자리를 잡아가면서, 콘텐츠 크리에이션부터 미디어 인사이트 수집, 정보 검색 등 다양한 영역의 비즈니스 과제들이 해결되고 있습니다. 방송, 영상 제작 및 소셜 미디어 분야의 혁신 기업들은 이미 하이라이트 자동 추출, 부적절 콘텐츠 필터링, 프로모션 클립 제작과 같이 고된 수작업이 들어가던 파이프라인들을 자동화하는 데 이 기술들을 활용하고 있습니다. 가장 고도화된 최신 에이전트 시스템들은 영상에 담긴 표면적인 오브젝트를 파악하는 단계를 넘어 영상의 본질적인 목적, 무드, 스토리라인의 숨은 의도까지 파악해 냅니다. 이 덕분에 복잡한 기계를 단순히 다루는 느낌이 아니라, 깊이 있는 지식을 갖춘 전문 조수와 일하는 듯한 매끄러운 협업 감각을 선사합니다. 이와 같은 수동적 분석에서 능동적 협업으로의 패러다임 전환은 멀티모달 AI 도입 이래 비디오 업계에서 벌어진 가장 극적이고 중요한 이정표가 될 것입니다.





4 - TwelveLabs의 접근법: 비디오 에이전트 프레임워크, Jockey

지난해부터 인큐베이팅 프로젝트로 시작된 Jockey는 비디오 인텔리전스 기술의 중요한 진화를 대변합니다. TwelveLabs 고유의 강력한 비디오 파운데이션 모델들을 코어로 삼으면서, 그 위에 정교한 오케스트레이션 레이어를 추가해 복잡하고 다각적인 워크플로우를 완벽히 해결해 냈습니다. Jockey의 근간에는 두 개의 선도적인 비디오 네이티브 모델이 있습니다. 시맨틱 비디오 검색에 특화된 Marengo 2.7과 영상 기반 텍스트 이해 및 답변을 수행하는 Pegasus 1.2입니다. Jockey는 이 우수한 모델들을 단순 대체하는 형태가 아니라, 각각의 장점을 최대로 극대화하는 기획자-수행자-검토자(Planner-Worker-Reflector) 아키텍처를 통해 이들을 영리하게 조율합니다. 기획을 위한 LLM이 전체적인 사고와 설계의 브레인 역할을 맡고, 시각 정보 지각이 깊게 필요한 고부하 태스크들은 맞춤형 비디오 모델들에 직접 배분하는 지능적인 분업 구조입니다.

이 아키텍처는 비디오 인텔리전스 분야의 치명적인 한계점을 우아하게 풀어냅니다. 개별 파운데이션 모델들은 단일 인지나 추론엔 뛰어나지만 정작 여러 워크플로우를 연계하여 진행하는 정교한 태스크 수행에는 어려움을 겪는 경우가 많았습니다. Jockey의 멀티 에이전트 구조는 세부 실행 계획을 수립하는 Planner, 비디오 API들과 유기적으로 소동하는 전용 Worker, 그리고 수행한 행동들의 결과를 명확히 요약·교정해 주는 Reflector를 배치해 이 공백을 완전히 메웠습니다. 이러한 역할의 깔끔한 분리 덕분에 LLM은 순수 언어와 논리 추론에 온전히 집중하고, 비디오 파운데이션 모델들은 한 차원 높은 멀티모달 비주얼 데이터 해석에만 역량을 쏟을 수 있습니다.

특히 Jockey의 진정한 강점은 여러 세부 단계를 거쳐야 하는 초고난도 워크플로우 전반에 걸쳐 유기적인 맥락(Context)을 고스란히 유지한다는 데 있습니다. 예를 들어 크리에이티브 팀이 비디오 하이라이트를 추출하고자 할 때 Jockey는 단 한 번의 단편적인 조회에 기대지 않습니다. 정밀한 요구 조건에 근거해 탐색 단계를 연속적으로 설계하고, 검색 결과를 똑똑하게 대조 및 병합하며, 궁극적으로 사용자가 실제로 원했던 최종 크리에이티브 시각 조건에 알맞게 후처리 보정까지 완벽히 마칩니다. LangGraph 기반의 그래프 프레임워크를 기반으로 작동하기 때문에 사용자가 여러 종류의 작업을 오가더라도 개개의 클립 정보를 잃지 않고 정확히 추적하며, 아주 세밀하고 파편적인 하위 연산들이 동시에 돌 때조차 전체 태스크 목표를 정방향으로 빈틈없이 끌고 갑니다.

출처: https://github.com/twelvelabs-io/tl-jockey/blob/main/jockey/stirrups/stirrup.py

Jockey를 코딩하고 설계하면서 우리가 가장 타협하지 않았던 방향은 바로 기업 고객들의 실제 도입 장벽을 낮출 수 있는 유연성(Adaptability)이었습니다. 철저한 모듈식 아키텍처 덕분에 단순 프롬프트 수정부터 새로운 비디오 분석 Worker 모듈 추가까지 다채로운 커스터마이징이 극도로 간편합니다. 개발자들은 가동 중인 메인 엔진 전체를 흔들 필요 없이, 비즈니스에 특정된 고유의 전용 워크플로우를 얼마든지 가볍게 연결하고 확장해 활용할 수 있습니다.



5 - Jockey 가 주는 압도적 투명성

가장 뛰어난 비디오 에이전트를 개발하는 것은 일반적인 LLM 프롬프트 앱을 만드는 것과는 차원이 다른 엔지니어링 집중도가 필요합니다. 특히 긴 비디오에서 원하는 구간을 정확히 도려내고 붙이는 연산 파이프라인에서 극상의 최적화 속도를 달성해야 합니다. 우리는 이를 돌파하기 위해 두 가지 전략적인 선택을 내렸습니다.

  1. 첫째, base_search(), process_clips(), download_remaining()과 같이 완결성 있는 연산들을 독립된 펑션 디스패처를 이용해 동시 다발적이고 효율적으로 비동기 처리하는 강력한 파이프라인 구조를 구축했습니다.

  2. 둘째, 기계 뒤에 숨겨져 있던 복잡한 처리 과정을 유저가 눈으로 볼 수 있게 UI 인터페이스상에 투명한 '생각 중(Thinking)' 상태로 직접 시각화했습니다 (자세한 내용은 섹션 6 참조).

이러한 정보 공개는 단순한 로딩 스피너 그 이상입니다. 에이전트가 어떤 데이터 경로와 수식적 판단을 거쳐 최종 클립 결과물에 도달했는지 논리적 여정을 상세히 공개함으로써, 기업 파트너가 도구의 작동 방식과 결과물을 완벽하게 신뢰할 수 있게 만듭니다.

우리는 수많은 실전 피드백을 수집하며, 사용자들이 비록 수 초의 연산 시간이 더 걸리더라도 시스템이 그 결과를 위해 어떻게 추론하고 동작 중인지 설득력 있게 설명해 줄 때 장기적으로 시스템에 대해 몇 배나 단단한 제품 신뢰를 보내준다는 점을 확인했습니다. 이러한 중요한 깊이가 저희 UI 설계에 고스란히 녹아 있습니다. 사용자가 질문을 던졌을 때 Marengo 모델의 고화질 비디오 검색 기술이 쓰이고 있는지, Pegasus의 수준 높은 서사 이해가 개입 중인지 작동 상황을 낱낱이 명시합니다. 신뢰할 수 있고 명백히 검증 가능한 의사결정 프로세스를 최우선으로 여기는 많은 엔터프라이즈 및 콘텐츠 스튜디오 비즈니스 파트너사들에 깊은 지지를 얻고 있는 지점이기도 합니다.

앞으로 Jockey는 한 단계 더 진화하여, 에이전트의 사고 과정을 단순히 모니터링하는 데 그치지 않고 사용자가 그 경로에 직접 개입하여 논리를 즉시 제어할 수 있는 양방향 추론 제어 시스템(Bidirectional Thinking)을 선보일 예정입니다. 예를 들어 에이전트의 작동 중간에 탐색 키워드가 원하던 것과 빗나가고 있다면 (예컨대 일본의 카멜레온에서 일본의 도마뱀으로) 사용자가 대화창에서 방향을 지시하여 잘못된 검색이나 프로세싱 실수를 직관적으로 정정하거나 에이전트의 초점을 교정할 수 있게 됩니다. 이는 단순히 결과를 기계적으로 인출하는 시스템을 넘어 적극적으로 소통하는 진정한 크리에이티브 파트너가 됨을 뜻합니다. 당사가 MLSE(Maple Leaf Sports & Entertainment) 팀을 포함한 일선 크리에이티브 기업 파트너들과 집중적으로 진행한 연구 분석 결과와도 깊이 맞닿아 있습니다. 전문가들은 고가치의 영상 IP나 독창적인 크리에이티브 자산을 가공할 때, 기계의 무조건적인 자동화 스피드보다 진행 과정을 세부적으로 통제하고 원하는 대로 자유롭게 주도권을 쥘 수 있는 직관적인 콘트롤러 환경을 훨씬 높게 선호하기 때문입니다.

출처: https://www.latent.space/p/why-mcp-won

모델 컨텍스트 프로토콜(MCP) 프레임워크는 향후 Jockey 생태계 확장, 특히 다양한 서드파티 통합 솔루션들과의 유기적인 결합 과정에서 대단히 흥미진진한 기술적 가능성들을 열어줄 것입니다. MCP는 Jockey 코어 엔진과 외부 차세대 도구들—예컨대 비디오 생성 서비스(RunwayML, Luma Labs), 프로페셔널 오디오 디바이스(ElevenLabs, Suno), 더 나아가 고성능 오브젝트 트래킹 및 메타 데이터 분절 툴(Meta의 SAM 등)들을 일직선으로 연동하는 하나의 글로벌 상호 운용성 표준 인터페이스가 될 수 있습니다.

  • 매번 새로운 커넥터를 무두질해 각 툴마다 붙여주는 반복적인 번거로움 대신, MCP를 장착하면 컨텍스트 공유 및 펑션 콜 파이프라인의 단일 정밀 API 인터페이스를 우아하게 구축할 수 있습니다. 즉 기존 N×M 형태의 기하급수적으로 꼬여 나가던 구조(N개의 에이전트 프레임워크와 M개의 서드파티 툴)를 아주 직관적인 N+M 호환 모형으로 혁신하여 기술 유지비와 통합 리스크를 크게 낮추고 개방형 레이아웃의 완성도를 끌어올립니다.

  • Jockey의 실전 응용 관점에서도 이는 굉장한 시너지입니다. 예컨대 Marengo를 통해 찾은 최상의 비디오 신을 MCP 프로토콜을 통과시켜 외부 서드파티 보정 툴로 지연 없이 즉각 자동 전송하고, 이어 또 다른 오디오 전용 생성 툴에 물려 인공지능 보이스 오버를 실시간 합성한 후, 최종 편집 및 송출 콘솔망에 얹어버리는 물 흐르듯 유기적인 하이퍼 스케일 워크플로우를 완벽하게 유지한 채 한 호흡에 끝낼 수 있게 됩니다.



6 - 직관적인 멀티모달 인터페이스의 강력함

기존의 전통적인 비디오 분석 툴을 쓸 때 사용자들은 늘 한쪽을 포기해야만 했습니다. 영상의 세밀한 시각적 정보나 흐름은 배제된 메마른 검색창을 쓰거나, 혹은 반대로 간단한 대화나 조작 기능조차 주어지지 않는 빈약한 플레이어 화면을 마주해야 했습니다. Jockey는 소통형 대화 인터페이스와 뛰어난 비디오 전용 UI 컴포넌트들을 이상적으로 접목시킨 완벽한 멀티모달 최우선 인터페이스를 설계해 이 케케묵은 간극을 허물었습니다. 어는 편 하나를 부차적으로 끼워 넣는 것이 아닌, 두 혁신 기술을 전면 배치하는 동등한 1등 구조입니다. 아래 준비된 데모 스크린샷처럼 왼쪽의 자유롭고 자연스러운 대화 창구는 복잡한 크리에이티브 시나리오를 마음껏 서술하고 수집하며, 중간의 실시간 사고 트랙 영역은 AI가 탐색 과정을 어떻게 파고드는지 상세히 드러냅니다. 동시에 완성된 결과 클립들은 깔끔한 그리드 보드 세트에 담겨 썸네일, 메타 데이터, 정확한 인출 지점 안내 등과 통합 표기되어 사용자에게 최상의 시각 제어력을 보증합니다. 이로써 사용자들은 막막했던 광범위한 고수준의 요구 조건(예: 사람들이 온갖 역경을 견디고 일어나는 감동적인 장면들을 다 가져와줘)을 던지는 작업부터, 인출된 시각 원료들을 기민하게 재조정하는 작업까지 하나의 캔버스에서 마법처럼 막힘 없이 연결해 실행할 수 있습니다.

이 인터페이스의 진정한 강점은 텍스트 정보와 시각적 데이터 간의 유기적이고 실시간인 쌍방향 정보 정합에 있습니다. 사용자가 글로 명령을 던지면 Jockey는 텍스트 답변은 물론 관련 비디오 세그먼트로 이동하는 인터랙티브 타임라인 링크를 즉각 표시합니다. 이때 정확히 비디오의 어느 지점에 어떤 디테일과 개념이 머무르는지도 선명히 타임스탬프로 표기됩니다. 이 정교한 타임 앵커 구조를 통해 문자로 소통하던 추상적인 발상들과 실제 저장된 수백 기가바이트의 날것인 물리 영상 데이터가 한 치의 오차도 없이 맞물려 돌아가게 됩니다.

더욱이, 사용자는 썸네일 위를 가볍게 마우스로 올리거나 터치하면서 전체 영상을 굳이 길게 재생할 필요 없이 빠르고 기민하게 프리뷰하고 검색할 수 있습니다. 언어와 비주얼이 매끄럽게 교차하고 서로 힘을 보태는 가장 이상적인 형태의 협력 고리가 형성되는 셈입니다. 사용자는 대화를 통해 가장 확실하게 자신의 고수준 의도를 명시하고, 영리해진 에이전트는 텍스트 문서만으로는 미처 파악하기 힘들었던 시각적 정취, 디테일, 미장센 감각들을 고화질 프리뷰로 가득 전해 주어 작업 생산성을 획기적으로 개선합니다. 가령 하단에 수록된 두 번째 스크린샷은 에이전트의 상세 연산 시퀀스와 그에 매칭된 정확한 타임스탬프 결과물들이 나란히 어떻게 직관적으로 노출되는지 잘 가리키고 있습니다.

이 기술 지향적인 인터페이스는 비디오를 다룰 때 수반되던 만성적인 인지 피로 과제들을 효과적으로 제거합니다. 영상은 필연적으로 타임라인을 끝없이 드래그해 넘겨봐야 진의를 다 읽을 수 있는 불투명하고 무거운 매체이기 때문에 탐독, 서치 혹은 전반적인 신 비교 작업이 쉽지 않았습니다. 하지만 Jockey의 입체적 정보 레이아웃은 수많은 시각 진입점을 동시 제공합니다. 눈으로 가볍게 스캔하는 다이내믹 썸네일 그리드, 에이전트가 완벽하게 다듬은 맥락 요약문 카드, 각 핵심 콘셉트가 출연하는 특정 타겟 프레임으로의 직접 순간 이동 키 등을 동시 활용할 수 있어, 사상 유례없는 탐색적 여유를 만끽하게 해 줍니다. 사용자는 동시에 수많은 비디오 자산들을 늘어놓고 교차 분석을 이어갈 때조차, 본 차트 아래 이미지처럼 복잡한 인지 부하의 장벽 없이 아주 직관적으로 통찰력을 잃지 않고 컨트롤할 수 있게 됩니다. (예: 이 모든 수색 및 편집 비디오 결과들을 종합해서 정말 극적이고 감성을 자극하는 연출 숏으로 압축해서 요약해 줄래?)

더욱 매력적인 혁신은 단순 일방적인 질의 응답 영역을 넘어선, 진실되고 온전한 인간-기계 상생 크리에이티브 공간으로 격상된다는 점입니다. 아래 스크린샷에서 도드라지는 상세 기획 프로세스 로그는 Jockey가 던져진 복잡한 타겟 미션을 수행하기 위해 당신의 복잡한 니즈를 면밀히 읽고 파악 중 혹은 미디어 DB 라이브러리에서 적합 컨텍스트 추출 중 같은 핵심 동작 단계를 실시간으로 성실하게 보고합니다. 이는 기계에만 전적으로 의존하는 수동적 관계에서 탈피하여, 한 쌍의 크리에이터들이 호흡을 조절하듯 필요하면 진행 중간에 사용자가 즉각 끼어들어 중지, 재참조, 타겟 조정 등을 밀고 당기듯 유연하게 수행하게 함으로써 도구 생산성을 극한으로 견인해 냅니다. 기계의 알고리즘 정밀도와 일류 제작자의 주관적 판단 지평이 마이크로 단위로 마주치는 지점입니다.

앞으로 이 멀티모달 여정이 나아갈 길은 궁극적으로