제품
공공 부문을 위한 비디오 대 텍스트: Marengo와 Pegasus를 활용한 시공간적 추론의 비디오 네이티브 사례

마이크 마스카리
범용 LLM은 프레임 샘플링 시 시간적 맥락이 손실되고 언어적 사전 편향이 시각적 증거보다 우선시되기 때문에 작전 비디오 분석에서 한계를 보입니다. 반면, 트웰브랩스(Twelve Labs)의 마렝고(Marengo)와 페가수스(Pegasus)는 비디오 검색과 추론 과정을 분리함으로써 이 문제를 해결하며, 국방부(DoD) 및 정보기관(IC) 업무에 최적화된 시간 기반의 검증 가능한 고도의 인텔리전스 제품을 제공합니다.
범용 LLM은 프레임 샘플링 시 시간적 맥락이 손실되고 언어적 사전 편향이 시각적 증거보다 우선시되기 때문에 작전 비디오 분석에서 한계를 보입니다. 반면, 트웰브랩스(Twelve Labs)의 마렝고(Marengo)와 페가수스(Pegasus)는 비디오 검색과 추론 과정을 분리함으로써 이 문제를 해결하며, 국방부(DoD) 및 정보기관(IC) 업무에 최적화된 시간 기반의 검증 가능한 고도의 인텔리전스 제품을 제공합니다.

목차
뉴스레터 구독하기
뉴스레터 구독하기
영상 이해 분야의 최신 기술 업데이트, 튜토리얼 및 인사이트를 받아보세요.
영상 이해 분야의 최신 기술 업데이트, 튜토리얼 및 인사이트를 받아보세요.
AI로 영상을 검색하고, 분석하고, 탐색하세요.
2026. 3. 24.
12분
링크 복사하기
비디오는 텍스트가 아닌 타임라인입니다.
미국 국방부(DoD)나 정보기관(IC)에서 일하고 계신다면 이미 불편한 진실을 알고 계실 것입니다. 우리는 사람이 물리적으로 다 시청할 수 없을 정도로 엄청난 양의 비디오를 수집하고 있습니다.
ISR 플랫폼, 광역 센서, 고정 카메라, 바디캠, 드론 등 모든 장치가 비디오 스트림을 만들어내고 있습니다. 그리고 진정한 난제는 영상을 수집하는 것이 아니라, 가공되지 않은 미가공 모션 이미지를 적시에 신뢰할 수 있는 정보 자산으로 변환하는 것입니다.
공개 보고서들에 따르면, 군사 정보 분야에서 이러한 현상을 '정보의 홍수'로 규정하고 있으며, 분석가들이 현대적인 수집 규모에 압도당할 위험에 처해 있다고 경고합니다.
그래서 실무진들이 다음과 같이 묻는 것은 자연스러운 일입니다. “그냥 이 비디오를 LLM에 입력하면 안 되나요?”
짧은 클립의 경우에는 제법 괜찮은 답변을 얻을 수도 있습니다. 하지만 몇 시간 분량의 영상, 다중 피드, 실제 타임라인 기반의 핵심 질문(“이 일의 전후에 무슨 일이 있었는가?”, “누가 누구와 상호작용했는가?”, “무엇이 변했는가?”)이 포함된 미션 워크로드에서 범용 LLM은 예측 가능한 방식으로 실패합니다.
그 이유는 간단합니다. 텍스트는 토큰의 시퀀스이지만, 비디오는 시공간적 시그널(Spatiotemporal Signal)이기 때문입니다.

그림 1: 비디오는 연속적인 시간이며, LLM은 이산적인 토큰 단위로 작동합니다. 비디오를 토큰으로 강제 변환하면 정보 손실이 발생합니다.
미션 비디오의 숨겨진 요구사항: 시간적 추론(Temporal Reasoning)
대부분의 사람들은 '비디오 이해'라는 말을 들으면 '객체 인식'을 떠올립니다. 하지만 미션 비디오에서 분석이 실패하는 이유는 사람이나 차량을 감지하지 못해서가 아닙니다. 바로 다음과 같이 시간의 흐름에 따른 추론을 하지 못하기 때문입니다.
무슨 일이 먼저 일어났고, 그 다음에 무슨 일이 일어났는가?
관찰된 행동이 점차 고조되었는가?
인과관계의 사슬은 어떻게 연결되는가?
이것은 정상적인 생활 패턴(Pattern of life)인가, 아니면 이상 징후인가?
이러한 것들이 바로 타임라인 질문입니다. 모델의 내부 표현(Representation)이 비디오를 몇 장의 정적 스냅샷이나 느슨하게 연결된 캡션으로 무너뜨린다면, 이러한 질문에 신뢰할 수 있는 답변을 제공할 수 없습니다.
범용 LLM이 비디오 분석에서 한계를 드러내는 이유
이 대목에서는 명확 짚고 넘어갈 필요가 있습니다. 범용 LLM이 비디오를 잘 처리하지 못하는 이유는 모델이 똑똑하지 않아서가 아니라, 비디오를 모델에 입력하는 기존 방식이 미션에 반드시 필요한 핵심 정보를 유실시키기 때문입니다.
여기에는 크게 세 가지 핵심 실패 모드가 존재합니다.

그림 2: 비디오 중심 미션에서 '범용 LLM + 프레임 샘플링' 조합이 실패하는 이유
1 - 프레임 샘플링을 통한 타임라인 파괴
비디오는 고밀도 데이터입니다. 표준 스트림은 초당 약 30프레임을 캡처합니다. 하지만 많은 '비디오-LLM' 시스템은 모든 프레임을 처리하는 비용이 너무 비싸기 때문에 이 프레임 중 극히 일부(때로는 초당 단 1프레임 수준)만 전달합니다.
SlowFocus 논문은 이를 명확히 짚어냅니다. 연산 제약 하에서 비디오 LLM은 일반적으로 원본 비디오를 희소 샘플링(Sparsely sample)하고(예: '1초당 1프레임만 유지'), 어댑터를 통해 프레임별 토큰을 압축해야 합니다. 이는 결국 프레임 수준의 정밀한 디테일과 비디오 수준의 시간적 커버리지 사이에서 타협을 강제하게 만듭니다.
이 타협은 결코 사소하지 않습니다. 대부분의 프레임을 버린다는 것은 다음을 버리는 것과 같습니다.
전환 과정 (무엇이 어떻게 변했는가)
미세한 행동 (단순히 그 존재가 무엇이었는지를 넘어 무엇을 하고 있었는가)
인과적 단서 (이벤트 사이의 '왜'에 해당하는 연결 고리)
동기화 (어떤 행동과 동시에 어떤 오디오가 발생했는가)
실제 미션 워크로드에서 이 단서들은 분석가가 가장 중요하게 여겨야 할 정보들입니다.
2 - 실증 데이터보다 강력하게 작용하는 언어 프라이어(Language Priors)
LLM은 자연스럽고 유창한 텍스트를 생성하도록 훈련되었습니다. 이는 엄청난 장점이지만, 때로는 결함이 되기도 합니다.
Apple의 2025년 비디오 LLM 벤치마킹 워크숍 논문은 모델이 비디오를 전혀 보지 않고도 질문에 올바르게 답변할 수 있는 '강한 언어 프라이어(Strong language priors)' 현상을 지적합니다.
정보 분석 및 작전 환경에서 '그럴듯함'만으로는 충분하지 않습니다. 모델은 세상의 일반적인 상식이 아니라, 오직 이 영상 속에서 실제로 일어난 일을 지목해 주어야 합니다. 공공 부문에서 이 위험 프로필이 더 무겁게 다가오는 이유도 여기에 있습니다. 자신감 넘치는 추측은 의도치 않은 오탐(False Positive), 핵심 이벤트 누락, 그리고 의사 결정으로 번지는 전개상의 왜곡을 초래할 수 있습니다.
3 - 셔플 불변성(Shuffling Invariance)을 통해 드러나는 시간 추론의 부재
대다수의 대외용 벤치마크보다 훨씬 더 중요하면서도 간단한 테스트가 있습니다. 프레임의 순서를 뒤섞었을 때도… 모델이 여전히 동일하게 답변하는가?
Apple의 논문은 일부 비디오 LLM이 프레임 순서를 시간적으로 뒤섞어도 유사한 성능을 유지하는 '셔플 불변성'을 지적합니다. 시스템이 올바른 순서와 뒤섞인 순서의 차이를 구분하지 못한다면, 이벤트의 시퀀스, 상황의 고조, 인과관계를 신뢰성 있게 추론할 수 없습니다. 이는 FMV(Full-Motion Video) 판독 및 생활 패턴(Pattern-of-Life) 분석의 근간을 뒤흔드는 문제입니다.
프로덕션 환경에서의 부조화: 잘못된 컨텍스트, 메모리, 그리고 추론
아무리 훌륭해 보이는 데모라 할지라도, 대다수의 범용 아키텍처는 긴 분량의 대규모 미션 비디오를 다룰 때 실전의 냉혹한 한계에 부딪힙니다.
잘못된 컨텍스트: 비디오를 단순히 일반 언어 토큰처럼 취급하면 시공간적 연속성을 잃기 쉽습니다.
잘못된 메모리: '비디오 메모리'는 텍스트 RAG와 다릅니다. 미션에는 시간에 맞춰 정렬된 확실한 증거를 바탕으로 거대한 아카이브 전체에서 검색할 수 있는 역량이 필요합니다.
잘못된 추론: 시간 정보와 정렬된 명확한 범위의 증거를 제공하지 않으면, 텍스트 우선 방식의 추론 엔진은 피드의 움직임과 전개 과정을 파악하는 데 한계를 겪습니다.
미션용 비디오 시스템은 프롬프트를 더 자극적으로 쓴다고 이길 수 있는 것이 아닙니다. 추론 시스템이 신뢰할 수 있는 최적의 컨텍스트를 설계(Context Engineering)해 낼 때 진정한 승리가 가능합니다.
특화된 비디오 파운데이션 모델의 차별점
미션급 비디오 시스템은 하나의 거대한 단일 프롬프트에 모든 것을 쑤셔 넣으려고 하지 않습니다. 대신 문제를 명확히 두 가지 역할로 분할합니다.
가공되지 않은 원본 비디오를 검색 가능한 시공간적 표현(Spatiotemporal Representation)으로 변환하는 인지 레이어(Perception Layer).
선택된 증거를 바탕으로 근거가 확실하고 구조화된 결과물로 변환하는 추론 및 보고 레이어(Reasoning/Reporting Layer).
이러한 명확한 역할 분담은 TwelveLabs 모델에서 뚜렷하게 확인하실 수 있습니다.
Marengo: 비디오, 이미지, 텍스트, 오디오를 공통의 공유 표현으로 통합하여 '임의 대 임의(Any-to-Any)' 검색을 지원하는 '인지 엔진'입니다.
Pegasus: 이러한 표현을 고도로 활용하여 비디오를 정밀한 텍스트(보고서, 챕터 구분, 요약 등)로 전환하는 '추론 및 보고 엔진'입니다.

그림 3: Marengo = 비디오 인덱싱 및 검색, Pegasus = 추론 및 결과물 생성
1 - Marengo: 장기적인 비디오 시공간 메모리 구축
현업의 핵심 과제는 단순한 단편 클립의 이해가 아닙니다. 바로 "비디오 말뭉치(Corpora) 전체에 걸쳐 신뢰성 있는 작업을 수행하는 것"입니다. 검색이 중요한 이유가 여기에 있습니다. 컨텍스트 엔지니어링 관점에서 검색은 할루시네이션(환각 현상)을 제어하는 강력한 수단입니다. 더 정교한 선택은 곧 더 적은 추측을 의미하기 때문입니다.
Marengo는 이러한 강력한 검색 인프라의 토대를 제공하기 위해 설계되었습니다.
비디오, 이미지, 텍스트, 오디오를 통합된 단일 표현으로 변환하는 멀티모달 인코더로, 크로스 모달(Cross-modal) 검색을 완벽히 구현합니다.
특정 개체(Entity) 검색, 멀티미디어 혼합 검색(이미지 + 텍스트), 고용량의 장기 영상 처리 등 실제 미션에 필요한 핵심 쿼리 패턴을 기본 지원합니다.
운영 관점에서 볼 때 이것은 여러분의 '장기 기억' 레이어입니다. 한 번 인덱싱하고 나면, 원본 비디오를 범용 LLM에 매번 통째로 밀어 넣을 필요 없이 분석에 알맞은 시간대로 바운딩된 최적의 구간을 찾아 빠르게 답변을 제공합니다.
2 - Pegasus: 검색된 증거를 기반으로 신뢰할 수 있는 정보 자산 도출
증거 클립을 확보했다면 다음 핵심 문항은 다음과 같습니다. "시스템이 생성한 결과물을 분석가가 온전히 신뢰하고 검토하여 정보 시스템에 통합할 수 있는가?"
Pegasus는 입력된 비디오를 정돈된 구조적 텍스트(챕터 구분, 요약문, 보고서, 메타데이터 등)로 변환해 주는 비디오 투 텍스트(Video-to-Text) 컴포넌트입니다. 모든 텍스트는 멀티모달 증거물에 완전 기반을 두고 생성됩니다. 이를 통해 검색된 영상 속에서 표준화된 속성 값(시작점, 종료점, 라벨, 증거, 신뢰도 등)을 정확히 추출 및 내보내어 다운스트림 협업 도구들에 손쉽게 연동할 수 있습니다.
우리의 현장 워크로드에서, 타임코드가 빠진 답변은 답변이 아닙니다. 출력 형식에 관한 논의가 단순히 겉보기에 예쁘게 꾸미기 위한 디테일이 아닌 이유가 여기에 있습니다. 형식이 정교하게 정의되어야 모델을 실제 PED(처리, 판독, 배포) 아키텍처에 문제없이 결합할 수 있습니다.
이 요구사항은 곧 시스템의 감사 가능성(Auditability)과 직결됩니다. 공공 부문의 수사, 사건 재구성, 정보 보고, 컴플라이언스 준수 등의 시나리오에서는 필수적으로 다음이 요구됩니다.
무슨 일이 발생했는가
그 일은 정확히 피드의 몇 분 몇 초 지점에서 일어났는가
왜 이상 징후로 플래그가 지정되었는가
이를 뒷받침하는 객관적인 증거는 무엇인가
이러한 검증 프로세스를 갖출 때 비로소 AI는 속이 보이지 않는 불투명한 서술자가 아니라, 분석가의 역량을 극대화해 주는 든든한 승수가 될 수 있습니다.
기술 평가 시 무엇을 요구해야 하는가
공공 및 정보 부문의 실증적인 요구사항을 충족하기 위해, 특화된 비디오 파운데이션 모델은 다음과 같은 핵심 워크로드를 매끄럽게 수행할 수 있어야 합니다.
다중 피드를 가로지르는 상시 지속 감시: 사람이 눈을 떼지 않고 상시 모니터링하지 않아도 시스템이 관심 활동을 스스로 포착하여 알립니다.
생활 패턴(Pattern-of-Life) 분석: 오랜 시간에 걸쳐 대상을 모니터링하고 추적하며 이상 징후를 감지하고 타임라인을 정밀 빌딩합니다.
사후 포렌식 검색: 축적되어 아카이빙된 거대한 비디오 더미 속에서 원하는 시퀀스와 타임라인을 수 분 만에 완벽히 복원해 냅니다.
DoD/IC 미션을 위해 비디오 AI 솔루션을 평가하신다면, 단순히 "화면 속 장면을 그럴듯하게 묘사하는지"를 넘어, 실제 시간적 추론 역량을 엄밀히 테스트할 수 있는 평가 지표를 강력히 요구하십시오.
단순한 종합 점수식 벤치마크 뒤에 가려지기 쉬운 셔플 불변성(Shuffling Invariance)과 장시간 영상 처리 한계를 직접 검증해 보십시오.
당사에서 실제 취급하는 대표적인 성격의 영상 자산(장시간 촬영된 FMV, 저화질 영상, 다중 센서 피드 등)으로 테스트하고, 반드시 타임라인 앵커링이 지원되는지 검증하시길 권장합니다.
장시간 컨텍스트 처리, 장면 전환 속에서의 연속 개체 추적, 복잡한 시간 흐름 기반 질의 처리 역량, 제약 조건 내 엣지(Edge) 배포 가능 여부 및 상호 운용성 표준 준수 등의 프로덕션 체크리스트를 면밀히 점검하십시오.
결론
그간 범용 LLM은 텍스트 생태계와 업무 방식을 완전히 뒤바꾸어 놓았습니다. 그러나 미션 비디오는 텍스트가 아닙니다.
비디오는 본질적으로 타임라인이며, 가장 높은 가치를 지닌 미션 질문들은 모두 이벤트 시퀀스, 인과성, 진행 추이, 그리고 장기적 연관성과 같은 시간적 추론에 좌우됩니다.
조사의 확실한 실증 데이터, 타임코드 매핑, 그리고 감사 가능성이 요구되는 미션 환경이라면 애초에 설계 첫날부터 오직 비디오만을 전제로 빌드된 기반 인프라가 필요합니다. 이는 시공간적 컨텍스트를 고스란히 보존하는 강력한 검색 레이어와, 이와 정렬된 타임라인 기반 결과물을 도출하는 추론 엔진의 결합을 뜻합니다.
그렇기에 우리가 내려야 할 최선의 선택은 단순히 'AI를 도입할 것인가 말 것인가'가 아닙니다. 바로 시간의 흐름을 완전히 이해하는 비디오 전용 AI를 택할 것인가, 아니면 단순히 정지 화면의 연속체만 처리하는 범용 시스템에 타협할 것인가의 문제입니다.
비디오는 텍스트가 아닌 타임라인입니다.
미국 국방부(DoD)나 정보기관(IC)에서 일하고 계신다면 이미 불편한 진실을 알고 계실 것입니다. 우리는 사람이 물리적으로 다 시청할 수 없을 정도로 엄청난 양의 비디오를 수집하고 있습니다.
ISR 플랫폼, 광역 센서, 고정 카메라, 바디캠, 드론 등 모든 장치가 비디오 스트림을 만들어내고 있습니다. 그리고 진정한 난제는 영상을 수집하는 것이 아니라, 가공되지 않은 미가공 모션 이미지를 적시에 신뢰할 수 있는 정보 자산으로 변환하는 것입니다.
공개 보고서들에 따르면, 군사 정보 분야에서 이러한 현상을 '정보의 홍수'로 규정하고 있으며, 분석가들이 현대적인 수집 규모에 압도당할 위험에 처해 있다고 경고합니다.
그래서 실무진들이 다음과 같이 묻는 것은 자연스러운 일입니다. “그냥 이 비디오를 LLM에 입력하면 안 되나요?”
짧은 클립의 경우에는 제법 괜찮은 답변을 얻을 수도 있습니다. 하지만 몇 시간 분량의 영상, 다중 피드, 실제 타임라인 기반의 핵심 질문(“이 일의 전후에 무슨 일이 있었는가?”, “누가 누구와 상호작용했는가?”, “무엇이 변했는가?”)이 포함된 미션 워크로드에서 범용 LLM은 예측 가능한 방식으로 실패합니다.
그 이유는 간단합니다. 텍스트는 토큰의 시퀀스이지만, 비디오는 시공간적 시그널(Spatiotemporal Signal)이기 때문입니다.

그림 1: 비디오는 연속적인 시간이며, LLM은 이산적인 토큰 단위로 작동합니다. 비디오를 토큰으로 강제 변환하면 정보 손실이 발생합니다.
미션 비디오의 숨겨진 요구사항: 시간적 추론(Temporal Reasoning)
대부분의 사람들은 '비디오 이해'라는 말을 들으면 '객체 인식'을 떠올립니다. 하지만 미션 비디오에서 분석이 실패하는 이유는 사람이나 차량을 감지하지 못해서가 아닙니다. 바로 다음과 같이 시간의 흐름에 따른 추론을 하지 못하기 때문입니다.
무슨 일이 먼저 일어났고, 그 다음에 무슨 일이 일어났는가?
관찰된 행동이 점차 고조되었는가?
인과관계의 사슬은 어떻게 연결되는가?
이것은 정상적인 생활 패턴(Pattern of life)인가, 아니면 이상 징후인가?
이러한 것들이 바로 타임라인 질문입니다. 모델의 내부 표현(Representation)이 비디오를 몇 장의 정적 스냅샷이나 느슨하게 연결된 캡션으로 무너뜨린다면, 이러한 질문에 신뢰할 수 있는 답변을 제공할 수 없습니다.
범용 LLM이 비디오 분석에서 한계를 드러내는 이유
이 대목에서는 명확 짚고 넘어갈 필요가 있습니다. 범용 LLM이 비디오를 잘 처리하지 못하는 이유는 모델이 똑똑하지 않아서가 아니라, 비디오를 모델에 입력하는 기존 방식이 미션에 반드시 필요한 핵심 정보를 유실시키기 때문입니다.
여기에는 크게 세 가지 핵심 실패 모드가 존재합니다.

그림 2: 비디오 중심 미션에서 '범용 LLM + 프레임 샘플링' 조합이 실패하는 이유
1 - 프레임 샘플링을 통한 타임라인 파괴
비디오는 고밀도 데이터입니다. 표준 스트림은 초당 약 30프레임을 캡처합니다. 하지만 많은 '비디오-LLM' 시스템은 모든 프레임을 처리하는 비용이 너무 비싸기 때문에 이 프레임 중 극히 일부(때로는 초당 단 1프레임 수준)만 전달합니다.
SlowFocus 논문은 이를 명확히 짚어냅니다. 연산 제약 하에서 비디오 LLM은 일반적으로 원본 비디오를 희소 샘플링(Sparsely sample)하고(예: '1초당 1프레임만 유지'), 어댑터를 통해 프레임별 토큰을 압축해야 합니다. 이는 결국 프레임 수준의 정밀한 디테일과 비디오 수준의 시간적 커버리지 사이에서 타협을 강제하게 만듭니다.
이 타협은 결코 사소하지 않습니다. 대부분의 프레임을 버린다는 것은 다음을 버리는 것과 같습니다.
전환 과정 (무엇이 어떻게 변했는가)
미세한 행동 (단순히 그 존재가 무엇이었는지를 넘어 무엇을 하고 있었는가)
인과적 단서 (이벤트 사이의 '왜'에 해당하는 연결 고리)
동기화 (어떤 행동과 동시에 어떤 오디오가 발생했는가)
실제 미션 워크로드에서 이 단서들은 분석가가 가장 중요하게 여겨야 할 정보들입니다.
2 - 실증 데이터보다 강력하게 작용하는 언어 프라이어(Language Priors)
LLM은 자연스럽고 유창한 텍스트를 생성하도록 훈련되었습니다. 이는 엄청난 장점이지만, 때로는 결함이 되기도 합니다.
Apple의 2025년 비디오 LLM 벤치마킹 워크숍 논문은 모델이 비디오를 전혀 보지 않고도 질문에 올바르게 답변할 수 있는 '강한 언어 프라이어(Strong language priors)' 현상을 지적합니다.
정보 분석 및 작전 환경에서 '그럴듯함'만으로는 충분하지 않습니다. 모델은 세상의 일반적인 상식이 아니라, 오직 이 영상 속에서 실제로 일어난 일을 지목해 주어야 합니다. 공공 부문에서 이 위험 프로필이 더 무겁게 다가오는 이유도 여기에 있습니다. 자신감 넘치는 추측은 의도치 않은 오탐(False Positive), 핵심 이벤트 누락, 그리고 의사 결정으로 번지는 전개상의 왜곡을 초래할 수 있습니다.
3 - 셔플 불변성(Shuffling Invariance)을 통해 드러나는 시간 추론의 부재
대다수의 대외용 벤치마크보다 훨씬 더 중요하면서도 간단한 테스트가 있습니다. 프레임의 순서를 뒤섞었을 때도… 모델이 여전히 동일하게 답변하는가?
Apple의 논문은 일부 비디오 LLM이 프레임 순서를 시간적으로 뒤섞어도 유사한 성능을 유지하는 '셔플 불변성'을 지적합니다. 시스템이 올바른 순서와 뒤섞인 순서의 차이를 구분하지 못한다면, 이벤트의 시퀀스, 상황의 고조, 인과관계를 신뢰성 있게 추론할 수 없습니다. 이는 FMV(Full-Motion Video) 판독 및 생활 패턴(Pattern-of-Life) 분석의 근간을 뒤흔드는 문제입니다.
프로덕션 환경에서의 부조화: 잘못된 컨텍스트, 메모리, 그리고 추론
아무리 훌륭해 보이는 데모라 할지라도, 대다수의 범용 아키텍처는 긴 분량의 대규모 미션 비디오를 다룰 때 실전의 냉혹한 한계에 부딪힙니다.
잘못된 컨텍스트: 비디오를 단순히 일반 언어 토큰처럼 취급하면 시공간적 연속성을 잃기 쉽습니다.
잘못된 메모리: '비디오 메모리'는 텍스트 RAG와 다릅니다. 미션에는 시간에 맞춰 정렬된 확실한 증거를 바탕으로 거대한 아카이브 전체에서 검색할 수 있는 역량이 필요합니다.
잘못된 추론: 시간 정보와 정렬된 명확한 범위의 증거를 제공하지 않으면, 텍스트 우선 방식의 추론 엔진은 피드의 움직임과 전개 과정을 파악하는 데 한계를 겪습니다.
미션용 비디오 시스템은 프롬프트를 더 자극적으로 쓴다고 이길 수 있는 것이 아닙니다. 추론 시스템이 신뢰할 수 있는 최적의 컨텍스트를 설계(Context Engineering)해 낼 때 진정한 승리가 가능합니다.
특화된 비디오 파운데이션 모델의 차별점
미션급 비디오 시스템은 하나의 거대한 단일 프롬프트에 모든 것을 쑤셔 넣으려고 하지 않습니다. 대신 문제를 명확히 두 가지 역할로 분할합니다.
가공되지 않은 원본 비디오를 검색 가능한 시공간적 표현(Spatiotemporal Representation)으로 변환하는 인지 레이어(Perception Layer).
선택된 증거를 바탕으로 근거가 확실하고 구조화된 결과물로 변환하는 추론 및 보고 레이어(Reasoning/Reporting Layer).
이러한 명확한 역할 분담은 TwelveLabs 모델에서 뚜렷하게 확인하실 수 있습니다.
Marengo: 비디오, 이미지, 텍스트, 오디오를 공통의 공유 표현으로 통합하여 '임의 대 임의(Any-to-Any)' 검색을 지원하는 '인지 엔진'입니다.
Pegasus: 이러한 표현을 고도로 활용하여 비디오를 정밀한 텍스트(보고서, 챕터 구분, 요약 등)로 전환하는 '추론 및 보고 엔진'입니다.

그림 3: Marengo = 비디오 인덱싱 및 검색, Pegasus = 추론 및 결과물 생성
1 - Marengo: 장기적인 비디오 시공간 메모리 구축
현업의 핵심 과제는 단순한 단편 클립의 이해가 아닙니다. 바로 "비디오 말뭉치(Corpora) 전체에 걸쳐 신뢰성 있는 작업을 수행하는 것"입니다. 검색이 중요한 이유가 여기에 있습니다. 컨텍스트 엔지니어링 관점에서 검색은 할루시네이션(환각 현상)을 제어하는 강력한 수단입니다. 더 정교한 선택은 곧 더 적은 추측을 의미하기 때문입니다.
Marengo는 이러한 강력한 검색 인프라의 토대를 제공하기 위해 설계되었습니다.
비디오, 이미지, 텍스트, 오디오를 통합된 단일 표현으로 변환하는 멀티모달 인코더로, 크로스 모달(Cross-modal) 검색을 완벽히 구현합니다.
특정 개체(Entity) 검색, 멀티미디어 혼합 검색(이미지 + 텍스트), 고용량의 장기 영상 처리 등 실제 미션에 필요한 핵심 쿼리 패턴을 기본 지원합니다.
운영 관점에서 볼 때 이것은 여러분의 '장기 기억' 레이어입니다. 한 번 인덱싱하고 나면, 원본 비디오를 범용 LLM에 매번 통째로 밀어 넣을 필요 없이 분석에 알맞은 시간대로 바운딩된 최적의 구간을 찾아 빠르게 답변을 제공합니다.
2 - Pegasus: 검색된 증거를 기반으로 신뢰할 수 있는 정보 자산 도출
증거 클립을 확보했다면 다음 핵심 문항은 다음과 같습니다. "시스템이 생성한 결과물을 분석가가 온전히 신뢰하고 검토하여 정보 시스템에 통합할 수 있는가?"
Pegasus는 입력된 비디오를 정돈된 구조적 텍스트(챕터 구분, 요약문, 보고서, 메타데이터 등)로 변환해 주는 비디오 투 텍스트(Video-to-Text) 컴포넌트입니다. 모든 텍스트는 멀티모달 증거물에 완전 기반을 두고 생성됩니다. 이를 통해 검색된 영상 속에서 표준화된 속성 값(시작점, 종료점, 라벨, 증거, 신뢰도 등)을 정확히 추출 및 내보내어 다운스트림 협업 도구들에 손쉽게 연동할 수 있습니다.
우리의 현장 워크로드에서, 타임코드가 빠진 답변은 답변이 아닙니다. 출력 형식에 관한 논의가 단순히 겉보기에 예쁘게 꾸미기 위한 디테일이 아닌 이유가 여기에 있습니다. 형식이 정교하게 정의되어야 모델을 실제 PED(처리, 판독, 배포) 아키텍처에 문제없이 결합할 수 있습니다.
이 요구사항은 곧 시스템의 감사 가능성(Auditability)과 직결됩니다. 공공 부문의 수사, 사건 재구성, 정보 보고, 컴플라이언스 준수 등의 시나리오에서는 필수적으로 다음이 요구됩니다.
무슨 일이 발생했는가
그 일은 정확히 피드의 몇 분 몇 초 지점에서 일어났는가
왜 이상 징후로 플래그가 지정되었는가
이를 뒷받침하는 객관적인 증거는 무엇인가
이러한 검증 프로세스를 갖출 때 비로소 AI는 속이 보이지 않는 불투명한 서술자가 아니라, 분석가의 역량을 극대화해 주는 든든한 승수가 될 수 있습니다.
기술 평가 시 무엇을 요구해야 하는가
공공 및 정보 부문의 실증적인 요구사항을 충족하기 위해, 특화된 비디오 파운데이션 모델은 다음과 같은 핵심 워크로드를 매끄럽게 수행할 수 있어야 합니다.
다중 피드를 가로지르는 상시 지속 감시: 사람이 눈을 떼지 않고 상시 모니터링하지 않아도 시스템이 관심 활동을 스스로 포착하여 알립니다.
생활 패턴(Pattern-of-Life) 분석: 오랜 시간에 걸쳐 대상을 모니터링하고 추적하며 이상 징후를 감지하고 타임라인을 정밀 빌딩합니다.
사후 포렌식 검색: 축적되어 아카이빙된 거대한 비디오 더미 속에서 원하는 시퀀스와 타임라인을 수 분 만에 완벽히 복원해 냅니다.
DoD/IC 미션을 위해 비디오 AI 솔루션을 평가하신다면, 단순히 "화면 속 장면을 그럴듯하게 묘사하는지"를 넘어, 실제 시간적 추론 역량을 엄밀히 테스트할 수 있는 평가 지표를 강력히 요구하십시오.
단순한 종합 점수식 벤치마크 뒤에 가려지기 쉬운 셔플 불변성(Shuffling Invariance)과 장시간 영상 처리 한계를 직접 검증해 보십시오.
당사에서 실제 취급하는 대표적인 성격의 영상 자산(장시간 촬영된 FMV, 저화질 영상, 다중 센서 피드 등)으로 테스트하고, 반드시 타임라인 앵커링이 지원되는지 검증하시길 권장합니다.
장시간 컨텍스트 처리, 장면 전환 속에서의 연속 개체 추적, 복잡한 시간 흐름 기반 질의 처리 역량, 제약 조건 내 엣지(Edge) 배포 가능 여부 및 상호 운용성 표준 준수 등의 프로덕션 체크리스트를 면밀히 점검하십시오.
결론
그간 범용 LLM은 텍스트 생태계와 업무 방식을 완전히 뒤바꾸어 놓았습니다. 그러나 미션 비디오는 텍스트가 아닙니다.
비디오는 본질적으로 타임라인이며, 가장 높은 가치를 지닌 미션 질문들은 모두 이벤트 시퀀스, 인과성, 진행 추이, 그리고 장기적 연관성과 같은 시간적 추론에 좌우됩니다.
조사의 확실한 실증 데이터, 타임코드 매핑, 그리고 감사 가능성이 요구되는 미션 환경이라면 애초에 설계 첫날부터 오직 비디오만을 전제로 빌드된 기반 인프라가 필요합니다. 이는 시공간적 컨텍스트를 고스란히 보존하는 강력한 검색 레이어와, 이와 정렬된 타임라인 기반 결과물을 도출하는 추론 엔진의 결합을 뜻합니다.
그렇기에 우리가 내려야 할 최선의 선택은 단순히 'AI를 도입할 것인가 말 것인가'가 아닙니다. 바로 시간의 흐름을 완전히 이해하는 비디오 전용 AI를 택할 것인가, 아니면 단순히 정지 화면의 연속체만 처리하는 범용 시스템에 타협할 것인가의 문제입니다.




