
제품
Pegasus 1.5 구축: 클립 기반 QA에서 시간 기반 메타데이터까지

김기안, 홍세은
Pegasus 1.5는 비디오 이해의 패러다임을 근본적으로 전환합니다. 단순히 클립에 대한 질문에 답하는 수준을 넘어, 비디오 전체에 걸쳐 고도로 구조화된 시간 기반 메타데이터를 직접 생성합니다. 본 포스트에서는 시간적 분할(temporal segmentation) 장벽을 극복하기 위한 기술적 과제들을 짚어보고, 투웰브랩스(Twelve Labs)가 새로운 평가 기준과 데이터셋을 첫 단계부터 어떻게 설계해 나갔는지, 그리고 현실 세계에서의 신뢰성을 확보하기 위해 학습 프로세스를 이러한 지표들과 정렬하는 것이 왜 중요한지 자세히 분석합니다. 그 결과, 비디오를 즉시 쿼리 가능한 프로덕션급 데이터로 변환하여 대규모 검색, 분석 및 자동화를 구현하는 시스템이 탄생했습니다.
Pegasus 1.5는 비디오 이해의 패러다임을 근본적으로 전환합니다. 단순히 클립에 대한 질문에 답하는 수준을 넘어, 비디오 전체에 걸쳐 고도로 구조화된 시간 기반 메타데이터를 직접 생성합니다. 본 포스트에서는 시간적 분할(temporal segmentation) 장벽을 극복하기 위한 기술적 과제들을 짚어보고, 투웰브랩스(Twelve Labs)가 새로운 평가 기준과 데이터셋을 첫 단계부터 어떻게 설계해 나갔는지, 그리고 현실 세계에서의 신뢰성을 확보하기 위해 학습 프로세스를 이러한 지표들과 정렬하는 것이 왜 중요한지 자세히 분석합니다. 그 결과, 비디오를 즉시 쿼리 가능한 프로덕션급 데이터로 변환하여 대규모 검색, 분석 및 자동화를 구현하는 시스템이 탄생했습니다.

목차
No headings found on page
뉴스레터 구독하기
뉴스레터 구독하기
영상 이해 분야의 최신 기술 업데이트, 튜토리얼 및 인사이트를 받아보세요.
영상 이해 분야의 최신 기술 업데이트, 튜토리얼 및 인사이트를 받아보세요.
AI로 영상을 검색하고, 분석하고, 탐색하세요.
2026. 4. 19.
12분
링크 복사하기

1 - 클립 기반 답변에서 구조화된 비디오 인텔리전스로의 진화
비디오는 정보의 가장 풍부한 형태 중 하나이지만, 소프트웨어 시스템이 접근하기에는 여전히 가장 까다로운 대상 중 하나입니다. 텍스트나 이미지와 달리, 비디오의 의미는 단일 순간에 담겨 있지 않습니다. 시간의 흐름에 따른 연속성, 멀티모달 상호작용, 그리도 인과 관계를 통해 비디오의 의미가 비로소 드러납니다. 스포츠 경기의 한 플레이는 수초에 걸쳐 전개되고, 영화의 서사적 흐름은 수 분 동안 이어지며, 브랜드 로고의 등장은 시각적으로는 미묘할 수 있지만 맥락상 결정적인 역할을 하기도 합니다. 대규모로 비디오를 운용하고 분석하려면, 시스템은 무엇이 일어나는지뿐만 아니라 그것이 언제 일어나는지까지 추론할 수 있어야 합니다.
이 단계에서 바로 시간 기반 메타데이터(Time-based metadata)가 핵심적인 역할을 합니다. 시간 기반 메타데이터는 가공되지 않은 원시 비디오를 타임스탬프가 지정된 구조화된 데이터로 변환하여, 개발자가 비디오를 쿼리 및 연산이 가능한 자산으로 다룰 수 있게 해줍니다. 이로써 기업들은 수동으로 영상을 일일이 검토하거나 불안정한 규칙 기반 휴리스틱에 의존하는 대신, 편집 세그먼트, 스포츠 플레이, 화자 전환, 브랜드 등장 등 비즈니스에 유의미한 이벤트를 정의하고 전체 비디오 라이브러리에서 이를 자동으로 추출할 수 있게 됩니다.

Pegasus의 이전 버전들은 이와는 다른 종류의 문제를 다루었습니다. Pegasus 1.2는 비디오 질의응답(QA) 시스템으로 설계되었습니다. 사용자가 비디오 클립을 제공하고 질문을 던지면, 모델이 그에 대한 답변이나 요약을 반환하는 방식이었습니다. 이러한 패러다임은 단답형 질문이나 특정 지점의 국소적 이해에는 잘 작동합니다. 하지만 실제 운영 환경에서는 한 가지 근본적인 한계가 존재합니다. 바로 사용자가 '어디를 찾아보아야 할지' 이미 알고 있어야 한다는 점입니다. 미디어 아카이브, 라이브 스포츠, 스트리밍 카탈로그와 같은 대규모 환경에서는 이러한 전제가 성립하기 어렵습니다.
그 결과, Pegasus 1.2는 전체 비디오에 대한 체계적인 세그먼트 분할 및 일관된 메타데이터 추출이 필수적인 워크플로우를 온전히 지원하기에는 어려움이 있었습니다. 모델 기반의 경계 탐지(boundary detection) 기능이 기본적으로 탑재되지 않았기 때문에, 사용자는 시간적 관심 영역을 정의하기 위해 여전히 수동 주석 작업이나 휴리스틱 전처리에 의존해야 했습니다.
Pegasus 1.5는 이러한 한계를 극복하기 위한 근본적인 패러다임 변화를 보여줍니다. 이 모델은 사전에 정의된 클립에 대한 질문에 단순히 답하는 것을 넘어, 사용자가 정의한 스키마에 따라 전체 비디오를 분할하고 각 세그먼트에 구조화된 메타데이터를 부여합니다. 이러한 전환을 통해 비디오 이해는 단순한 검색(Retrieval) 문제를 넘어, 비디오가 분석, 자동화, 에이전트 시스템을 위한 일급 입력값(First-class input)으로 기능하는 데이터 생성 파이프라인으로 진화합니다.
2 - 구조화되지 않은 비디오가 초래하는 기회비용
비디오 콘텐츠의 폭발적인 증가에도 불구하고, 대부분의 기업들은 비디오를 구조화되지 않은 일반 미디어로 관리하고 있습니다. 기존 방식은 수동 로그 작성, 키워드 태깅 또는 단순한 샷 탐지(Shot-detection) 알고리즘에 의존해 왔습니다. 그러나 이러한 방식으로는 후속 의사결정에 필수적인 의미적, 시간적 복잡성을 포착하기 어렵습니다.
시스템 아키텍처 관점에서 비디오가 지닌 세 가지 속성으로 인해 이러한 문제가 증폭됩니다.
시간적 모호성 (Temporal Ambiguity): 비디오 속 이벤트는 명시적인 경계를 가고 있지 않습니다. 한 뉴스 보도가 어디서 시작되고 특정 스포츠 플레이가 어디서 끝나는지 판단하려면 여러 모달리티를 아우르는 맥락적 추론이 필요합니다.
멀티모달 의존성 (Multimodal Dependence): 비디오의 의미는 시각적 단서, 음성, 오디오 신호, 그리고 화면 텍스트의 상호작용을 통해 비로소 완성됩니다.
스키마의 가변성 (Schema Variability): 기업 마다 주목하는 이벤트가 다르기 때문에, 도메인에 특화된 유연한 이벤트 정의가 필수적입니다.
신뢰할 수 있는 시간 기반 메타데이터 없이는 비디오를 쉽게 인덱싱하거나 쿼리할 수 없고, 데이터 파이프라인에 통합하기도 어렵기 때문에 자동화나 데이터 분석을 위한 비디오의 가치가 제한될 수밖에 없습니다.
기존의 비디오 처리 방식과 구조화된 데이터를 활용하는 방식의 효율성 차이는 아래 비교를 통해 직관적으로 확인할 수 있습니다.
다이어그램 1: 기존 워크플로우

다이어그램 2: Pegasus 1.5 워크플로우

개발자가 직접 이벤트 보캐블러리(Vocabulary of events)를 정의할 수 있게 함으로써, Pegasus 1.5는 시간적 추론의 부담을 사람에서 모델로 전환하고 확장 가능하며 일관성 있는 메타데이터 추출을 실현합니다.
미디어 및 엔터테인먼트 분야에서 편집 팀은 아카이빙, 추천, 수익화를 지원하기 위해 장편 콘텐츠를 서사 단위(장면, 주제, 캐릭터 등장 등)로 분할해야 합니다. Pegasus 1.5를 사용하면 편집 세그먼트에 대한 스키마를 정의하여 전체 카탈로그에서 구조화된 메타데이터를 자동으로 추출할 수 있습니다. 이를 통해 시맨틱 검색, 하이라이트 자동 생성, 효율적인 콘텐츠 재사용이 가능해집니다.
스포츠 분석 분야에서 비디오 내의 플레이를 식별하고 라벨링하는 작업은 수동 공수가 많이 들고 시간 다툼이 치열한 작업이며, 종종 도메인 전문가가 전체 경기 영상을 검토해야 합니다. Pegasus 1.5를 사용하면 골, 파울, 턴오버와 같은 플레이에 대한 스키마를 정의하고 정밀한 시간적 경계와 함께 각 인스턴스를 자동으로 탐지할 수 있습니다. 이는 실시간 하이라이트 생성 및 성과 분석을 가능하게 합니다.
스트리밍 플랫폼 회사들은 타겟 광고 및 콘텐츠 수익화를 구현하기 위해 브랜드 노출, 장면 전환, 맥락적 순간들을 포착해야 합니다. Pegasus 1.5를 사용하면 브랜드 가시성 또는 맥락적 트리거에 대한 스키마를 정의하여 막대한 라이브러리 전반에서 수익화 가능한 순간들을 자동으로 탐지할 수 있습니다.
3 - 기술적 토대: 시간 기반 메타데이터 정의
시간 기반 메타데이터 (TBM)는 비디오의 특정 시간 세그먼트와 연결된 구조화된 정보를 의미합니다. 각 세그먼트는 정밀한 시작 및 종료 타임스탬프로 정의되며, 사용자가 정의한 스키마를 따르는 메타데이터 필드로 보강됩니다.
일반적으로 TBM 출력 형식은 다음과 같이 표현할 수 있습니다.
Segment = { start_time: float, end_time: float, metadata: { key: value, ... } }
전체 분석 결과는 사용자가 정의한 각 시맨틱 스키마에 부합하며 서로 겹치지 않는(non-overlapping) 세그먼트 세트로 구성됩니다. 이러한 구조 덕분에 검색 인덱스, 분석 플랫폼 및 에이전트 기반 워크플로우 등 다양한 후속 시스템과 결정론적(deterministic) 방식으로 통합이 가능합니다.
Pegasus 1.5는 /analyze API를 통해 스키마 우선 상호작용 모델(Schema-first interaction model)을 도입했습니다. 개발자는 모델에 자유양식의 열린 질문을 던지는 대신, 다음과 같은 항목들을 명시하는 방식으로 세그먼트를 정의합니다.
무엇을 세그먼트로 간주할 것인가 (의미적 설명)
추출하고자 하는 메타데이터 필드가 무엇인가
선택적으로 적용할 제약 조건 (길이 제한 또는 맥락적 기준 등)
이러한 설계 방식은 실제 서비스 배포 환경에서 필수적인 일관성, 결정론적 동작, 그리고 유연한 시스템 통합을 보장합니다.

다음은 위의 농구 비디오에 대해 /analyze API를 호출하는 요청 예시입니다.
{ "model_name": "pegasus1.5", "analysis_mode": "time_based_metadata", "video": { "type": "url", "url": "https://example.com/video.mp4" }, "response_format": { "type": "segment_definitions", "segment_definitions": [ { "id": "non_gameplay_footage", "description": "Generate segments only when the content on screen IS NOT actual gameplay.", "fields": [ { "name": "description", "type": "string", "description": "A rich long description of the non-gameplay footage." } ] }, { "id": "scoring_plays", "description": "Segment any time a team scores points. The segment should be the entire scoring play.", "fields": [ { "name": "points_scored", "type": "string", "description": "How many points were scored during the play.", "enum": [ "2pt", "1pt", "3pt" ] }, { "name": "shot_type", "type": "string", "description": "The shot type from the scoring play.", "enum": [ "jump_start", "layup", "dunk", "foul_shot" ] }, { "name": "scoring_team", "type": "string", "description": "Name of the team that scored." } ] }, { "id": "camera_cut", "description": "Segment any time only when there is a hard cut in the camera. Otherwise continue the current segment.", "fields": [ { "name": "camera_angle", "type": "string", "description": "Angle of the current camera.", "enum": [ "high", "low", "medium" ] } ] } ] }, "temperature": 0, "min_segment_duration": 2 }
그리고 응답 결과의 구조 예시는 다음과 같습니다.
"result": { "generation_id": "5be1b8c6-7e92-43ce-b37d-ba1b53ed1ebe", "data": "{\"gameplay_footage\": [{\"start_time\": 0.0, \"end_time\": 11.0, \"metadata\": {\"description\": \"The video opens with a title card announcing Loyola's NCAA championship win, followed by a wide shot of the packed arena and a close-up of the 'NCAA Finals 1963' logo on the court.\"}}, {\"start_time\": 20.0, \"end_time\": 22.0, \"metadata\": {\"description\": \"A brief cutaway shot shows a woman in the stands smiling and clapping enthusiastically.\"}}, {\"start_time\": 29.0, \"end_time\": 31.0, \"metadata\": {\"description\": \"The camera focuses on the scoreboard, showing the score as 48-50 with 2:04 remaining in the second period.\"}}, {\"start_time\": 53.0, \"end_time\": 54.0, \"metadata\": {\"description\": \"A quick shot of spectators in the stands reacting to the game.\"}}, {\"start_time\": 56.0, \"end_time\": 58.0, \"metadata\": {\"description\": \"The camera captures two men in the stands celebrating with their arms raised.\"}}, {\"start_time\": 68.0, \"end_time\": 70.0, \"metadata\": {\"description\": \"The scoreboard is shown again, displaying a tied score of 54-54 with 5:00 remaining in the third period.\"}}, {\"start_time\": 76.0, \"end_time\": 78.0, \"metadata\": {\"description\": \"A shot of the crowd shows fans cheering and celebrating during the game.\"}}, {\"start_time\": 81.0, \"end_time\": 83.0, \"metadata\": {\"description\": \"Two cheerleaders are shown on the court, performing a routine.\"}}, {\"start_time\": 88.0, \"end_time\": 90.0, \"metadata\": {\"description\": \"A man in a suit is seen standing and clapping in the stands.\"}}, {\"start_time\": 109.0, \"end_time\": 118.0, \"metadata\": {\"description\": \"Following the final shot, the Loyola players and coaches rush onto the court to celebrate their championship victory.\"}}, {\"start_time\": 118.0, \"end_time\": 121.0, \"metadata\": {\"description\": \"The final scoreboard is displayed, showing Loyola's victory with a score of 60-58 as the time runs out.\"}}], \"scoring_plays\": [{\"start_time\": 12.0, \"end_time\": 20.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"layup\", \"scoring_team\": \"University of Cincinnati Bearcats\"}}, {\"start_time\": 23.0, \"end_time\": 28.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"jump_start\", \"scoring_team\": \"Loyola Ramblers\"}}, {\"start_time\": 46.0, \"end_time\": 52.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"layup\", \"scoring_team\": \"Loyola Ramblers\"}}, {\"start_time\": 60.0, \"end_time\": 68.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"layup\", \"scoring_team\": \"Loyola Ramblers\"}}, {\"start_time\": 71.0, \"end_time\": 76.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"jump_start\", \"scoring_team\": \"Loyola Ramblers\"}}, {\"start_time\": 79.0, \"end_time\": 83.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"jump_start\", \"scoring_team\": \"University of Cincinnati Bearcats\"}}, {\"start_time\": 102.0, \"end_time\": 110.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"layup\", \"scoring_team\": \"Loyola Ramblers\"}}], \"camera_cut\": [{\"start_time\": 0.0, \"end_time\": 3.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 3.0, \"end_time\": 10.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 10.0, \"end_time\": 11.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 11.0, \"end_time\": 20.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 20.0, \"end_time\": 22.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 22.0, \"end_time\": 28.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 28.0, \"end_time\": 31.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 31.0, \"end_time\": 38.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 38.0, \"end_time\": 45.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 45.0, \"end_time\": 53.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 53.0, \"end_time\": 54.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 54.0, \"end_time\": 56.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 56.0, \"end_time\": 58.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 58.0, \"end_time\": 68.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 68.0, \"end_time\": 70.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 70.0, \"end_time\": 76.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 76.0, \"end_time\": 78.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 78.0, \"end_time\": 81.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 81.0, \"end_time\": 83.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 83.0, \"end_time\": 88.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 88.0, \"end_time\": 90.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 90.0, \"end_time\": 108.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 108.0, \"end_time\": 118.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 118.0, \"end_time\": 121.0, \"metadata\": {\"camera_angle\": \"medium\"}}]}" "finish_reason": "stop", "usage": { "output_tokens": <number>
위 응답 구조의 'data' 파트에 대한 json.parse() 결과는 다음과 같습니다.
{ "gameplay_footage": [ {"start_time": 0.0, "end_time": 11.0, "metadata": {"description": "The video opens with a title card announcing Loyola's NCAA championship win, followed by a wide shot of the packed arena and a close-up of the 'NCAA Finals 1963' logo on the court."}}, {"start_time": 20.0, "end_time": 22.0, "metadata": {"description": "A brief cutaway shot shows a woman in the stands smiling and clapping enthusiastically."}}, {"start_time": 29.0, "end_time": 31.0, "metadata": {"description": "The camera focuses on the scoreboard, showing the score as 48-50 with 2:04 remaining in the second period."}}, {"start_time": 53.0, "end_time": 54.0, "metadata": {"description": "A quick shot of spectators in the stands reacting to the game."}}, {"start_time": 56.0, "end_time": 58.0, "metadata": {"description": "The camera captures two men in the stands celebrating with their arms raised."}}, {"start_time": 68.0, "end_time": 70.0, "metadata": {"description": "The scoreboard is shown again, displaying a tied score of 54-54 with 5:00 remaining in the third period."}}, {"start_time": 76.0, "end_time": 78.0, "metadata": {"description": "A shot of the crowd shows fans cheering and celebrating during the game."}}, {"start_time": 81.0, "end_time": 83.0, "metadata": {"description": "Two cheerleaders are shown on the court, performing a routine."}}, {"start_time": 88.0, "end_time": 90.0, "metadata": {"description": "A man in a suit is seen standing and clapping in the stands."}}, {"start_time": 109.0, "end_time": 118.0, "metadata": {"description": "Following the final shot, the Loyola players and coaches rush onto the court to celebrate their championship victory."}}, {"start_time": 118.0, "end_time": 121.0, "metadata": {"description": "The final scoreboard is displayed, showing Loyola's victory with a score of 60-58 as the time runs out."}} ], "scoring_plays": [ {"start_time": 12.0, "end_time": 20.0, "metadata": {"points_scored": "2pt", "shot_type": "layup", "scoring_team": "University of Cincinnati Bearcats"}}, {"start_time": 23.0, "end_time": 28.0, "metadata": {"points_scored": "2pt", "shot_type": "jump_start", "scoring_team": "Loyola Ramblers"}}, {"start_time": 46.0, "end_time": 52.0, "metadata": {"points_scored": "2pt", "shot_type": "layup", "scoring_team": "Loyola Ramblers"}}, {"start_time": 60.0, "end_time": 68.0, "metadata": {"points_scored": "2pt", "shot_type": "layup", "scoring_team": "Loyola Ramblers"}}, {"start_time": 71.0, "end_time": 76.0, "metadata": {"points_scored": "2pt", "shot_type": "jump_start", "scoring_team": "Loyola Ramblers"}}, {"start_time": 79.0, "end_time": 83.0, "metadata": {"points_scored": "2pt", "shot_type": "jump_start", "scoring_team": "University of Cincinnati Bearcats"}}, {"start_time": 102.0, "end_time": 110.0, "metadata": {"points_scored": "2pt", "shot_type": "layup", "scoring_team": "Loyola Ramblers"}} ], "camera_cut": [ {"start_time": 0.0, "end_time": 3.0, "metadata": {"camera_angle": "medium"}}, {"start_time": 3.0, "end_time": 10.0, "metadata": {"camera_angle": "high"}}, {"start_time": 10.0, "end_time": 11.0, "metadata": {"camera_angle": "medium"}}, {"start_time": 11.0, "end_time": 20.0, "metadata": {"camera_angle": "high"}}, {"start_time": 20.0, "end_time": 22.0, "metadata": {"camera_angle": "medium"}}, {"start_time": 22.0, "end_time": 28.0, "metadata": {"camera_angle": "high"}}, {"start_time": 28.0, "end_time": 31.0, "metadata": {"camera_angle": "medium"}}, {"start_time": 31.0, "end_time": 38.0, "metadata": {"camera_angle": "high"}}, {"start_time": 38.0, "end_time": 45.0, "metadata": {"camera_angle": "high"}}, {"start_time": 45.0, "end_time": 53.0, "metadata": {"camera_angle": "high"}}, {"start_time": 53.0, "end_time": 54.0, "metadata": {"camera_angle": "medium"}}, {"start_time": 54.0, "end_time": 56.0, "metadata": {"camera_angle": "high"}}, {"start_time": 56.0, "end_time": 58.0, "metadata": {"camera_angle": "medium"}}, {"start_time": 58.0, "end_time": 68.0, "metadata": {"camera_angle": "high"}}, {"start_time": 68.0, "end_time": 70.0, "metadata": {"camera_angle": "medium"}}, {"start_time": 70.0, "end_time": 76.0, "metadata": {"camera_angle": "high"}}, {"start_time": 76.0, "end_time": 78.0, "metadata": {"camera_angle": "medium"}}, {"start_time": 78.0, "end_time": 81.0, "metadata": {"camera_angle": "high"}}, {"start_time": 81.0, "end_time": 83.0, "metadata": {"camera_angle": "medium"}}, {"start_time": 83.0, "end_time": 88.0, "metadata": {"camera_angle": "high"}}, {"start_time": 88.0, "end_time": 90.0, "metadata": {"camera_angle": "medium"}}, {"start_time": 90.0, "end_time": 108.0, "metadata": {"camera_angle": "high"}}, {"start_time": 108.0, "end_time": 118.0, "metadata": {"camera_angle": "high"}}, {"start_time": 118.0, "end_time": 121.0, "metadata": {"camera_angle": "medium"}} ] }
우리는 다음 네 가지 원칙을 바탕으로 이 스키마를 설계했습니다.
정밀한 시간 설계 (Temporal Precision): 각 세그먼트가 명시적인 타임스탬프를 기준으로 설계되어, 후속 편집이나 분석 툴 등의 시스템과 프레임 단위의 정확한 결합이 가능합니다.
중복 없는 세그먼트 분할 (Non-Overlapping Segments): 동일 세그먼트 스키마 내 결과물들은 서로 중복되는 구간 없이 도출되므로, 비디오 타임라인에 대해 명확하고 일관된 정량적 해석이 가능합니다.
구조화된 형식을 갖춘 유연한 명명 체계 (Open Vocabulary with Structured Outputs): 개발자는 정해진 데이터 형식을 완벽하게 준수하면서도 비즈니스 도메인에 맞는 특화 어휘를 자유롭게 설정할 수 있어, 데이터베이스 및 에이전트 워크플로우에 매끄럽게 연결할 수 있습니다.
멀티모달 맥락 추론 (Multimodal Reasoning): 시각, 청각, 그리고 언어적 신호들의 복합적인 상호작용 속에서 세그먼트 경계와 메타데이터를 추론하기 때문에, 비디오가 가진 본질적인 풍부한 가치를 입체적으로 파악합니다.
4 - 시간 기반 메타데이터 평가 체계 구축하기

4.1 - 평가 데이터셋: 철저한 검증을 거쳐 밑바닥부터 자체 구축
시간 기반 메타데이터를 위한 서빙 모델과 평가 시스템을 구축하는 데 있어 가장 먼저 해결해야 할 문제는 완벽한 벤치마크 데이터가 시중에 존재하지 않는다는 점이었습니다.
학계에서 흔히 활용되는 기존 비디오 이해 벤치마크(예: Video-MME)는 우리의 지향점과는 완전히 다른 과제를 다룹니다. 그들은 대개 비디오 이해도를 인스턴트식 객관식 질의응답으로 축소하여 평가합니다. 비디오 클립과 질문을 확인한 뒤, 주어진 선택지 중 정답을 고르는 형태입니다. 이 포맷은 일반 비디오 추론 능력을 거칠게 측정하는 데는 유용할 수 있으나, 구조화된 실무용 시간 메타데이터를 정밀 출력하는 작업과는 거리가 멉니다. 시간 기반 메타데이터 추출에는 스키마 조건부 분할(schema-conditioned segmentation)이 동반되어야 합니다. 모델이 사용자가 전해준 이벤트 가이드라인에 따라 전체 비디오를 완벽히 쪼개고, 각 세그먼트가 언제 시작해서 언제 끝나는지 경계를 판단하고, 이에 해당하는 복합적인 메타데이터 구조를 한 번에 생성해내야 합니다. 하지만 다양한 비디오 도메인을 통틀어 이러한 정밀 세부 구간 분할 능력과 세그먼트별 구조화 메타데이터 생성을 결합해 평가할 수 있는 벤치마크는 없었습니다.
이에 우리는 직접 평가 데이터셋을 직접 구축했습니다. 이 데이터셋은 저마다 까다롭고 특별한 컷 분할 조건이 필요한 다채로운 카테고리의 콘텐츠들을 전방위로 포괄합니다.
뉴스 방송: 앵커 오프닝, 현장 보도 기사, 인터뷰 전환 등 명확한 인아웃 포인트 분리가 정밀하게 이루어져야 합니다.
영화 및 드라마: 서사와 영상 구도의 미묘한 진행 방향을 고려해 신(Scene) 수준의 분할과 고품질 시각 메타데이터가 필요합니다.
스포츠 경기: 세부 플레이, 득점 포인트, 경기 흐름 전환 등을 훨씬 조밀한 시간 단위로 정교하게 포착해야 합니다.
또한 각 도메인 전반에 걸쳐 실제 미디어 환경에서 마주할 법한 구체적인 세그먼트 인아웃 기준과 메타데이터 스키마를 정립했습니다. 이는 실제 글로벌 미디어 기업이나 스포츠 방송사가 현업에 도입할 법한 전문적인 기준입니다.
특히 데이터의 가치와 공정성을 지키기 위해, 주석 생성 작업을 단순히 일회성 단발식 과정으로 넘기지 않고 체계적인 다단계 휴먼 검증 절차를 고안하여 연계했습니다. 전체 프로세스는 크게 4단계로 구성됩니다.
프로젝트 온보딩: 주석 작업을 시작하기에 앞서, 모호할 수 있는 가이드라인과 구간 경계 선정 규칙을 아주 조밀하고 뚜렷하게 가다듬습니다.
세그먼트 정합 검수: 세부 경계 작성이 완료된 시점에서 메타데이터를 마구 써 내려가기 전에, 구간 구분의 밀도와 정확도만을 별도로 격리하여 먼저 통과시킵니다.
메타데이터 무결성 검수: 실제로 추출한 상세 메타데이터 항목들이 과연 비디오 내용과 한 치의 어긋남 없이 정합한지, 확장 적용하기에 훌륭한 수준인지 꼼꼼히 대조하고 다듬습니다.
최종 엔드투엔드 검증: 한 개의 완벽한 테스트 샘플이 평가셋에 정식 추가되기 직전, 구조와 의미 체계를 다시 한번 종합 검사합니다.
이 엄밀한 루프 안에서 검증 기준을 충족하지 못한 표본들은 가차 없이 교정되거나 이탈되었습니다. 이 과정에서 한 가지 중요한 교훈을 배웠습니다. 시간 기반 메타데이터를 처리하는 데 하나의 획일화된 통합 가이드라인이나 단순 협력 업체 아웃소싱 방식만을 적용하는 것은 무리라는 점입니다. 시각적인 단발성 샷 체인지와 종합적인 서사 전환 지점을 판단하는 일은 서로 다른 주석 가이드와 고유한 도메인 전문성, 독립된 QC 룰을 요구합니다. 우리는 난이도와 발생 빈도에 따라 업무 흐름을 다변화해 분배했습니다. 명시적으로 드러나는 구간 유형들은 다수의 주석 그룹을 활용해 빠르게 수량화하여 필터링했고, 서사의 미세한 반전이나 정체된 주제의 변경 같은 깊은 시맨틱 영역은 숙련된 내부 소수 전문가들이 정성껏 전담 검수하도록 지정했습니다.
그 결과, 평가의 지표로써 충분히 가치 있는 최고 수준의 정확도와 엄밀함을 갖춘 평가셋을 손에 쥐게 되었습니다.
4.2 - 평가 지표 엔지니어링: TBM 평가가 까다롭고 차별적인 이유
시간 기반 메타데이터의 성과를 판단하는 일은 문자열 처리 수준의 전통적인 자연어 처리(NLP)나 범용 이미지 분류 태스크의 성적표를 매기는 것과는 결이 완전히 다릅니다. 이 태스크의 목적지는 단순한 질문의 답이 아니기 때문입니다. 모델은 전체 타임라인에 걸쳐 조각조각 세분화된 구간 정보집(Set of temporal segments)을 내놓아야 하며, 각 구간집마다 명시적인 시작과 끝 지점을 보증하고 해당 영역의 구조화 메타데이터 필드 내용을 알차게 채워 넣어야 합니다. 이 때문에 지표 설계 시 두 갈래의 도전을 해결해야 합니다. '모델이 찾아낸 비디오 분할이 과연 기준 데이터(Ground Truth)의 분할과 잘 일치하는가(구간 분량의 품질)' 그리고 '그렇게 맞물린 구간 단위 속에 담긴 세부 설명들은 실질적으로 정확한가(메타데이터의 품질)'입니다.
기존 지표들의 한계
저희가 초기에 고안한 세그먼트용 기초 공식은 시간 점유율(Temporal coverage)이었습니다. 즉, 정식 기준 데이터의 세그먼트 기간 중 실제 모델이 탐지한 전체 면적이 대략 몇 퍼센트를 커버하는지 계산하는 단순 리콜(Recall) 중심 지표였습니다. 하지만 이 무지하고 직관적인 비율 기준에는 거대한 설계상 허점이 숨어 있었습니다. 모델이 머리를 써서 촘촘하게 비디오 내용을 나눌 필요도 없이, 전체 비디오 길이 만큼 거대하게 단 하나의 정답 세그먼트만을 처음부터 끝까지 무식하게 뿜어내도 점유율은 백퍼센트를 달성하게 됩니다. 더 나아가 자디잔 파편 형태의 수많은 초미세 조각들을 정신없이 뱉어내도, 합산 면적은 그럴듯하게 잡힐 수 있습니다. 즉, 점유율은 정답과 비슷한 타이밍을 밟았는지는 거칠게 알려줄 뿐, 실속 있는 구조로 비디오를 나누고 있는지는 보장해주지 못했습니다.
Temporal F1 도입
이 점을 수정하기 위해 평가 산식에 정밀도(Precision) 관점을 조화롭게 도입했습니다. G = {g_1, ..., g_m}를 기준 메타데이터 세그먼트 집합으로 두고, P = {p_1, ..., p_n}를 예측 데이터 세그먼트 집합으로 정의해 봅시다. 이때 각 세그먼트 영역은 고유 길이를 명시하는 시간대 속성 |s| 값을 갖게 됩니다. U(.) 연산은 각 묶음 범위의 전체 합집합 범위를, |.| 연산은 결합한 총 구간 시간 길이를 뜻합니다.
다대다(N:N) 관계의 수학적 접근 방식 하에서는, 세그먼트 각각의 독립성은 잠시 걷어내고 타임라인 축 전체가 일치하는 정도를 직접 중첩 비교하여 점수를 측정하게 됩니다.

이 방식은 불필요한 과잉 분할(낮은 정밀도)뿐만 아니라, 통째로 건너뛴 유실 상태(낮은 리콜) 양측에 고른 패널티를 줍니다. 결과적으로 시간 평면상 비중 가중치를 적용해 보다 현실성 있게 다듬어진 지표가 탄생했습니다.

하지만 여기에도 여전히 허점이 있습니다. 이 Temporal F1은 세 조각 다섯 조각으로 엉성하게 부스러진 상태로 정답 영역을 에워싸더라도, 누적 면적이 잘 맞아떨어지면 개별 경계선을 대조해 검증하지 않다 보니 단 한 개의 깔끔한 구간으로 맞힌 예측 모델과 똑같은 고득점을 획득하게 됩니다.
이런 미망을 다잡고 세그먼트 단위의 경계 일치도를 확실하게 짚어내기 위해 도입한 것이 바로 Segment F1입니다. 매칭 조합의 총 의사결정 이득(IoU)을 완벽히 높일 수 있는 1대1 매핑 최적화 알고리즘(헝가리안 알고리즘) M*를 도입하여 계산합니다. 각 관계망 중 엄밀히 1대1 구도로 명확히 짝을 지은 소수 정예 세그먼트들만 분자 값 계산식에 참전합니다.

짝꿍을 찾지 못한 돌발 예측 구간들은 정밀도를 갉아먹는 오차(False Positive)로 분류되고, 정답 구간임에도 매칭을 완성치 못한 항목들은 리콜을 좀먹는 낙오 정보(False Negative)로 전락하게 됩니다.
이렇게 연동된 Temporal F1과 Segment F1 듀오는 상호 보완적인 관점에서 한 모델의 부족한 틈새를 사정없이 쥐어짜 줍니다. Temporal F1은 경계의 수많은 쪼개짐에는 한없이 너그럽지만 토탈 점유 시간의 어설픈 구멍을 무섭게 잡아내고, Segment F1은 반대로 정답 시간대 내에 있더라도 경계 축이 칼같이 들어맞지 않으면 셈하지 않습니다. 우리는 이 두 시그널 모두를 가식 없이 투명하게 공개하여 우리 비디오 분할 모델의 현실적인 역량 그래프를 완성했습니다.
메타데이터 질적 가치 평가
비디오 분하 지표들이 정확한 경계의 검수를 성실히 조율한다면, 메타데이터 품질 평가는 그 바운더리 내부에 채워진 영양가 높은 지식의 실체를 정복하는 일입니다. 메타데이터에 등록된 문장 요약, 다채로운 카테고리 태그 묶음, 등장 인물 이름 정보 등은 자연스러운 고차원의 개방 어휘 형태를 취하기 때문에, 기존의 고지식한 룰 베이스 형태의 텍스트 일치율 체크로는 가치 수렴을 도저히 도출하기 어렵습니다.
이에 대한 돌파구로 우리는 강력한 선도 모델을 중재자로 삼는 LLM-as-judge 설계를 조율해 얹었습니다. 매칭이 성사된 각 세그먼트 짝꿍을 정밀 대조판에 올리고, 언어 모델 판관이 사려 깊은 루브릭 평가표를 차례대로 추적하게 함으로써 각 속성별 정확성을 냉정히 가늠하게 했습니다. 화면 설명, 트랜스크립트, 키워드, 카테고리 태그, 상황 설명 등 다양한 속성에 맞춰 각기 구체적이고 체계화된 평정 기준을 정립했습니다. 예측 구간과 정답 구간의 폭이 실질적으로 어긋나 있을 때는 판결과 교정이 현명하게 연동됩니다. 즉, 메타데이터 결과에 생긴 틈새가 순수 논리 도출 실패 탓인지 아니면 구조적 영역 미스에 의한 반사 작용인지 종합 판단하며 점수를 올곧게 정량화하고 가중치를 연계해 산출합니다.
4.3 - 지표 최적화를 위한 보상 연계 강화 학습 (RLVR): 학습과 테스트의 완벽한 득점 동치 달성
저희가 개발해낸 상기 지표 시스템은 단순히 출시 후 성능 평가용 장식품이 아니라, 연구실 모델 학습 사이클을 굴리는 고속 엔진 보상 장치로 완전히 일체화되었습니다. Pegasus 1.5는 검증 가능한 보상 기반 강화 학습(RLVR, Reinforcement Learning with Verifiable Rewards)을 활용하여 비약적인 도약을 이룩했습니다. 시계열 메타데이터 추출 태스크와 검증 가능한 하방 보상 체계는 기묘할 정도로 환상적인 시너지를 보입니다.
TBM 영역이 어째서 RLVR 구조에 특화되었는가
동적 검증형 보상 장치(RLVR)를 안정적으로 운용하려면, 사람의 주관적인 정성 평가나 눈길에 매달릴 필요 없이 오직 논리적인 프로그램 연산만으로 예측 구간물의 영양가와 완벽성을 기하학적으로 가려낼 수 있는 수치 환경이 완성되어야 합니다. TBM은 이에 걸맞게 두 갈래 조건 모두를 무리 없이 만족합니다. 첫 번째로, 구조 규칙성 자체가 명확히 입증 가능(Verifiable)합니다. 데이터 출력물이 깔끔한 JSON인지, 사전에 약속한 변수 컬럼 양식을 제대로 준수했는지, 시간 구간들 사이에 꼴사납게 엉망진창 겹치는 혼조가 발생하진 않았는지를 사소한 한 프레임 스케일 수준에서 완전히 수학적 계산기(deterministic check)로 추려낼 수 있습니다. 두 번째로는, 분리 완성도 또한 계산적으로 밝혀낼 수 있습니다. 정답 가이드 영역들과 Temporal F1, Segment F1 합성 알고리즘이 미리 동기화되어 있다면, 경계선의 완성도를 완전 자동화 시스템이 소수점 아래 단위로 냉정하게 정답 리워드로 연결하게 할 수 있습니다. 이렇듯 테스크 전체 구조가 연산 검증이 쉬운 토양 위에 세워진 덕분에 Pegasus 1.5는 RLVR의 효과를 완벽하게 누릴 수 있었습니다.
보상 시스템의 구조 설계
강화 학습의 핵심이 되는 최종 점수 시그널은 세밀하게 제안된 다면적 에너지 분포로 정해집니다. 포맷 컴플라이언스(Format validity) 검사, 즉 적형의 JSON 데이터 규칙 준밀 준수 여부는 점수 산식 내에서 매우 엄격하고 독립적인 전제 조건 성격의 가중치로 다뤄집니다. 아무리 환상적으로 미디어를 쪼갰을지언정 아웃풋 형식이 구문 해석 에러(Parse error)를 일으킨다면, 한 자릿수 혜택도 없이 즉시 0점 보수 처리를 받게 됩니다. 이를 통해 추론 성능과 구조 규칙성을 교환하는 꼼수를 철저히 차단합니다. 세부 세그먼트 생성 평가 보상 영역에서는 4.2 단계에서 기술한 F1 듀오 시그널이 영양제 역할을 맡으며, 내부 메타데이터 추출 보상 부문에서는 AI 심판관이 검사한 점수가 연산되어 모델을 벼려냅니다.
보상 해킹 장벽의 극복과 설계 고도화
이 강화 학습 설계 과정에서 개발진을 가장 놀라게 했던 교훈 중 하나는, 모델이 우리의 지표적 취약점을 상상 이상으로 거칠고 똑똑하게 '보상 해킹(Reward hacking)' 해내는 모습을 직접 발견했을 때의 충격이었습니다. 초창기처럼 리콜 비율이 편향된 단순 누적 비중 보상(temporal coverage) 체계를 성급하게 얹고 질주를 시도했을 때, 모델은 가이드라인의 맥락을 살리기보다는 기하학적인 고득점 꼼수를 금방 눈치챘습니다. 비디오 전체를 가뿐히 덮는 뚱뚱한 구간 한 개를 능글맞게 제시하거나, 수백 개의 짤막한 벌집 피자 형태 구간들을 미디어를 향해 발사해 합산 면적을 올리는 전략을 취한 것입니다. 결과 점수는 놀라운 속도로 천장을 뚫었지만, 실제 인간이 보기에 완전히 조각나 버린 쓰레기 같은 산출물을 배설할 뿐이었습니다.
이는 고전적인 보상 해킹의 완벽한 예시였으며, 저희로 하여금 학습 지표 자체를 더 엄격하게 개선하도록 만들었습니다. 커버리지 위주의 단순 계산법에서 탈피해 정밀도를 가미한 Temporal F1을 세우고, 이를 최종적으로 헝가리안 매칭 기반의 Segment F1과 입체적으로 가교해 결합하는 등 끈질긴 지표 고도화를 수동 루프로 거쳤습니다. 이로써 강화 학습은 단지 인공지능이 영리해지는 보일러 역할뿐만 아니라, 우리가 수년 동안 준비해 온 테스팅 채점 규칙의 구멍까지 역설적으로 사정없이 찔러주는 단련기의 역할을 훌륭히 완수해 내었습니다.
기형적 꼼수 차단 장갑 강화
F1 패러다임을 뿌리 깊게 박아넣은 현대적인 지표 설계는 결국 가장 흔히 발견되는 거대한 구멍 두 갈래를 완벽하게 잠가버립니다. 불필요하게 찢는 고질병인 벌집 피자 양상(정밀도 패널티로 사살)과 게으르게 통째로 게워내는 슬라임 형태(재현율 하락으로 통제) 모두가 고통받고 도태되는 보상 지도가 형성된 것입니다. 또한, 기초 구조 규격을 가르는 형식 게이트가 험악하게 앞길을 가라막고 있어, 지표의 사각지대를 공략하는 꼼수 대신 오직 '진짜 비디오 세부 연산 실력을 늘리는 정석 방식' 만이 생존의 유일한 출로가 되도록 인공지능의 길을 닦았습니다.
그 덕분에 실제 운영에 올라가 검증하는 지표의 수학 공식과, 인큐베이터 안에서 모델을 쪼아대며 담금질하는 훈련 도구의 영양 균형이 100% 한 몸이 되는 기적의 트레이닝 루프가 정비되었습니다.
5 - TwelveLabs 플레이그라운드에서 만나는 Pegasus 1.5

연구실에서 아무리 화려한 장표를 뽐낸다 한들 실제 현업의 고단한 워크플로우에 결합하지 못한다면 빛을 보지 못하는 법입니다. Pegasus 1.5의 세계에서는 단순 클립 하나를 던져두고 기도를 가득 담은 임시 처우식 질문을 겨우 한 줄 적으며 간지러운 답변에 절절맬 필요가 완전히 없어집니다. 데이터의 가이드라인과 템플릿 필드를 정의해 얹은 뒤 단 한 번만 TBM 분석 호출구를 울려두면, 귀하의 후속 인메모리 프로세스나 분석 DB 시스템이 즉각 인식하고 소화할 수 있는 깨끗한 타임스탬프 JSON 팩이 당신의 프런트엔드 테이블에 내려앉습니다. 수작업 스태프의 장시간 노고나 누더기처럼 기워둔 맞춤형 인제스천(Ingestion) 아르바이트 로직 없이, 오직 비디오를 선택하고 스키마를 던져넣은 뒤 산출되는 JSON 결과지를 시선으로 가볍게 확인하며 원시 미디어 파일을 즉석 결산 데이터로 고속 업그레이드하기만 하면 됩니다.
상단 데모의 귀여운 농구 비디오 경기가 이 혁신의 쓸모를 그대로 대변합니다. Pegasus 1.5는 단 한 차례의 워크플로우 회전만으로도 실제 박진감 넘치는 본선 게임 영상과 부차적인 대기 구도, 관람석 풍경 등을 스마트하게 단번에 칼바람처럼 분리해 냅니다. 각 세그먼트에는 사용자가 요청한 상세 정량 스키마 정보가 완벽한 필드로 장식되어 있습니다. 이 덕분에 아웃풋을 미디어 아카이빙 솔루션이나 자동 하이라이트 생성, 데이터 마이닝 파이프라인에 그대로 직통 송출해도 아무 막힘이 없습니다. 이 기술은 인간의 개입을 배제하지 않습니다. 사람의 '임무 성격'을 바꿀 뿐입니다. 골치 아프고 지루한 수동 검수 대신, 기계가 95% 완성한 고품질 데이터의 지점을 한눈에 확인하고 보다 가치 있는 고차원 창작 의사결정에 에너지를 집중하는 것입니다. 이것이야말로 Pegasus 1.5가 개발자들에게 열어젖힌 가장 현실적이고 영리한 패러다임 전환입니다. 비디오를 당신의 전산 원장에 매끄럽게 흐르도록 만드는 실제적인 연산 입력값으로 승격시키는 일 말입니다.
6 - 성능 비교 결과: 프로덕션 환경에서 이것이 결정적인 차이를 만드는 이유
플레이그라운드가 제공하는 혁신적인 사용자 경험 뒤에는 압도적이고 객관적인 정량 지표 성능이 든든하게 뒷받침되어 있습니다. 치열하게 수행된 비교 평가에서 Pegasus 1.5는 미디어 현업에서 가장 눈여겨보는 핵심 역량인 경계 탐지 품질(Segmentation quality)과 멀티모달 지시 준수 품질(Multimodal prompting quality) 양측 모두에서 Google의 최신 Gemini 1.5 Pro를 여유롭게 따돌렸습니다. 하단의 벤치마크 데이터를 살펴보면, Pegasus 1.5는 종합 세그먼트 생성 평가에서 점수 0.4279 대 0.3370으로 가볍게 선두에 섰으며, 텍스트와 이미지 가이드라인이 어우러진 멀티모달 프롬프트 지시 준수 세세 평가에서도 무려 0.4555 대 0.3243이라는 독보적인 격차를 벌렸습니다. 이는 경계를 식별하는 안목과 복잡하게 얽힌 다면 요청에 따라 정보를 누수 없이 정렬하는 추출 신뢰도가 한 차원 높음을 실증합니다.

이 격차는 실제 산업 현장 기준의 롱콘텍스트(Long-context) 처리 영역에서 더 웅장하게 발휘됩니다. Pegasus 1.5는 단 한 차례의 요청 큐만으로 최대 2시간짜리 비디오를 통째로 정해진 스키마 사양대로 고속 분해해 냅니다. 스포츠 풀타임 중계 중인 녹화본을 비롯해 꼼꼼한 마라톤 인터뷰 녹취, 그리고 영화 한 편 전체 분량을 가리지 않는 실습 친화적이고 탁월한 내구력입니다.

이 완벽한 증명들은 이 글의 핵심적인 외침을 관통합니다. Pegasus 1.5는 흔하디흔한 비디오 챗봇이나 일반적인 질의응답 화면에 입힌 소소한 화장 스킨 따위가 아닙니다. 이 모델은 시간적 구조 분석에 완벽히 길들여진 정예 스페셜리스트 머신입니다. 사건들이 어디서 태어나 어떤 흐름을 지나 작별 지점을 맞이하는지 영리하게 인지하며, 멀티모달 프롬프트의 난해한 미션을 흔들림 없이 처리하고, 실제 미디어 업계 전문가들이 매일 마주하는 무겁고 드넓은 장편 비디오를 한 치의 망설임 없이 소화해 내기 때문입니다.
7 - 결론
대다수의 비즈니스 전선에서 비디오는 여전히 야생의 어두운 비구조화 미디어로 머물러 왔습니다. 보물 같은 정보와 광맥이 가득 숨겨져 있지만, 소프트웨어 로직과 기계가 안전하게 갉아 먹거나 전산 시스템으로 자동 통제하기엔 너무나 무서운 난공불락의 영토였기 때문입니다. Pegasus 1.5가 가져온 혁신은 단순한 버전 소수점 패치가 아닙니다. 기계와의 거래 단위를 어설픈 낱장 답변에서 규격화되고 완벽히 동기화된 구조적 시간 메타데이터 데이터 세트로 완전히 격상시켜 버렸기 때문입니다. 인공지능 모델이 스스로 사건의 앞뒤 마디를 구별하고 끈질기게 가치 있는 지식의 칼라칩을 생성해 내는 수준에 편입된다면, 비디오는 더 이상 구경을 위해 눈을 고정해야 하는 원시적 '시청 영상'이 아니라 시스템이 직접 알고리즘을 굴려 가치를 창출할 수 있는 똑똑한 '클라우드 파일'이 됩니다.
이 장려한 정복을 달성하기 위해 우리는 문제의 첫 단추부터 다시 생각했습니다. 시간의 완성도를 어떻게 정량화하고 가둘 것인지, 파이프라인의 기쁨이 되는 평가지 데이터는 어떻게 냉정하게 확보할 것인지, 어떻게 학습의 리워드를 보장 구조와 완전 결합할 것인지 같은 수많은 철학들을 완전히 헐어내서 다시 쌓은 결과물입니다. 그 노력 덕분에 이 모델은 그저 소소한 사내 데모룸에서 잠깐 반짝하고 꺼지는 장난감이 아니라, 글로벌 비즈니스 프로덕션 데이터 라인에 즉시 나사로 단단히 조여 들어갈 수 있는 믿음직한 기어 장치로 완성되었습니다.
메시지는 아주 단순하고 선명합니다. 귀하가 수립하고 있는 모든 기술적 워크플로우(지식 검색, 트래픽 통계, 규제 및 심사, 에이전트 자동화 등)가 비디오와 인프라의 마주침 속에서 숨 쉬고 있다면, 비디오를 쪼개고 라벨러에게 아쉬운 소리를 하며 수동 주석 공정을 어렵게 조립하는 시대는 끝났습니다. 원하는 분석 스키마 양식을 단 한 번만 정의해 두면, 당신은 그저 시스템 뒤편에서 인공지능이 막대한 라이브러리를 고속 청동 압착기로 균일하게 찍어 누르는 모습을 바라보기만 하면 됩니다. 비디오는 비로소 정교하고 계산 가능한 우리의 '전산 원장'의 일부로 편입되었습니다.
직접 경험해 보세요
지금 바로 전용 TwelveLabs 플레이그라운드를 방문해 Pegasus 1.5의 저력을 눈으로 직접 확인해 보시거나, 혹은 비동기(Asynchronous) 분석 데이터 엔드포인트를 사용해 현재 배포 중인 애플리케이션에 API 코드를 다이렉트로 심어 보세요. 개발이 처음이시라면 친절하게 구성된 비디오 세그먼트 가이드 문서를 확인하시면 좋습니다. 사용 가능한 세부 시스템 변수들과 정식 파라미터 값들에 흥미가 돋는다면, API 레퍼런스 페이지 내 비동기 태스크 생성 명세를 읽어 보세요.
우선 영상 하나를 고른 뒤, 원하는 스키마 구조를 가뿐하게 구성해 호출해 보세요. 백 번의 세미나를 듣는 것보다, 여러분의 실전 비디오 파일 하나가 이 모델을 통과한 뒤 뿜어내는 정밀한 JSON의 감동을 직접 마주하는 편이 백배는 더 빠를 것입니다.
TwelveLabs 팀 임직원 명단
Pegasus 1.5는 산하의 기술 functional 그룹 전반의 정공법적인 전방위 융합 프로젝트로 마침내 완수되었습니다.
사이언스 파트: 김기안, 최삼, 남리아, 오헨리, 변딜런
ML 엔지니어링 파트: 에스제이, 이케빈, 정웨이드
데이터 가치 엔지니어링 파트: 조엘튼, 김헤일리, 강케일림, 정희예원
제품 기획 PM 파트: 홍섀넌

1 - 클립 기반 답변에서 구조화된 비디오 인텔리전스로의 진화
비디오는 정보의 가장 풍부한 형태 중 하나이지만, 소프트웨어 시스템이 접근하기에는 여전히 가장 까다로운 대상 중 하나입니다. 텍스트나 이미지와 달리, 비디오의 의미는 단일 순간에 담겨 있지 않습니다. 시간의 흐름에 따른 연속성, 멀티모달 상호작용, 그리도 인과 관계를 통해 비디오의 의미가 비로소 드러납니다. 스포츠 경기의 한 플레이는 수초에 걸쳐 전개되고, 영화의 서사적 흐름은 수 분 동안 이어지며, 브랜드 로고의 등장은 시각적으로는 미묘할 수 있지만 맥락상 결정적인 역할을 하기도 합니다. 대규모로 비디오를 운용하고 분석하려면, 시스템은 무엇이 일어나는지뿐만 아니라 그것이 언제 일어나는지까지 추론할 수 있어야 합니다.
이 단계에서 바로 시간 기반 메타데이터(Time-based metadata)가 핵심적인 역할을 합니다. 시간 기반 메타데이터는 가공되지 않은 원시 비디오를 타임스탬프가 지정된 구조화된 데이터로 변환하여, 개발자가 비디오를 쿼리 및 연산이 가능한 자산으로 다룰 수 있게 해줍니다. 이로써 기업들은 수동으로 영상을 일일이 검토하거나 불안정한 규칙 기반 휴리스틱에 의존하는 대신, 편집 세그먼트, 스포츠 플레이, 화자 전환, 브랜드 등장 등 비즈니스에 유의미한 이벤트를 정의하고 전체 비디오 라이브러리에서 이를 자동으로 추출할 수 있게 됩니다.

Pegasus의 이전 버전들은 이와는 다른 종류의 문제를 다루었습니다. Pegasus 1.2는 비디오 질의응답(QA) 시스템으로 설계되었습니다. 사용자가 비디오 클립을 제공하고 질문을 던지면, 모델이 그에 대한 답변이나 요약을 반환하는 방식이었습니다. 이러한 패러다임은 단답형 질문이나 특정 지점의 국소적 이해에는 잘 작동합니다. 하지만 실제 운영 환경에서는 한 가지 근본적인 한계가 존재합니다. 바로 사용자가 '어디를 찾아보아야 할지' 이미 알고 있어야 한다는 점입니다. 미디어 아카이브, 라이브 스포츠, 스트리밍 카탈로그와 같은 대규모 환경에서는 이러한 전제가 성립하기 어렵습니다.
그 결과, Pegasus 1.2는 전체 비디오에 대한 체계적인 세그먼트 분할 및 일관된 메타데이터 추출이 필수적인 워크플로우를 온전히 지원하기에는 어려움이 있었습니다. 모델 기반의 경계 탐지(boundary detection) 기능이 기본적으로 탑재되지 않았기 때문에, 사용자는 시간적 관심 영역을 정의하기 위해 여전히 수동 주석 작업이나 휴리스틱 전처리에 의존해야 했습니다.
Pegasus 1.5는 이러한 한계를 극복하기 위한 근본적인 패러다임 변화를 보여줍니다. 이 모델은 사전에 정의된 클립에 대한 질문에 단순히 답하는 것을 넘어, 사용자가 정의한 스키마에 따라 전체 비디오를 분할하고 각 세그먼트에 구조화된 메타데이터를 부여합니다. 이러한 전환을 통해 비디오 이해는 단순한 검색(Retrieval) 문제를 넘어, 비디오가 분석, 자동화, 에이전트 시스템을 위한 일급 입력값(First-class input)으로 기능하는 데이터 생성 파이프라인으로 진화합니다.
2 - 구조화되지 않은 비디오가 초래하는 기회비용
비디오 콘텐츠의 폭발적인 증가에도 불구하고, 대부분의 기업들은 비디오를 구조화되지 않은 일반 미디어로 관리하고 있습니다. 기존 방식은 수동 로그 작성, 키워드 태깅 또는 단순한 샷 탐지(Shot-detection) 알고리즘에 의존해 왔습니다. 그러나 이러한 방식으로는 후속 의사결정에 필수적인 의미적, 시간적 복잡성을 포착하기 어렵습니다.
시스템 아키텍처 관점에서 비디오가 지닌 세 가지 속성으로 인해 이러한 문제가 증폭됩니다.
시간적 모호성 (Temporal Ambiguity): 비디오 속 이벤트는 명시적인 경계를 가고 있지 않습니다. 한 뉴스 보도가 어디서 시작되고 특정 스포츠 플레이가 어디서 끝나는지 판단하려면 여러 모달리티를 아우르는 맥락적 추론이 필요합니다.
멀티모달 의존성 (Multimodal Dependence): 비디오의 의미는 시각적 단서, 음성, 오디오 신호, 그리고 화면 텍스트의 상호작용을 통해 비로소 완성됩니다.
스키마의 가변성 (Schema Variability): 기업 마다 주목하는 이벤트가 다르기 때문에, 도메인에 특화된 유연한 이벤트 정의가 필수적입니다.
신뢰할 수 있는 시간 기반 메타데이터 없이는 비디오를 쉽게 인덱싱하거나 쿼리할 수 없고, 데이터 파이프라인에 통합하기도 어렵기 때문에 자동화나 데이터 분석을 위한 비디오의 가치가 제한될 수밖에 없습니다.
기존의 비디오 처리 방식과 구조화된 데이터를 활용하는 방식의 효율성 차이는 아래 비교를 통해 직관적으로 확인할 수 있습니다.
다이어그램 1: 기존 워크플로우

다이어그램 2: Pegasus 1.5 워크플로우

개발자가 직접 이벤트 보캐블러리(Vocabulary of events)를 정의할 수 있게 함으로써, Pegasus 1.5는 시간적 추론의 부담을 사람에서 모델로 전환하고 확장 가능하며 일관성 있는 메타데이터 추출을 실현합니다.
미디어 및 엔터테인먼트 분야에서 편집 팀은 아카이빙, 추천, 수익화를 지원하기 위해 장편 콘텐츠를 서사 단위(장면, 주제, 캐릭터 등장 등)로 분할해야 합니다. Pegasus 1.5를 사용하면 편집 세그먼트에 대한 스키마를 정의하여 전체 카탈로그에서 구조화된 메타데이터를 자동으로 추출할 수 있습니다. 이를 통해 시맨틱 검색, 하이라이트 자동 생성, 효율적인 콘텐츠 재사용이 가능해집니다.
스포츠 분석 분야에서 비디오 내의 플레이를 식별하고 라벨링하는 작업은 수동 공수가 많이 들고 시간 다툼이 치열한 작업이며, 종종 도메인 전문가가 전체 경기 영상을 검토해야 합니다. Pegasus 1.5를 사용하면 골, 파울, 턴오버와 같은 플레이에 대한 스키마를 정의하고 정밀한 시간적 경계와 함께 각 인스턴스를 자동으로 탐지할 수 있습니다. 이는 실시간 하이라이트 생성 및 성과 분석을 가능하게 합니다.
스트리밍 플랫폼 회사들은 타겟 광고 및 콘텐츠 수익화를 구현하기 위해 브랜드 노출, 장면 전환, 맥락적 순간들을 포착해야 합니다. Pegasus 1.5를 사용하면 브랜드 가시성 또는 맥락적 트리거에 대한 스키마를 정의하여 막대한 라이브러리 전반에서 수익화 가능한 순간들을 자동으로 탐지할 수 있습니다.
3 - 기술적 토대: 시간 기반 메타데이터 정의
시간 기반 메타데이터 (TBM)는 비디오의 특정 시간 세그먼트와 연결된 구조화된 정보를 의미합니다. 각 세그먼트는 정밀한 시작 및 종료 타임스탬프로 정의되며, 사용자가 정의한 스키마를 따르는 메타데이터 필드로 보강됩니다.
일반적으로 TBM 출력 형식은 다음과 같이 표현할 수 있습니다.
Segment = { start_time: float, end_time: float, metadata: { key: value, ... } }
전체 분석 결과는 사용자가 정의한 각 시맨틱 스키마에 부합하며 서로 겹치지 않는(non-overlapping) 세그먼트 세트로 구성됩니다. 이러한 구조 덕분에 검색 인덱스, 분석 플랫폼 및 에이전트 기반 워크플로우 등 다양한 후속 시스템과 결정론적(deterministic) 방식으로 통합이 가능합니다.
Pegasus 1.5는 /analyze API를 통해 스키마 우선 상호작용 모델(Schema-first interaction model)을 도입했습니다. 개발자는 모델에 자유양식의 열린 질문을 던지는 대신, 다음과 같은 항목들을 명시하는 방식으로 세그먼트를 정의합니다.
무엇을 세그먼트로 간주할 것인가 (의미적 설명)
추출하고자 하는 메타데이터 필드가 무엇인가
선택적으로 적용할 제약 조건 (길이 제한 또는 맥락적 기준 등)
이러한 설계 방식은 실제 서비스 배포 환경에서 필수적인 일관성, 결정론적 동작, 그리고 유연한 시스템 통합을 보장합니다.

다음은 위의 농구 비디오에 대해 /analyze API를 호출하는 요청 예시입니다.
{ "model_name": "pegasus1.5", "analysis_mode": "time_based_metadata", "video": { "type": "url", "url": "https://example.com/video.mp4" }, "response_format": { "type": "segment_definitions", "segment_definitions": [ { "id": "non_gameplay_footage", "description": "Generate segments only when the content on screen IS NOT actual gameplay.", "fields": [ { "name": "description", "type": "string", "description": "A rich long description of the non-gameplay footage." } ] }, { "id": "scoring_plays", "description": "Segment any time a team scores points. The segment should be the entire scoring play.", "fields": [ { "name": "points_scored", "type": "string", "description": "How many points were scored during the play.", "enum": [ "2pt", "1pt", "3pt" ] }, { "name": "shot_type", "type": "string", "description": "The shot type from the scoring play.", "enum": [ "jump_start", "layup", "dunk", "foul_shot" ] }, { "name": "scoring_team", "type": "string", "description": "Name of the team that scored." } ] }, { "id": "camera_cut", "description": "Segment any time only when there is a hard cut in the camera. Otherwise continue the current segment.", "fields": [ { "name": "camera_angle", "type": "string", "description": "Angle of the current camera.", "enum": [ "high", "low", "medium" ] } ] } ] }, "temperature": 0, "min_segment_duration": 2 }
그리고 응답 결과의 구조 예시는 다음과 같습니다.
"result": { "generation_id": "5be1b8c6-7e92-43ce-b37d-ba1b53ed1ebe", "data": "{\"gameplay_footage\": [{\"start_time\": 0.0, \"end_time\": 11.0, \"metadata\": {\"description\": \"The video opens with a title card announcing Loyola's NCAA championship win, followed by a wide shot of the packed arena and a close-up of the 'NCAA Finals 1963' logo on the court.\"}}, {\"start_time\": 20.0, \"end_time\": 22.0, \"metadata\": {\"description\": \"A brief cutaway shot shows a woman in the stands smiling and clapping enthusiastically.\"}}, {\"start_time\": 29.0, \"end_time\": 31.0, \"metadata\": {\"description\": \"The camera focuses on the scoreboard, showing the score as 48-50 with 2:04 remaining in the second period.\"}}, {\"start_time\": 53.0, \"end_time\": 54.0, \"metadata\": {\"description\": \"A quick shot of spectators in the stands reacting to the game.\"}}, {\"start_time\": 56.0, \"end_time\": 58.0, \"metadata\": {\"description\": \"The camera captures two men in the stands celebrating with their arms raised.\"}}, {\"start_time\": 68.0, \"end_time\": 70.0, \"metadata\": {\"description\": \"The scoreboard is shown again, displaying a tied score of 54-54 with 5:00 remaining in the third period.\"}}, {\"start_time\": 76.0, \"end_time\": 78.0, \"metadata\": {\"description\": \"A shot of the crowd shows fans cheering and celebrating during the game.\"}}, {\"start_time\": 81.0, \"end_time\": 83.0, \"metadata\": {\"description\": \"Two cheerleaders are shown on the court, performing a routine.\"}}, {\"start_time\": 88.0, \"end_time\": 90.0, \"metadata\": {\"description\": \"A man in a suit is seen standing and clapping in the stands.\"}}, {\"start_time\": 109.0, \"end_time\": 118.0, \"metadata\": {\"description\": \"Following the final shot, the Loyola players and coaches rush onto the court to celebrate their championship victory.\"}}, {\"start_time\": 118.0, \"end_time\": 121.0, \"metadata\": {\"description\": \"The final scoreboard is displayed, showing Loyola's victory with a score of 60-58 as the time runs out.\"}}], \"scoring_plays\": [{\"start_time\": 12.0, \"end_time\": 20.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"layup\", \"scoring_team\": \"University of Cincinnati Bearcats\"}}, {\"start_time\": 23.0, \"end_time\": 28.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"jump_start\", \"scoring_team\": \"Loyola Ramblers\"}}, {\"start_time\": 46.0, \"end_time\": 52.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"layup\", \"scoring_team\": \"Loyola Ramblers\"}}, {\"start_time\": 60.0, \"end_time\": 68.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"layup\", \"scoring_team\": \"Loyola Ramblers\"}}, {\"start_time\": 71.0, \"end_time\": 76.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"jump_start\", \"scoring_team\": \"Loyola Ramblers\"}}, {\"start_time\": 79.0, \"end_time\": 83.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"jump_start\", \"scoring_team\": \"University of Cincinnati Bearcats\"}}, {\"start_time\": 102.0, \"end_time\": 110.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"layup\", \"scoring_team\": \"Loyola Ramblers\"}}], \"camera_cut\": [{\"start_time\": 0.0, \"end_time\": 3.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 3.0, \"end_time\": 10.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 10.0, \"end_time\": 11.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 11.0, \"end_time\": 20.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 20.0, \"end_time\": 22.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 22.0, \"end_time\": 28.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 28.0, \"end_time\": 31.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 31.0, \"end_time\": 38.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 38.0, \"end_time\": 45.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 45.0, \"end_time\": 53.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 53.0, \"end_time\": 54.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 54.0, \"end_time\": 56.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 56.0, \"end_time\": 58.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 58.0, \"end_time\": 68.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 68.0, \"end_time\": 70.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 70.0, \"end_time\": 76.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 76.0, \"end_time\": 78.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 78.0, \"end_time\": 81.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 81.0, \"end_time\": 83.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 83.0, \"end_time\": 88.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 88.0, \"end_time\": 90.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 90.0, \"end_time\": 108.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 108.0, \"end_time\": 118.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 118.0, \"end_time\": 121.0, \"metadata\": {\"camera_angle\": \"medium\"}}]}" "finish_reason": "stop", "usage": { "output_tokens": <number>
위 응답 구조의 'data' 파트에 대한 json.parse() 결과는 다음과 같습니다.
{ "gameplay_footage": [ {"start_time": 0.0, "end_time": 11.0, "metadata": {"description": "The video opens with a title card announcing Loyola's NCAA championship win, followed by a wide shot of the packed arena and a close-up of the 'NCAA Finals 1963' logo on the court."}}, {"start_time": 20.0, "end_time": 22.0, "metadata": {"description": "A brief cutaway shot shows a woman in the stands smiling and clapping enthusiastically."}}, {"start_time": 29.0, "end_time": 31.0, "metadata": {"description": "The camera focuses on the scoreboard, showing the score as 48-50 with 2:04 remaining in the second period."}}, {"start_time": 53.0, "end_time": 54.0, "metadata": {"description": "A quick shot of spectators in the stands reacting to the game."}}, {"start_time": 56.0, "end_time": 58.0, "metadata": {"description": "The camera captures two men in the stands celebrating with their arms raised."}}, {"start_time": 68.0, "end_time": 70.0, "metadata": {"description": "The scoreboard is shown again, displaying a tied score of 54-54 with 5:00 remaining in the third period."}}, {"start_time": 76.0, "end_time": 78.0, "metadata": {"description": "A shot of the crowd shows fans cheering and celebrating during the game."}}, {"start_time": 81.0, "end_time": 83.0, "metadata": {"description": "Two cheerleaders are shown on the court, performing a routine."}}, {"start_time": 88.0, "end_time": 90.0, "metadata": {"description": "A man in a suit is seen standing and clapping in the stands."}}, {"start_time": 109.0, "end_time": 118.0, "metadata": {"description": "Following the final shot, the Loyola players and coaches rush onto the court to celebrate their championship victory."}}, {"start_time": 118.0, "end_time": 121.0, "metadata": {"description": "The final scoreboard is displayed, showing Loyola's victory with a score of 60-58 as the time runs out."}} ], "scoring_plays": [ {"start_time": 12.0, "end_time": 20.0, "metadata": {"points_scored": "2pt", "shot_type": "layup", "scoring_team": "University of Cincinnati Bearcats"}}, {"start_time": 23.0, "end_time": 28.0, "metadata": {"points_scored": "2pt", "shot_type": "jump_start", "scoring_team": "Loyola Ramblers"}}, {"start_time": 46.0, "end_time": 52.0, "metadata": {"points_scored": "2pt", "shot_type": "layup", "scoring_team": "Loyola Ramblers"}}, {"start_time": 60.0, "end_time": 68.0, "metadata": {"points_scored": "2pt", "shot_type": "layup", "scoring_team": "Loyola Ramblers"}}, {"start_time": 71.0, "end_time": 76.0, "metadata": {"points_scored": "2pt", "shot_type": "jump_start", "scoring_team": "Loyola Ramblers"}}, {"start_time": 79.0, "end_time": 83.0, "metadata": {"points_scored": "2pt", "shot_type": "jump_start", "scoring_team": "University of Cincinnati Bearcats"}}, {"start_time": 102.0, "end_time": 110.0, "metadata": {"points_scored": "2pt", "shot_type": "layup", "scoring_team": "Loyola Ramblers"}} ], "camera_cut": [ {"start_time": 0.0, "end_time": 3.0, "metadata": {"camera_angle": "medium"}}, {"start_time": 3.0, "end_time": 10.0, "metadata": {"camera_angle": "high"}}, {"start_time": 10.0, "end_time": 11.0, "metadata": {"camera_angle": "medium"}}, {"start_time": 11.0, "end_time": 20.0, "metadata": {"camera_angle": "high"}}, {"start_time": 20.0, "end_time": 22.0, "metadata": {"camera_angle": "medium"}}, {"start_time": 22.0, "end_time": 28.0, "metadata": {"camera_angle": "high"}}, {"start_time": 28.0, "end_time": 31.0, "metadata": {"camera_angle": "medium"}}, {"start_time": 31.0, "end_time": 38.0, "metadata": {"camera_angle": "high"}}, {"start_time": 38.0, "end_time": 45.0, "metadata": {"camera_angle": "high"}}, {"start_time": 45.0, "end_time": 53.0, "metadata": {"camera_angle": "high"}}, {"start_time": 53.0, "end_time": 54.0, "metadata": {"camera_angle": "medium"}}, {"start_time": 54.0, "end_time": 56.0, "metadata": {"camera_angle": "high"}}, {"start_time": 56.0, "end_time": 58.0, "metadata": {"camera_angle": "medium"}}, {"start_time": 58.0, "end_time": 68.0, "metadata": {"camera_angle": "high"}}, {"start_time": 68.0, "end_time": 70.0, "metadata": {"camera_angle": "medium"}}, {"start_time": 70.0, "end_time": 76.0, "metadata": {"camera_angle": "high"}}, {"start_time": 76.0, "end_time": 78.0, "metadata": {"camera_angle": "medium"}}, {"start_time": 78.0, "end_time": 81.0, "metadata": {"camera_angle": "high"}}, {"start_time": 81.0, "end_time": 83.0, "metadata": {"camera_angle": "medium"}}, {"start_time": 83.0, "end_time": 88.0, "metadata": {"camera_angle": "high"}}, {"start_time": 88.0, "end_time": 90.0, "metadata": {"camera_angle": "medium"}}, {"start_time": 90.0, "end_time": 108.0, "metadata": {"camera_angle": "high"}}, {"start_time": 108.0, "end_time": 118.0, "metadata": {"camera_angle": "high"}}, {"start_time": 118.0, "end_time": 121.0, "metadata": {"camera_angle": "medium"}} ] }
우리는 다음 네 가지 원칙을 바탕으로 이 스키마를 설계했습니다.
정밀한 시간 설계 (Temporal Precision): 각 세그먼트가 명시적인 타임스탬프를 기준으로 설계되어, 후속 편집이나 분석 툴 등의 시스템과 프레임 단위의 정확한 결합이 가능합니다.
중복 없는 세그먼트 분할 (Non-Overlapping Segments): 동일 세그먼트 스키마 내 결과물들은 서로 중복되는 구간 없이 도출되므로, 비디오 타임라인에 대해 명확하고 일관된 정량적 해석이 가능합니다.
구조화된 형식을 갖춘 유연한 명명 체계 (Open Vocabulary with Structured Outputs): 개발자는 정해진 데이터 형식을 완벽하게 준수하면서도 비즈니스 도메인에 맞는 특화 어휘를 자유롭게 설정할 수 있어, 데이터베이스 및 에이전트 워크플로우에 매끄럽게 연결할 수 있습니다.
멀티모달 맥락 추론 (Multimodal Reasoning): 시각, 청각, 그리고 언어적 신호들의 복합적인 상호작용 속에서 세그먼트 경계와 메타데이터를 추론하기 때문에, 비디오가 가진 본질적인 풍부한 가치를 입체적으로 파악합니다.
4 - 시간 기반 메타데이터 평가 체계 구축하기

4.1 - 평가 데이터셋: 철저한 검증을 거쳐 밑바닥부터 자체 구축
시간 기반 메타데이터를 위한 서빙 모델과 평가 시스템을 구축하는 데 있어 가장 먼저 해결해야 할 문제는 완벽한 벤치마크 데이터가 시중에 존재하지 않는다는 점이었습니다.
학계에서 흔히 활용되는 기존 비디오 이해 벤치마크(예: Video-MME)는 우리의 지향점과는 완전히 다른 과제를 다룹니다. 그들은 대개 비디오 이해도를 인스턴트식 객관식 질의응답으로 축소하여 평가합니다. 비디오 클립과 질문을 확인한 뒤, 주어진 선택지 중 정답을 고르는 형태입니다. 이 포맷은 일반 비디오 추론 능력을 거칠게 측정하는 데는 유용할 수 있으나, 구조화된 실무용 시간 메타데이터를 정밀 출력하는 작업과는 거리가 멉니다. 시간 기반 메타데이터 추출에는 스키마 조건부 분할(schema-conditioned segmentation)이 동반되어야 합니다. 모델이 사용자가 전해준 이벤트 가이드라인에 따라 전체 비디오를 완벽히 쪼개고, 각 세그먼트가 언제 시작해서 언제 끝나는지 경계를 판단하고, 이에 해당하는 복합적인 메타데이터 구조를 한 번에 생성해내야 합니다. 하지만 다양한 비디오 도메인을 통틀어 이러한 정밀 세부 구간 분할 능력과 세그먼트별 구조화 메타데이터 생성을 결합해 평가할 수 있는 벤치마크는 없었습니다.
이에 우리는 직접 평가 데이터셋을 직접 구축했습니다. 이 데이터셋은 저마다 까다롭고 특별한 컷 분할 조건이 필요한 다채로운 카테고리의 콘텐츠들을 전방위로 포괄합니다.
뉴스 방송: 앵커 오프닝, 현장 보도 기사, 인터뷰 전환 등 명확한 인아웃 포인트 분리가 정밀하게 이루어져야 합니다.
영화 및 드라마: 서사와 영상 구도의 미묘한 진행 방향을 고려해 신(Scene) 수준의 분할과 고품질 시각 메타데이터가 필요합니다.
스포츠 경기: 세부 플레이, 득점 포인트, 경기 흐름 전환 등을 훨씬 조밀한 시간 단위로 정교하게 포착해야 합니다.
또한 각 도메인 전반에 걸쳐 실제 미디어 환경에서 마주할 법한 구체적인 세그먼트 인아웃 기준과 메타데이터 스키마를 정립했습니다. 이는 실제 글로벌 미디어 기업이나 스포츠 방송사가 현업에 도입할 법한 전문적인 기준입니다.
특히 데이터의 가치와 공정성을 지키기 위해, 주석 생성 작업을 단순히 일회성 단발식 과정으로 넘기지 않고 체계적인 다단계 휴먼 검증 절차를 고안하여 연계했습니다. 전체 프로세스는 크게 4단계로 구성됩니다.
프로젝트 온보딩: 주석 작업을 시작하기에 앞서, 모호할 수 있는 가이드라인과 구간 경계 선정 규칙을 아주 조밀하고 뚜렷하게 가다듬습니다.
세그먼트 정합 검수: 세부 경계 작성이 완료된 시점에서 메타데이터를 마구 써 내려가기 전에, 구간 구분의 밀도와 정확도만을 별도로 격리하여 먼저 통과시킵니다.
메타데이터 무결성 검수: 실제로 추출한 상세 메타데이터 항목들이 과연 비디오 내용과 한 치의 어긋남 없이 정합한지, 확장 적용하기에 훌륭한 수준인지 꼼꼼히 대조하고 다듬습니다.
최종 엔드투엔드 검증: 한 개의 완벽한 테스트 샘플이 평가셋에 정식 추가되기 직전, 구조와 의미 체계를 다시 한번 종합 검사합니다.
이 엄밀한 루프 안에서 검증 기준을 충족하지 못한 표본들은 가차 없이 교정되거나 이탈되었습니다. 이 과정에서 한 가지 중요한 교훈을 배웠습니다. 시간 기반 메타데이터를 처리하는 데 하나의 획일화된 통합 가이드라인이나 단순 협력 업체 아웃소싱 방식만을 적용하는 것은 무리라는 점입니다. 시각적인 단발성 샷 체인지와 종합적인 서사 전환 지점을 판단하는 일은 서로 다른 주석 가이드와 고유한 도메인 전문성, 독립된 QC 룰을 요구합니다. 우리는 난이도와 발생 빈도에 따라 업무 흐름을 다변화해 분배했습니다. 명시적으로 드러나는 구간 유형들은 다수의 주석 그룹을 활용해 빠르게 수량화하여 필터링했고, 서사의 미세한 반전이나 정체된 주제의 변경 같은 깊은 시맨틱 영역은 숙련된 내부 소수 전문가들이 정성껏 전담 검수하도록 지정했습니다.
그 결과, 평가의 지표로써 충분히 가치 있는 최고 수준의 정확도와 엄밀함을 갖춘 평가셋을 손에 쥐게 되었습니다.
4.2 - 평가 지표 엔지니어링: TBM 평가가 까다롭고 차별적인 이유
시간 기반 메타데이터의 성과를 판단하는 일은 문자열 처리 수준의 전통적인 자연어 처리(NLP)나 범용 이미지 분류 태스크의 성적표를 매기는 것과는 결이 완전히 다릅니다. 이 태스크의 목적지는 단순한 질문의 답이 아니기 때문입니다. 모델은 전체 타임라인에 걸쳐 조각조각 세분화된 구간 정보집(Set of temporal segments)을 내놓아야 하며, 각 구간집마다 명시적인 시작과 끝 지점을 보증하고 해당 영역의 구조화 메타데이터 필드 내용을 알차게 채워 넣어야 합니다. 이 때문에 지표 설계 시 두 갈래의 도전을 해결해야 합니다. '모델이 찾아낸 비디오 분할이 과연 기준 데이터(Ground Truth)의 분할과 잘 일치하는가(구간 분량의 품질)' 그리고 '그렇게 맞물린 구간 단위 속에 담긴 세부 설명들은 실질적으로 정확한가(메타데이터의 품질)'입니다.
기존 지표들의 한계
저희가 초기에 고안한 세그먼트용 기초 공식은 시간 점유율(Temporal coverage)이었습니다. 즉, 정식 기준 데이터의 세그먼트 기간 중 실제 모델이 탐지한 전체 면적이 대략 몇 퍼센트를 커버하는지 계산하는 단순 리콜(Recall) 중심 지표였습니다. 하지만 이 무지하고 직관적인 비율 기준에는 거대한 설계상 허점이 숨어 있었습니다. 모델이 머리를 써서 촘촘하게 비디오 내용을 나눌 필요도 없이, 전체 비디오 길이 만큼 거대하게 단 하나의 정답 세그먼트만을 처음부터 끝까지 무식하게 뿜어내도 점유율은 백퍼센트를 달성하게 됩니다. 더 나아가 자디잔 파편 형태의 수많은 초미세 조각들을 정신없이 뱉어내도, 합산 면적은 그럴듯하게 잡힐 수 있습니다. 즉, 점유율은 정답과 비슷한 타이밍을 밟았는지는 거칠게 알려줄 뿐, 실속 있는 구조로 비디오를 나누고 있는지는 보장해주지 못했습니다.
Temporal F1 도입
이 점을 수정하기 위해 평가 산식에 정밀도(Precision) 관점을 조화롭게 도입했습니다. G = {g_1, ..., g_m}를 기준 메타데이터 세그먼트 집합으로 두고, P = {p_1, ..., p_n}를 예측 데이터 세그먼트 집합으로 정의해 봅시다. 이때 각 세그먼트 영역은 고유 길이를 명시하는 시간대 속성 |s| 값을 갖게 됩니다. U(.) 연산은 각 묶음 범위의 전체 합집합 범위를, |.| 연산은 결합한 총 구간 시간 길이를 뜻합니다.
다대다(N:N) 관계의 수학적 접근 방식 하에서는, 세그먼트 각각의 독립성은 잠시 걷어내고 타임라인 축 전체가 일치하는 정도를 직접 중첩 비교하여 점수를 측정하게 됩니다.

이 방식은 불필요한 과잉 분할(낮은 정밀도)뿐만 아니라, 통째로 건너뛴 유실 상태(낮은 리콜) 양측에 고른 패널티를 줍니다. 결과적으로 시간 평면상 비중 가중치를 적용해 보다 현실성 있게 다듬어진 지표가 탄생했습니다.

하지만 여기에도 여전히 허점이 있습니다. 이 Temporal F1은 세 조각 다섯 조각으로 엉성하게 부스러진 상태로 정답 영역을 에워싸더라도, 누적 면적이 잘 맞아떨어지면 개별 경계선을 대조해 검증하지 않다 보니 단 한 개의 깔끔한 구간으로 맞힌 예측 모델과 똑같은 고득점을 획득하게 됩니다.
이런 미망을 다잡고 세그먼트 단위의 경계 일치도를 확실하게 짚어내기 위해 도입한 것이 바로 Segment F1입니다. 매칭 조합의 총 의사결정 이득(IoU)을 완벽히 높일 수 있는 1대1 매핑 최적화 알고리즘(헝가리안 알고리즘) M*를 도입하여 계산합니다. 각 관계망 중 엄밀히 1대1 구도로 명확히 짝을 지은 소수 정예 세그먼트들만 분자 값 계산식에 참전합니다.

짝꿍을 찾지 못한 돌발 예측 구간들은 정밀도를 갉아먹는 오차(False Positive)로 분류되고, 정답 구간임에도 매칭을 완성치 못한 항목들은 리콜을 좀먹는 낙오 정보(False Negative)로 전락하게 됩니다.
이렇게 연동된 Temporal F1과 Segment F1 듀오는 상호 보완적인 관점에서 한 모델의 부족한 틈새를 사정없이 쥐어짜 줍니다. Temporal F1은 경계의 수많은 쪼개짐에는 한없이 너그럽지만 토탈 점유 시간의 어설픈 구멍을 무섭게 잡아내고, Segment F1은 반대로 정답 시간대 내에 있더라도 경계 축이 칼같이 들어맞지 않으면 셈하지 않습니다. 우리는 이 두 시그널 모두를 가식 없이 투명하게 공개하여 우리 비디오 분할 모델의 현실적인 역량 그래프를 완성했습니다.
메타데이터 질적 가치 평가
비디오 분하 지표들이 정확한 경계의 검수를 성실히 조율한다면, 메타데이터 품질 평가는 그 바운더리 내부에 채워진 영양가 높은 지식의 실체를 정복하는 일입니다. 메타데이터에 등록된 문장 요약, 다채로운 카테고리 태그 묶음, 등장 인물 이름 정보 등은 자연스러운 고차원의 개방 어휘 형태를 취하기 때문에, 기존의 고지식한 룰 베이스 형태의 텍스트 일치율 체크로는 가치 수렴을 도저히 도출하기 어렵습니다.
이에 대한 돌파구로 우리는 강력한 선도 모델을 중재자로 삼는 LLM-as-judge 설계를 조율해 얹었습니다. 매칭이 성사된 각 세그먼트 짝꿍을 정밀 대조판에 올리고, 언어 모델 판관이 사려 깊은 루브릭 평가표를 차례대로 추적하게 함으로써 각 속성별 정확성을 냉정히 가늠하게 했습니다. 화면 설명, 트랜스크립트, 키워드, 카테고리 태그, 상황 설명 등 다양한 속성에 맞춰 각기 구체적이고 체계화된 평정 기준을 정립했습니다. 예측 구간과 정답 구간의 폭이 실질적으로 어긋나 있을 때는 판결과 교정이 현명하게 연동됩니다. 즉, 메타데이터 결과에 생긴 틈새가 순수 논리 도출 실패 탓인지 아니면 구조적 영역 미스에 의한 반사 작용인지 종합 판단하며 점수를 올곧게 정량화하고 가중치를 연계해 산출합니다.
4.3 - 지표 최적화를 위한 보상 연계 강화 학습 (RLVR): 학습과 테스트의 완벽한 득점 동치 달성
저희가 개발해낸 상기 지표 시스템은 단순히 출시 후 성능 평가용 장식품이 아니라, 연구실 모델 학습 사이클을 굴리는 고속 엔진 보상 장치로 완전히 일체화되었습니다. Pegasus 1.5는 검증 가능한 보상 기반 강화 학습(RLVR, Reinforcement Learning with Verifiable Rewards)을 활용하여 비약적인 도약을 이룩했습니다. 시계열 메타데이터 추출 태스크와 검증 가능한 하방 보상 체계는 기묘할 정도로 환상적인 시너지를 보입니다.
TBM 영역이 어째서 RLVR 구조에 특화되었는가
동적 검증형 보상 장치(RLVR)를 안정적으로 운용하려면, 사람의 주관적인 정성 평가나 눈길에 매달릴 필요 없이 오직 논리적인 프로그램 연산만으로 예측 구간물의 영양가와 완벽성을 기하학적으로 가려낼 수 있는 수치 환경이 완성되어야 합니다. TBM은 이에 걸맞게 두 갈래 조건 모두를 무리 없이 만족합니다. 첫 번째로, 구조 규칙성 자체가 명확히 입증 가능(Verifiable)합니다. 데이터 출력물이 깔끔한 JSON인지, 사전에 약속한 변수 컬럼 양식을 제대로 준수했는지, 시간 구간들 사이에 꼴사납게 엉망진창 겹치는 혼조가 발생하진 않았는지를 사소한 한 프레임 스케일 수준에서 완전히 수학적 계산기(deterministic check)로 추려낼 수 있습니다. 두 번째로는, 분리 완성도 또한 계산적으로 밝혀낼 수 있습니다. 정답 가이드 영역들과 Temporal F1, Segment F1 합성 알고리즘이 미리 동기화되어 있다면, 경계선의 완성도를 완전 자동화 시스템이 소수점 아래 단위로 냉정하게 정답 리워드로 연결하게 할 수 있습니다. 이렇듯 테스크 전체 구조가 연산 검증이 쉬운 토양 위에 세워진 덕분에 Pegasus 1.5는 RLVR의 효과를 완벽하게 누릴 수 있었습니다.
보상 시스템의 구조 설계
강화 학습의 핵심이 되는 최종 점수 시그널은 세밀하게 제안된 다면적 에너지 분포로 정해집니다. 포맷 컴플라이언스(Format validity) 검사, 즉 적형의 JSON 데이터 규칙 준밀 준수 여부는 점수 산식 내에서 매우 엄격하고 독립적인 전제 조건 성격의 가중치로 다뤄집니다. 아무리 환상적으로 미디어를 쪼갰을지언정 아웃풋 형식이 구문 해석 에러(Parse error)를 일으킨다면, 한 자릿수 혜택도 없이 즉시 0점 보수 처리를 받게 됩니다. 이를 통해 추론 성능과 구조 규칙성을 교환하는 꼼수를 철저히 차단합니다. 세부 세그먼트 생성 평가 보상 영역에서는 4.2 단계에서 기술한 F1 듀오 시그널이 영양제 역할을 맡으며, 내부 메타데이터 추출 보상 부문에서는 AI 심판관이 검사한 점수가 연산되어 모델을 벼려냅니다.
보상 해킹 장벽의 극복과 설계 고도화
이 강화 학습 설계 과정에서 개발진을 가장 놀라게 했던 교훈 중 하나는, 모델이 우리의 지표적 취약점을 상상 이상으로 거칠고 똑똑하게 '보상 해킹(Reward hacking)' 해내는 모습을 직접 발견했을 때의 충격이었습니다. 초창기처럼 리콜 비율이 편향된 단순 누적 비중 보상(temporal coverage) 체계를 성급하게 얹고 질주를 시도했을 때, 모델은 가이드라인의 맥락을 살리기보다는 기하학적인 고득점 꼼수를 금방 눈치챘습니다. 비디오 전체를 가뿐히 덮는 뚱뚱한 구간 한 개를 능글맞게 제시하거나, 수백 개의 짤막한 벌집 피자 형태 구간들을 미디어를 향해 발사해 합산 면적을 올리는 전략을 취한 것입니다. 결과 점수는 놀라운 속도로 천장을 뚫었지만, 실제 인간이 보기에 완전히 조각나 버린 쓰레기 같은 산출물을 배설할 뿐이었습니다.
이는 고전적인 보상 해킹의 완벽한 예시였으며, 저희로 하여금 학습 지표 자체를 더 엄격하게 개선하도록 만들었습니다. 커버리지 위주의 단순 계산법에서 탈피해 정밀도를 가미한 Temporal F1을 세우고, 이를 최종적으로 헝가리안 매칭 기반의 Segment F1과 입체적으로 가교해 결합하는 등 끈질긴 지표 고도화를 수동 루프로 거쳤습니다. 이로써 강화 학습은 단지 인공지능이 영리해지는 보일러 역할뿐만 아니라, 우리가 수년 동안 준비해 온 테스팅 채점 규칙의 구멍까지 역설적으로 사정없이 찔러주는 단련기의 역할을 훌륭히 완수해 내었습니다.
기형적 꼼수 차단 장갑 강화
F1 패러다임을 뿌리 깊게 박아넣은 현대적인 지표 설계는 결국 가장 흔히 발견되는 거대한 구멍 두 갈래를 완벽하게 잠가버립니다. 불필요하게 찢는 고질병인 벌집 피자 양상(정밀도 패널티로 사살)과 게으르게 통째로 게워내는 슬라임 형태(재현율 하락으로 통제) 모두가 고통받고 도태되는 보상 지도가 형성된 것입니다. 또한, 기초 구조 규격을 가르는 형식 게이트가 험악하게 앞길을 가라막고 있어, 지표의 사각지대를 공략하는 꼼수 대신 오직 '진짜 비디오 세부 연산 실력을 늘리는 정석 방식' 만이 생존의 유일한 출로가 되도록 인공지능의 길을 닦았습니다.
그 덕분에 실제 운영에 올라가 검증하는 지표의 수학 공식과, 인큐베이터 안에서 모델을 쪼아대며 담금질하는 훈련 도구의 영양 균형이 100% 한 몸이 되는 기적의 트레이닝 루프가 정비되었습니다.
5 - TwelveLabs 플레이그라운드에서 만나는 Pegasus 1.5

연구실에서 아무리 화려한 장표를 뽐낸다 한들 실제 현업의 고단한 워크플로우에 결합하지 못한다면 빛을 보지 못하는 법입니다. Pegasus 1.5의 세계에서는 단순 클립 하나를 던져두고 기도를 가득 담은 임시 처우식 질문을 겨우 한 줄 적으며 간지러운 답변에 절절맬 필요가 완전히 없어집니다. 데이터의 가이드라인과 템플릿 필드를 정의해 얹은 뒤 단 한 번만 TBM 분석 호출구를 울려두면, 귀하의 후속 인메모리 프로세스나 분석 DB 시스템이 즉각 인식하고 소화할 수 있는 깨끗한 타임스탬프 JSON 팩이 당신의 프런트엔드 테이블에 내려앉습니다. 수작업 스태프의 장시간 노고나 누더기처럼 기워둔 맞춤형 인제스천(Ingestion) 아르바이트 로직 없이, 오직 비디오를 선택하고 스키마를 던져넣은 뒤 산출되는 JSON 결과지를 시선으로 가볍게 확인하며 원시 미디어 파일을 즉석 결산 데이터로 고속 업그레이드하기만 하면 됩니다.
상단 데모의 귀여운 농구 비디오 경기가 이 혁신의 쓸모를 그대로 대변합니다. Pegasus 1.5는 단 한 차례의 워크플로우 회전만으로도 실제 박진감 넘치는 본선 게임 영상과 부차적인 대기 구도, 관람석 풍경 등을 스마트하게 단번에 칼바람처럼 분리해 냅니다. 각 세그먼트에는 사용자가 요청한 상세 정량 스키마 정보가 완벽한 필드로 장식되어 있습니다. 이 덕분에 아웃풋을 미디어 아카이빙 솔루션이나 자동 하이라이트 생성, 데이터 마이닝 파이프라인에 그대로 직통 송출해도 아무 막힘이 없습니다. 이 기술은 인간의 개입을 배제하지 않습니다. 사람의 '임무 성격'을 바꿀 뿐입니다. 골치 아프고 지루한 수동 검수 대신, 기계가 95% 완성한 고품질 데이터의 지점을 한눈에 확인하고 보다 가치 있는 고차원 창작 의사결정에 에너지를 집중하는 것입니다. 이것이야말로 Pegasus 1.5가 개발자들에게 열어젖힌 가장 현실적이고 영리한 패러다임 전환입니다. 비디오를 당신의 전산 원장에 매끄럽게 흐르도록 만드는 실제적인 연산 입력값으로 승격시키는 일 말입니다.
6 - 성능 비교 결과: 프로덕션 환경에서 이것이 결정적인 차이를 만드는 이유
플레이그라운드가 제공하는 혁신적인 사용자 경험 뒤에는 압도적이고 객관적인 정량 지표 성능이 든든하게 뒷받침되어 있습니다. 치열하게 수행된 비교 평가에서 Pegasus 1.5는 미디어 현업에서 가장 눈여겨보는 핵심 역량인 경계 탐지 품질(Segmentation quality)과 멀티모달 지시 준수 품질(Multimodal prompting quality) 양측 모두에서 Google의 최신 Gemini 1.5 Pro를 여유롭게 따돌렸습니다. 하단의 벤치마크 데이터를 살펴보면, Pegasus 1.5는 종합 세그먼트 생성 평가에서 점수 0.4279 대 0.3370으로 가볍게 선두에 섰으며, 텍스트와 이미지 가이드라인이 어우러진 멀티모달 프롬프트 지시 준수 세세 평가에서도 무려 0.4555 대 0.3243이라는 독보적인 격차를 벌렸습니다. 이는 경계를 식별하는 안목과 복잡하게 얽힌 다면 요청에 따라 정보를 누수 없이 정렬하는 추출 신뢰도가 한 차원 높음을 실증합니다.

이 격차는 실제 산업 현장 기준의 롱콘텍스트(Long-context) 처리 영역에서 더 웅장하게 발휘됩니다. Pegasus 1.5는 단 한 차례의 요청 큐만으로 최대 2시간짜리 비디오를 통째로 정해진 스키마 사양대로 고속 분해해 냅니다. 스포츠 풀타임 중계 중인 녹화본을 비롯해 꼼꼼한 마라톤 인터뷰 녹취, 그리고 영화 한 편 전체 분량을 가리지 않는 실습 친화적이고 탁월한 내구력입니다.

이 완벽한 증명들은 이 글의 핵심적인 외침을 관통합니다. Pegasus 1.5는 흔하디흔한 비디오 챗봇이나 일반적인 질의응답 화면에 입힌 소소한 화장 스킨 따위가 아닙니다. 이 모델은 시간적 구조 분석에 완벽히 길들여진 정예 스페셜리스트 머신입니다. 사건들이 어디서 태어나 어떤 흐름을 지나 작별 지점을 맞이하는지 영리하게 인지하며, 멀티모달 프롬프트의 난해한 미션을 흔들림 없이 처리하고, 실제 미디어 업계 전문가들이 매일 마주하는 무겁고 드넓은 장편 비디오를 한 치의 망설임 없이 소화해 내기 때문입니다.
7 - 결론
대다수의 비즈니스 전선에서 비디오는 여전히 야생의 어두운 비구조화 미디어로 머물러 왔습니다. 보물 같은 정보와 광맥이 가득 숨겨져 있지만, 소프트웨어 로직과 기계가 안전하게 갉아 먹거나 전산 시스템으로 자동 통제하기엔 너무나 무서운 난공불락의 영토였기 때문입니다. Pegasus 1.5가 가져온 혁신은 단순한 버전 소수점 패치가 아닙니다. 기계와의 거래 단위를 어설픈 낱장 답변에서 규격화되고 완벽히 동기화된 구조적 시간 메타데이터 데이터 세트로 완전히 격상시켜 버렸기 때문입니다. 인공지능 모델이 스스로 사건의 앞뒤 마디를 구별하고 끈질기게 가치 있는 지식의 칼라칩을 생성해 내는 수준에 편입된다면, 비디오는 더 이상 구경을 위해 눈을 고정해야 하는 원시적 '시청 영상'이 아니라 시스템이 직접 알고리즘을 굴려 가치를 창출할 수 있는 똑똑한 '클라우드 파일'이 됩니다.
이 장려한 정복을 달성하기 위해 우리는 문제의 첫 단추부터 다시 생각했습니다. 시간의 완성도를 어떻게 정량화하고 가둘 것인지, 파이프라인의 기쁨이 되는 평가지 데이터는 어떻게 냉정하게 확보할 것인지, 어떻게 학습의 리워드를 보장 구조와 완전 결합할 것인지 같은 수많은 철학들을 완전히 헐어내서 다시 쌓은 결과물입니다. 그 노력 덕분에 이 모델은 그저 소소한 사내 데모룸에서 잠깐 반짝하고 꺼지는 장난감이 아니라, 글로벌 비즈니스 프로덕션 데이터 라인에 즉시 나사로 단단히 조여 들어갈 수 있는 믿음직한 기어 장치로 완성되었습니다.
메시지는 아주 단순하고 선명합니다. 귀하가 수립하고 있는 모든 기술적 워크플로우(지식 검색, 트래픽 통계, 규제 및 심사, 에이전트 자동화 등)가 비디오와 인프라의 마주침 속에서 숨 쉬고 있다면, 비디오를 쪼개고 라벨러에게 아쉬운 소리를 하며 수동 주석 공정을 어렵게 조립하는 시대는 끝났습니다. 원하는 분석 스키마 양식을 단 한 번만 정의해 두면, 당신은 그저 시스템 뒤편에서 인공지능이 막대한 라이브러리를 고속 청동 압착기로 균일하게 찍어 누르는 모습을 바라보기만 하면 됩니다. 비디오는 비로소 정교하고 계산 가능한 우리의 '전산 원장'의 일부로 편입되었습니다.
직접 경험해 보세요
지금 바로 전용 TwelveLabs 플레이그라운드를 방문해 Pegasus 1.5의 저력을 눈으로 직접 확인해 보시거나, 혹은 비동기(Asynchronous) 분석 데이터 엔드포인트를 사용해 현재 배포 중인 애플리케이션에 API 코드를 다이렉트로 심어 보세요. 개발이 처음이시라면 친절하게 구성된 비디오 세그먼트 가이드 문서를 확인하시면 좋습니다. 사용 가능한 세부 시스템 변수들과 정식 파라미터 값들에 흥미가 돋는다면, API 레퍼런스 페이지 내 비동기 태스크 생성 명세를 읽어 보세요.
우선 영상 하나를 고른 뒤, 원하는 스키마 구조를 가뿐하게 구성해 호출해 보세요. 백 번의 세미나를 듣는 것보다, 여러분의 실전 비디오 파일 하나가 이 모델을 통과한 뒤 뿜어내는 정밀한 JSON의 감동을 직접 마주하는 편이 백배는 더 빠를 것입니다.
TwelveLabs 팀 임직원 명단
Pegasus 1.5는 산하의 기술 functional 그룹 전반의 정공법적인 전방위 융합 프로젝트로 마침내 완수되었습니다.
사이언스 파트: 김기안, 최삼, 남리아, 오헨리, 변딜런
ML 엔지니어링 파트: 에스제이, 이케빈, 정웨이드
데이터 가치 엔지니어링 파트: 조엘튼, 김헤일리, 강케일림, 정희예원
제품 기획 PM 파트: 홍섀넌

1 - 클립 기반 답변에서 구조화된 비디오 인텔리전스로의 진화
비디오는 정보의 가장 풍부한 형태 중 하나이지만, 소프트웨어 시스템이 접근하기에는 여전히 가장 까다로운 대상 중 하나입니다. 텍스트나 이미지와 달리, 비디오의 의미는 단일 순간에 담겨 있지 않습니다. 시간의 흐름에 따른 연속성, 멀티모달 상호작용, 그리도 인과 관계를 통해 비디오의 의미가 비로소 드러납니다. 스포츠 경기의 한 플레이는 수초에 걸쳐 전개되고, 영화의 서사적 흐름은 수 분 동안 이어지며, 브랜드 로고의 등장은 시각적으로는 미묘할 수 있지만 맥락상 결정적인 역할을 하기도 합니다. 대규모로 비디오를 운용하고 분석하려면, 시스템은 무엇이 일어나는지뿐만 아니라 그것이 언제 일어나는지까지 추론할 수 있어야 합니다.
이 단계에서 바로 시간 기반 메타데이터(Time-based metadata)가 핵심적인 역할을 합니다. 시간 기반 메타데이터는 가공되지 않은 원시 비디오를 타임스탬프가 지정된 구조화된 데이터로 변환하여, 개발자가 비디오를 쿼리 및 연산이 가능한 자산으로 다룰 수 있게 해줍니다. 이로써 기업들은 수동으로 영상을 일일이 검토하거나 불안정한 규칙 기반 휴리스틱에 의존하는 대신, 편집 세그먼트, 스포츠 플레이, 화자 전환, 브랜드 등장 등 비즈니스에 유의미한 이벤트를 정의하고 전체 비디오 라이브러리에서 이를 자동으로 추출할 수 있게 됩니다.

Pegasus의 이전 버전들은 이와는 다른 종류의 문제를 다루었습니다. Pegasus 1.2는 비디오 질의응답(QA) 시스템으로 설계되었습니다. 사용자가 비디오 클립을 제공하고 질문을 던지면, 모델이 그에 대한 답변이나 요약을 반환하는 방식이었습니다. 이러한 패러다임은 단답형 질문이나 특정 지점의 국소적 이해에는 잘 작동합니다. 하지만 실제 운영 환경에서는 한 가지 근본적인 한계가 존재합니다. 바로 사용자가 '어디를 찾아보아야 할지' 이미 알고 있어야 한다는 점입니다. 미디어 아카이브, 라이브 스포츠, 스트리밍 카탈로그와 같은 대규모 환경에서는 이러한 전제가 성립하기 어렵습니다.
그 결과, Pegasus 1.2는 전체 비디오에 대한 체계적인 세그먼트 분할 및 일관된 메타데이터 추출이 필수적인 워크플로우를 온전히 지원하기에는 어려움이 있었습니다. 모델 기반의 경계 탐지(boundary detection) 기능이 기본적으로 탑재되지 않았기 때문에, 사용자는 시간적 관심 영역을 정의하기 위해 여전히 수동 주석 작업이나 휴리스틱 전처리에 의존해야 했습니다.
Pegasus 1.5는 이러한 한계를 극복하기 위한 근본적인 패러다임 변화를 보여줍니다. 이 모델은 사전에 정의된 클립에 대한 질문에 단순히 답하는 것을 넘어, 사용자가 정의한 스키마에 따라 전체 비디오를 분할하고 각 세그먼트에 구조화된 메타데이터를 부여합니다. 이러한 전환을 통해 비디오 이해는 단순한 검색(Retrieval) 문제를 넘어, 비디오가 분석, 자동화, 에이전트 시스템을 위한 일급 입력값(First-class input)으로 기능하는 데이터 생성 파이프라인으로 진화합니다.
2 - 구조화되지 않은 비디오가 초래하는 기회비용
비디오 콘텐츠의 폭발적인 증가에도 불구하고, 대부분의 기업들은 비디오를 구조화되지 않은 일반 미디어로 관리하고 있습니다. 기존 방식은 수동 로그 작성, 키워드 태깅 또는 단순한 샷 탐지(Shot-detection) 알고리즘에 의존해 왔습니다. 그러나 이러한 방식으로는 후속 의사결정에 필수적인 의미적, 시간적 복잡성을 포착하기 어렵습니다.
시스템 아키텍처 관점에서 비디오가 지닌 세 가지 속성으로 인해 이러한 문제가 증폭됩니다.
시간적 모호성 (Temporal Ambiguity): 비디오 속 이벤트는 명시적인 경계를 가고 있지 않습니다. 한 뉴스 보도가 어디서 시작되고 특정 스포츠 플레이가 어디서 끝나는지 판단하려면 여러 모달리티를 아우르는 맥락적 추론이 필요합니다.
멀티모달 의존성 (Multimodal Dependence): 비디오의 의미는 시각적 단서, 음성, 오디오 신호, 그리고 화면 텍스트의 상호작용을 통해 비로소 완성됩니다.
스키마의 가변성 (Schema Variability): 기업 마다 주목하는 이벤트가 다르기 때문에, 도메인에 특화된 유연한 이벤트 정의가 필수적입니다.
신뢰할 수 있는 시간 기반 메타데이터 없이는 비디오를 쉽게 인덱싱하거나 쿼리할 수 없고, 데이터 파이프라인에 통합하기도 어렵기 때문에 자동화나 데이터 분석을 위한 비디오의 가치가 제한될 수밖에 없습니다.
기존의 비디오 처리 방식과 구조화된 데이터를 활용하는 방식의 효율성 차이는 아래 비교를 통해 직관적으로 확인할 수 있습니다.
다이어그램 1: 기존 워크플로우

다이어그램 2: Pegasus 1.5 워크플로우

개발자가 직접 이벤트 보캐블러리(Vocabulary of events)를 정의할 수 있게 함으로써, Pegasus 1.5는 시간적 추론의 부담을 사람에서 모델로 전환하고 확장 가능하며 일관성 있는 메타데이터 추출을 실현합니다.
미디어 및 엔터테인먼트 분야에서 편집 팀은 아카이빙, 추천, 수익화를 지원하기 위해 장편 콘텐츠를 서사 단위(장면, 주제, 캐릭터 등장 등)로 분할해야 합니다. Pegasus 1.5를 사용하면 편집 세그먼트에 대한 스키마를 정의하여 전체 카탈로그에서 구조화된 메타데이터를 자동으로 추출할 수 있습니다. 이를 통해 시맨틱 검색, 하이라이트 자동 생성, 효율적인 콘텐츠 재사용이 가능해집니다.
스포츠 분석 분야에서 비디오 내의 플레이를 식별하고 라벨링하는 작업은 수동 공수가 많이 들고 시간 다툼이 치열한 작업이며, 종종 도메인 전문가가 전체 경기 영상을 검토해야 합니다. Pegasus 1.5를 사용하면 골, 파울, 턴오버와 같은 플레이에 대한 스키마를 정의하고 정밀한 시간적 경계와 함께 각 인스턴스를 자동으로 탐지할 수 있습니다. 이는 실시간 하이라이트 생성 및 성과 분석을 가능하게 합니다.
스트리밍 플랫폼 회사들은 타겟 광고 및 콘텐츠 수익화를 구현하기 위해 브랜드 노출, 장면 전환, 맥락적 순간들을 포착해야 합니다. Pegasus 1.5를 사용하면 브랜드 가시성 또는 맥락적 트리거에 대한 스키마를 정의하여 막대한 라이브러리 전반에서 수익화 가능한 순간들을 자동으로 탐지할 수 있습니다.
3 - 기술적 토대: 시간 기반 메타데이터 정의
시간 기반 메타데이터 (TBM)는 비디오의 특정 시간 세그먼트와 연결된 구조화된 정보를 의미합니다. 각 세그먼트는 정밀한 시작 및 종료 타임스탬프로 정의되며, 사용자가 정의한 스키마를 따르는 메타데이터 필드로 보강됩니다.
일반적으로 TBM 출력 형식은 다음과 같이 표현할 수 있습니다.
Segment = { start_time: float, end_time: float, metadata: { key: value, ... } }
전체 분석 결과는 사용자가 정의한 각 시맨틱 스키마에 부합하며 서로 겹치지 않는(non-overlapping) 세그먼트 세트로 구성됩니다. 이러한 구조 덕분에 검색 인덱스, 분석 플랫폼 및 에이전트 기반 워크플로우 등 다양한 후속 시스템과 결정론적(deterministic) 방식으로 통합이 가능합니다.
Pegasus 1.5는 /analyze API를 통해 스키마 우선 상호작용 모델(Schema-first interaction model)을 도입했습니다. 개발자는 모델에 자유양식의 열린 질문을 던지는 대신, 다음과 같은 항목들을 명시하는 방식으로 세그먼트를 정의합니다.
무엇을 세그먼트로 간주할 것인가 (의미적 설명)
추출하고자 하는 메타데이터 필드가 무엇인가
선택적으로 적용할 제약 조건 (길이 제한 또는 맥락적 기준 등)
이러한 설계 방식은 실제 서비스 배포 환경에서 필수적인 일관성, 결정론적 동작, 그리고 유연한 시스템 통합을 보장합니다.

다음은 위의 농구 비디오에 대해 /analyze API를 호출하는 요청 예시입니다.
{ "model_name": "pegasus1.5", "analysis_mode": "time_based_metadata", "video": { "type": "url", "url": "https://example.com/video.mp4" }, "response_format": { "type": "segment_definitions", "segment_definitions": [ { "id": "non_gameplay_footage", "description": "Generate segments only when the content on screen IS NOT actual gameplay.", "fields": [ { "name": "description", "type": "string", "description": "A rich long description of the non-gameplay footage." } ] }, { "id": "scoring_plays", "description": "Segment any time a team scores points. The segment should be the entire scoring play.", "fields": [ { "name": "points_scored", "type": "string", "description": "How many points were scored during the play.", "enum": [ "2pt", "1pt", "3pt" ] }, { "name": "shot_type", "type": "string", "description": "The shot type from the scoring play.", "enum": [ "jump_start", "layup", "dunk", "foul_shot" ] }, { "name": "scoring_team", "type": "string", "description": "Name of the team that scored." } ] }, { "id": "camera_cut", "description": "Segment any time only when there is a hard cut in the camera. Otherwise continue the current segment.", "fields": [ { "name": "camera_angle", "type": "string", "description": "Angle of the current camera.", "enum": [ "high", "low", "medium" ] } ] } ] }, "temperature": 0, "min_segment_duration": 2 }
그리고 응답 결과의 구조 예시는 다음과 같습니다.
"result": { "generation_id": "5be1b8c6-7e92-43ce-b37d-ba1b53ed1ebe", "data": "{\"gameplay_footage\": [{\"start_time\": 0.0, \"end_time\": 11.0, \"metadata\": {\"description\": \"The video opens with a title card announcing Loyola's NCAA championship win, followed by a wide shot of the packed arena and a close-up of the 'NCAA Finals 1963' logo on the court.\"}}, {\"start_time\": 20.0, \"end_time\": 22.0, \"metadata\": {\"description\": \"A brief cutaway shot shows a woman in the stands smiling and clapping enthusiastically.\"}}, {\"start_time\": 29.0, \"end_time\": 31.0, \"metadata\": {\"description\": \"The camera focuses on the scoreboard, showing the score as 48-50 with 2:04 remaining in the second period.\"}}, {\"start_time\": 53.0, \"end_time\": 54.0, \"metadata\": {\"description\": \"A quick shot of spectators in the stands reacting to the game.\"}}, {\"start_time\": 56.0, \"end_time\": 58.0, \"metadata\": {\"description\": \"The camera captures two men in the stands celebrating with their arms raised.\"}}, {\"start_time\": 68.0, \"end_time\": 70.0, \"metadata\": {\"description\": \"The scoreboard is shown again, displaying a tied score of 54-54 with 5:00 remaining in the third period.\"}}, {\"start_time\": 76.0, \"end_time\": 78.0, \"metadata\": {\"description\": \"A shot of the crowd shows fans cheering and celebrating during the game.\"}}, {\"start_time\": 81.0, \"end_time\": 83.0, \"metadata\": {\"description\": \"Two cheerleaders are shown on the court, performing a routine.\"}}, {\"start_time\": 88.0, \"end_time\": 90.0, \"metadata\": {\"description\": \"A man in a suit is seen standing and clapping in the stands.\"}}, {\"start_time\": 109.0, \"end_time\": 118.0, \"metadata\": {\"description\": \"Following the final shot, the Loyola players and coaches rush onto the court to celebrate their championship victory.\"}}, {\"start_time\": 118.0, \"end_time\": 121.0, \"metadata\": {\"description\": \"The final scoreboard is displayed, showing Loyola's victory with a score of 60-58 as the time runs out.\"}}], \"scoring_plays\": [{\"start_time\": 12.0, \"end_time\": 20.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"layup\", \"scoring_team\": \"University of Cincinnati Bearcats\"}}, {\"start_time\": 23.0, \"end_time\": 28.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"jump_start\", \"scoring_team\": \"Loyola Ramblers\"}}, {\"start_time\": 46.0, \"end_time\": 52.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"layup\", \"scoring_team\": \"Loyola Ramblers\"}}, {\"start_time\": 60.0, \"end_time\": 68.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"layup\", \"scoring_team\": \"Loyola Ramblers\"}}, {\"start_time\": 71.0, \"end_time\": 76.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"jump_start\", \"scoring_team\": \"Loyola Ramblers\"}}, {\"start_time\": 79.0, \"end_time\": 83.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"jump_start\", \"scoring_team\": \"University of Cincinnati Bearcats\"}}, {\"start_time\": 102.0, \"end_time\": 110.0, \"metadata\": {\"points_scored\": \"2pt\", \"shot_type\": \"layup\", \"scoring_team\": \"Loyola Ramblers\"}}], \"camera_cut\": [{\"start_time\": 0.0, \"end_time\": 3.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 3.0, \"end_time\": 10.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 10.0, \"end_time\": 11.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 11.0, \"end_time\": 20.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 20.0, \"end_time\": 22.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 22.0, \"end_time\": 28.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 28.0, \"end_time\": 31.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 31.0, \"end_time\": 38.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 38.0, \"end_time\": 45.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 45.0, \"end_time\": 53.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 53.0, \"end_time\": 54.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 54.0, \"end_time\": 56.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 56.0, \"end_time\": 58.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 58.0, \"end_time\": 68.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 68.0, \"end_time\": 70.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 70.0, \"end_time\": 76.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 76.0, \"end_time\": 78.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 78.0, \"end_time\": 81.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 81.0, \"end_time\": 83.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 83.0, \"end_time\": 88.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 88.0, \"end_time\": 90.0, \"metadata\": {\"camera_angle\": \"medium\"}}, {\"start_time\": 90.0, \"end_time\": 108.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 108.0, \"end_time\": 118.0, \"metadata\": {\"camera_angle\": \"high\"}}, {\"start_time\": 118.0, \"end_time\": 121.0, \"metadata\": {\"camera_angle\": \"medium\"}}]}" "finish_reason": "stop", "usage": { "output_tokens": <number>
위 응답 구조의 'data' 파트에 대한 json.parse() 결과는 다음과 같습니다.
{ "gameplay_footage": [ {"start_time": 0.0, "end_time": 11.0, "metadata": {"description": "The video opens with a title card announcing Loyola's NCAA championship win, followed by a wide shot of the packed arena and a close-up of the 'NCAA Finals 1963' logo on the court."}}, {"start_time": 20.0, "end_time": 22.0, "metadata": {"description": "A brief cutaway shot shows a woman in the stands smiling and clapping enthusiastically."}}, {"start_time": 29.0, "end_time": 31.0, "metadata": {"description": "The camera focuses on the scoreboard, showing the score as 48-50 with 2:04 remaining in the second period."}}, {"start_time": 53.0, "end_time": 54.0, "metadata": {"description": "A quick shot of spectators in the stands reacting to the game."}}, {"start_time": 56.0, "end_time": 58.0, "metadata": {"description": "The camera captures two men in the stands celebrating with their arms raised."}}, {"start_time": 68.0, "end_time": 70.0, "metadata": {"description": "The scoreboard is shown again, displaying a tied score of 54-54 with 5:00 remaining in the third period."}}, {"start_time": 76.0, "end_time": 78.0, "metadata": {"description": "A shot of the crowd shows fans cheering and celebrating during the game."}}, {"start_time": 81.0, "end_time": 83.0, "metadata": {"description": "Two cheerleaders are shown on the court, performing a routine."}}, {"start_time": 88.0, "end_time": 90.0, "metadata": {"description": "A man in a suit is seen standing and clapping in the stands."}}, {"start_time": 109.0, "end_time": 118.0, "metadata": {"description": "Following the final shot, the Loyola players and coaches rush onto the court to celebrate their championship victory."}}, {"start_time": 118.0, "end_time": 121.0, "metadata": {"description": "The final scoreboard is displayed, showing Loyola's victory with a score of 60-58 as the time runs out."}} ], "scoring_plays": [ {"start_time": 12.0, "end_time": 20.0, "metadata": {"points_scored": "2pt", "shot_type": "layup", "scoring_team": "University of Cincinnati Bearcats"}}, {"start_time": 23.0, "end_time": 28.0, "metadata": {"points_scored": "2pt", "shot_type": "jump_start", "scoring_team": "Loyola Ramblers"}}, {"start_time": 46.0, "end_time": 52.0, "metadata": {"points_scored": "2pt", "shot_type": "layup", "scoring_team": "Loyola Ramblers"}}, {"start_time": 60.0, "end_time": 68.0, "metadata": {"points_scored": "2pt", "shot_type": "layup", "scoring_team": "Loyola Ramblers"}}, {"start_time": 71.0, "end_time": 76.0, "metadata": {"points_scored": "2pt", "shot_type": "jump_start", "scoring_team": "Loyola Ramblers"}}, {"start_time": 79.0, "end_time": 83.0, "metadata": {"points_scored": "2pt", "shot_type": "jump_start", "scoring_team": "University of Cincinnati Bearcats"}}, {"start_time": 102.0, "end_time": 110.0, "metadata": {"points_scored": "2pt", "shot_type": "layup", "scoring_team": "Loyola Ramblers"}} ], "camera_cut": [ {"start_time": 0.0, "end_time": 3.0, "metadata": {"camera_angle": "medium"}}, {"start_time": 3.0, "end_time": 10.0, "metadata": {"camera_angle": "high"}}, {"start_time": 10.0, "end_time": 11.0, "metadata": {"camera_angle": "medium"}}, {"start_time": 11.0, "end_time": 20.0, "metadata": {"camera_angle": "high"}}, {"start_time": 20.0, "end_time": 22.0, "metadata": {"camera_angle": "medium"}}, {"start_time": 22.0, "end_time": 28.0, "metadata": {"camera_angle": "high"}}, {"start_time": 28.0, "end_time": 31.0, "metadata": {"camera_angle": "medium"}}, {"start_time": 31.0, "end_time": 38.0, "metadata": {"camera_angle": "high"}}, {"start_time": 38.0, "end_time": 45.0, "metadata": {"camera_angle": "high"}}, {"start_time": 45.0, "end_time": 53.0, "metadata": {"camera_angle": "high"}}, {"start_time": 53.0, "end_time": 54.0, "metadata": {"camera_angle": "medium"}}, {"start_time": 54.0, "end_time": 56.0, "metadata": {"camera_angle": "high"}}, {"start_time": 56.0, "end_time": 58.0, "metadata": {"camera_angle": "medium"}}, {"start_time": 58.0, "end_time": 68.0, "metadata": {"camera_angle": "high"}}, {"start_time": 68.0, "end_time": 70.0, "metadata": {"camera_angle": "medium"}}, {"start_time": 70.0, "end_time": 76.0, "metadata": {"camera_angle": "high"}}, {"start_time": 76.0, "end_time": 78.0, "metadata": {"camera_angle": "medium"}}, {"start_time": 78.0, "end_time": 81.0, "metadata": {"camera_angle": "high"}}, {"start_time": 81.0, "end_time": 83.0, "metadata": {"camera_angle": "medium"}}, {"start_time": 83.0, "end_time": 88.0, "metadata": {"camera_angle": "high"}}, {"start_time": 88.0, "end_time": 90.0, "metadata": {"camera_angle": "medium"}}, {"start_time": 90.0, "end_time": 108.0, "metadata": {"camera_angle": "high"}}, {"start_time": 108.0, "end_time": 118.0, "metadata": {"camera_angle": "high"}}, {"start_time": 118.0, "end_time": 121.0, "metadata": {"camera_angle": "medium"}} ] }
우리는 다음 네 가지 원칙을 바탕으로 이 스키마를 설계했습니다.
정밀한 시간 설계 (Temporal Precision): 각 세그먼트가 명시적인 타임스탬프를 기준으로 설계되어, 후속 편집이나 분석 툴 등의 시스템과 프레임 단위의 정확한 결합이 가능합니다.
중복 없는 세그먼트 분할 (Non-Overlapping Segments): 동일 세그먼트 스키마 내 결과물들은 서로 중복되는 구간 없이 도출되므로, 비디오 타임라인에 대해 명확하고 일관된 정량적 해석이 가능합니다.
구조화된 형식을 갖춘 유연한 명명 체계 (Open Vocabulary with Structured Outputs): 개발자는 정해진 데이터 형식을 완벽하게 준수하면서도 비즈니스 도메인에 맞는 특화 어휘를 자유롭게 설정할 수 있어, 데이터베이스 및 에이전트 워크플로우에 매끄럽게 연결할 수 있습니다.
멀티모달 맥락 추론 (Multimodal Reasoning): 시각, 청각, 그리고 언어적 신호들의 복합적인 상호작용 속에서 세그먼트 경계와 메타데이터를 추론하기 때문에, 비디오가 가진 본질적인 풍부한 가치를 입체적으로 파악합니다.
4 - 시간 기반 메타데이터 평가 체계 구축하기

4.1 - 평가 데이터셋: 철저한 검증을 거쳐 밑바닥부터 자체 구축
시간 기반 메타데이터를 위한 서빙 모델과 평가 시스템을 구축하는 데 있어 가장 먼저 해결해야 할 문제는 완벽한 벤치마크 데이터가 시중에 존재하지 않는다는 점이었습니다.
학계에서 흔히 활용되는 기존 비디오 이해 벤치마크(예: Video-MME)는 우리의 지향점과는 완전히 다른 과제를 다룹니다. 그들은 대개 비디오 이해도를 인스턴트식 객관식 질의응답으로 축소하여 평가합니다. 비디오 클립과 질문을 확인한 뒤, 주어진 선택지 중 정답을 고르는 형태입니다. 이 포맷은 일반 비디오 추론 능력을 거칠게 측정하는 데는 유용할 수 있으나, 구조화된 실무용 시간 메타데이터를 정밀 출력하는 작업과는 거리가 멉니다. 시간 기반 메타데이터 추출에는 스키마 조건부 분할(schema-conditioned segmentation)이 동반되어야 합니다. 모델이 사용자가 전해준 이벤트 가이드라인에 따라 전체 비디오를 완벽히 쪼개고, 각 세그먼트가 언제 시작해서 언제 끝나는지 경계를 판단하고, 이에 해당하는 복합적인 메타데이터 구조를 한 번에 생성해내야 합니다. 하지만 다양한 비디오 도메인을 통틀어 이러한 정밀 세부 구간 분할 능력과 세그먼트별 구조화 메타데이터 생성을 결합해 평가할 수 있는 벤치마크는 없었습니다.
이에 우리는 직접 평가 데이터셋을 직접 구축했습니다. 이 데이터셋은 저마다 까다롭고 특별한 컷 분할 조건이 필요한 다채로운 카테고리의 콘텐츠들을 전방위로 포괄합니다.
뉴스 방송: 앵커 오프닝, 현장 보도 기사, 인터뷰 전환 등 명확한 인아웃 포인트 분리가 정밀하게 이루어져야 합니다.
영화 및 드라마: 서사와 영상 구도의 미묘한 진행 방향을 고려해 신(Scene) 수준의 분할과 고품질 시각 메타데이터가 필요합니다.
스포츠 경기: 세부 플레이, 득점 포인트, 경기 흐름 전환 등을 훨씬 조밀한 시간 단위로 정교하게 포착해야 합니다.
또한 각 도메인 전반에 걸쳐 실제 미디어 환경에서 마주할 법한 구체적인 세그먼트 인아웃 기준과 메타데이터 스키마를 정립했습니다. 이는 실제 글로벌 미디어 기업이나 스포츠 방송사가 현업에 도입할 법한 전문적인 기준입니다.
특히 데이터의 가치와 공정성을 지키기 위해, 주석 생성 작업을 단순히 일회성 단발식 과정으로 넘기지 않고 체계적인 다단계 휴먼 검증 절차를 고안하여 연계했습니다. 전체 프로세스는 크게 4단계로 구성됩니다.
프로젝트 온보딩: 주석 작업을 시작하기에 앞서, 모호할 수 있는 가이드라인과 구간 경계 선정 규칙을 아주 조밀하고 뚜렷하게 가다듬습니다.
세그먼트 정합 검수: 세부 경계 작성이 완료된 시점에서 메타데이터를 마구 써 내려가기 전에, 구간 구분의 밀도와 정확도만을 별도로 격리하여 먼저 통과시킵니다.
메타데이터 무결성 검수: 실제로 추출한 상세 메타데이터 항목들이 과연 비디오 내용과 한 치의 어긋남 없이 정합한지, 확장 적용하기에 훌륭한 수준인지 꼼꼼히 대조하고 다듬습니다.
최종 엔드투엔드 검증: 한 개의 완벽한 테스트 샘플이 평가셋에 정식 추가되기 직전, 구조와 의미 체계를 다시 한번 종합 검사합니다.
이 엄밀한 루프 안에서 검증 기준을 충족하지 못한 표본들은 가차 없이 교정되거나 이탈되었습니다. 이 과정에서 한 가지 중요한 교훈을 배웠습니다. 시간 기반 메타데이터를 처리하는 데 하나의 획일화된 통합 가이드라인이나 단순 협력 업체 아웃소싱 방식만을 적용하는 것은 무리라는 점입니다. 시각적인 단발성 샷 체인지와 종합적인 서사 전환 지점을 판단하는 일은 서로 다른 주석 가이드와 고유한 도메인 전문성, 독립된 QC 룰을 요구합니다. 우리는 난이도와 발생 빈도에 따라 업무 흐름을 다변화해 분배했습니다. 명시적으로 드러나는 구간 유형들은 다수의 주석 그룹을 활용해 빠르게 수량화하여 필터링했고, 서사의 미세한 반전이나 정체된 주제의 변경 같은 깊은 시맨틱 영역은 숙련된 내부 소수 전문가들이 정성껏 전담 검수하도록 지정했습니다.
그 결과, 평가의 지표로써 충분히 가치 있는 최고 수준의 정확도와 엄밀함을 갖춘 평가셋을 손에 쥐게 되었습니다.
4.2 - 평가 지표 엔지니어링: TBM 평가가 까다롭고 차별적인 이유
시간 기반 메타데이터의 성과를 판단하는 일은 문자열 처리 수준의 전통적인 자연어 처리(NLP)나 범용 이미지 분류 태스크의 성적표를 매기는 것과는 결이 완전히 다릅니다. 이 태스크의 목적지는 단순한 질문의 답이 아니기 때문입니다. 모델은 전체 타임라인에 걸쳐 조각조각 세분화된 구간 정보집(Set of temporal segments)을 내놓아야 하며, 각 구간집마다 명시적인 시작과 끝 지점을 보증하고 해당 영역의 구조화 메타데이터 필드 내용을 알차게 채워 넣어야 합니다. 이 때문에 지표 설계 시 두 갈래의 도전을 해결해야 합니다. '모델이 찾아낸 비디오 분할이 과연 기준 데이터(Ground Truth)의 분할과 잘 일치하는가(구간 분량의 품질)' 그리고 '그렇게 맞물린 구간 단위 속에 담긴 세부 설명들은 실질적으로 정확한가(메타데이터의 품질)'입니다.
기존 지표들의 한계
저희가 초기에 고안한 세그먼트용 기초 공식은 시간 점유율(Temporal coverage)이었습니다. 즉, 정식 기준 데이터의 세그먼트 기간 중 실제 모델이 탐지한 전체 면적이 대략 몇 퍼센트를 커버하는지 계산하는 단순 리콜(Recall) 중심 지표였습니다. 하지만 이 무지하고 직관적인 비율 기준에는 거대한 설계상 허점이 숨어 있었습니다. 모델이 머리를 써서 촘촘하게 비디오 내용을 나눌 필요도 없이, 전체 비디오 길이 만큼 거대하게 단 하나의 정답 세그먼트만을 처음부터 끝까지 무식하게 뿜어내도 점유율은 백퍼센트를 달성하게 됩니다. 더 나아가 자디잔 파편 형태의 수많은 초미세 조각들을 정신없이 뱉어내도, 합산 면적은 그럴듯하게 잡힐 수 있습니다. 즉, 점유율은 정답과 비슷한 타이밍을 밟았는지는 거칠게 알려줄 뿐, 실속 있는 구조로 비디오를 나누고 있는지는 보장해주지 못했습니다.
Temporal F1 도입
이 점을 수정하기 위해 평가 산식에 정밀도(Precision) 관점을 조화롭게 도입했습니다. G = {g_1, ..., g_m}를 기준 메타데이터 세그먼트 집합으로 두고, P = {p_1, ..., p_n}를 예측 데이터 세그먼트 집합으로 정의해 봅시다. 이때 각 세그먼트 영역은 고유 길이를 명시하는 시간대 속성 |s| 값을 갖게 됩니다. U(.) 연산은 각 묶음 범위의 전체 합집합 범위를, |.| 연산은 결합한 총 구간 시간 길이를 뜻합니다.
다대다(N:N) 관계의 수학적 접근 방식 하에서는, 세그먼트 각각의 독립성은 잠시 걷어내고 타임라인 축 전체가 일치하는 정도를 직접 중첩 비교하여 점수를 측정하게 됩니다.

이 방식은 불필요한 과잉 분할(낮은 정밀도)뿐만 아니라, 통째로 건너뛴 유실 상태(낮은 리콜) 양측에 고른 패널티를 줍니다. 결과적으로 시간 평면상 비중 가중치를 적용해 보다 현실성 있게 다듬어진 지표가 탄생했습니다.

하지만 여기에도 여전히 허점이 있습니다. 이 Temporal F1은 세 조각 다섯 조각으로 엉성하게 부스러진 상태로 정답 영역을 에워싸더라도, 누적 면적이 잘 맞아떨어지면 개별 경계선을 대조해 검증하지 않다 보니 단 한 개의 깔끔한 구간으로 맞힌 예측 모델과 똑같은 고득점을 획득하게 됩니다.
이런 미망을 다잡고 세그먼트 단위의 경계 일치도를 확실하게 짚어내기 위해 도입한 것이 바로 Segment F1입니다. 매칭 조합의 총 의사결정 이득(IoU)을 완벽히 높일 수 있는 1대1 매핑 최적화 알고리즘(헝가리안 알고리즘) M*를 도입하여 계산합니다. 각 관계망 중 엄밀히 1대1 구도로 명확히 짝을 지은 소수 정예 세그먼트들만 분자 값 계산식에 참전합니다.

짝꿍을 찾지 못한 돌발 예측 구간들은 정밀도를 갉아먹는 오차(False Positive)로 분류되고, 정답 구간임에도 매칭을 완성치 못한 항목들은 리콜을 좀먹는 낙오 정보(False Negative)로 전락하게 됩니다.
이렇게 연동된 Temporal F1과 Segment F1 듀오는 상호 보완적인 관점에서 한 모델의 부족한 틈새를 사정없이 쥐어짜 줍니다. Temporal F1은 경계의 수많은 쪼개짐에는 한없이 너그럽지만 토탈 점유 시간의 어설픈 구멍을 무섭게 잡아내고, Segment F1은 반대로 정답 시간대 내에 있더라도 경계 축이 칼같이 들어맞지 않으면 셈하지 않습니다. 우리는 이 두 시그널 모두를 가식 없이 투명하게 공개하여 우리 비디오 분할 모델의 현실적인 역량 그래프를 완성했습니다.
메타데이터 질적 가치 평가
비디오 분하 지표들이 정확한 경계의 검수를 성실히 조율한다면, 메타데이터 품질 평가는 그 바운더리 내부에 채워진 영양가 높은 지식의 실체를 정복하는 일입니다. 메타데이터에 등록된 문장 요약, 다채로운 카테고리 태그 묶음, 등장 인물 이름 정보 등은 자연스러운 고차원의 개방 어휘 형태를 취하기 때문에, 기존의 고지식한 룰 베이스 형태의 텍스트 일치율 체크로는 가치 수렴을 도저히 도출하기 어렵습니다.
이에 대한 돌파구로 우리는 강력한 선도 모델을 중재자로 삼는 LLM-as-judge 설계를 조율해 얹었습니다. 매칭이 성사된 각 세그먼트 짝꿍을 정밀 대조판에 올리고, 언어 모델 판관이 사려 깊은 루브릭 평가표를 차례대로 추적하게 함으로써 각 속성별 정확성을 냉정히 가늠하게 했습니다. 화면 설명, 트랜스크립트, 키워드, 카테고리 태그, 상황 설명 등 다양한 속성에 맞춰 각기 구체적이고 체계화된 평정 기준을 정립했습니다. 예측 구간과 정답 구간의 폭이 실질적으로 어긋나 있을 때는 판결과 교정이 현명하게 연동됩니다. 즉, 메타데이터 결과에 생긴 틈새가 순수 논리 도출 실패 탓인지 아니면 구조적 영역 미스에 의한 반사 작용인지 종합 판단하며 점수를 올곧게 정량화하고 가중치를 연계해 산출합니다.
4.3 - 지표 최적화를 위한 보상 연계 강화 학습 (RLVR): 학습과 테스트의 완벽한 득점 동치 달성
저희가 개발해낸 상기 지표 시스템은 단순히 출시 후 성능 평가용 장식품이 아니라, 연구실 모델 학습 사이클을 굴리는 고속 엔진 보상 장치로 완전히 일체화되었습니다. Pegasus 1.5는 검증 가능한 보상 기반 강화 학습(RLVR, Reinforcement Learning with Verifiable Rewards)을 활용하여 비약적인 도약을 이룩했습니다. 시계열 메타데이터 추출 태스크와 검증 가능한 하방 보상 체계는 기묘할 정도로 환상적인 시너지를 보입니다.
TBM 영역이 어째서 RLVR 구조에 특화되었는가
동적 검증형 보상 장치(RLVR)를 안정적으로 운용하려면, 사람의 주관적인 정성 평가나 눈길에 매달릴 필요 없이 오직 논리적인 프로그램 연산만으로 예측 구간물의 영양가와 완벽성을 기하학적으로 가려낼 수 있는 수치 환경이 완성되어야 합니다. TBM은 이에 걸맞게 두 갈래 조건 모두를 무리 없이 만족합니다. 첫 번째로, 구조 규칙성 자체가 명확히 입증 가능(Verifiable)합니다. 데이터 출력물이 깔끔한 JSON인지, 사전에 약속한 변수 컬럼 양식을 제대로 준수했는지, 시간 구간들 사이에 꼴사납게 엉망진창 겹치는 혼조가 발생하진 않았는지를 사소한 한 프레임 스케일 수준에서 완전히 수학적 계산기(deterministic check)로 추려낼 수 있습니다. 두 번째로는, 분리 완성도 또한 계산적으로 밝혀낼 수 있습니다. 정답 가이드 영역들과 Temporal F1, Segment F1 합성 알고리즘이 미리 동기화되어 있다면, 경계선의 완성도를 완전 자동화 시스템이 소수점 아래 단위로 냉정하게 정답 리워드로 연결하게 할 수 있습니다. 이렇듯 테스크 전체 구조가 연산 검증이 쉬운 토양 위에 세워진 덕분에 Pegasus 1.5는 RLVR의 효과를 완벽하게 누릴 수 있었습니다.
보상 시스템의 구조 설계
강화 학습의 핵심이 되는 최종 점수 시그널은 세밀하게 제안된 다면적 에너지 분포로 정해집니다. 포맷 컴플라이언스(Format validity) 검사, 즉 적형의 JSON 데이터 규칙 준밀 준수 여부는 점수 산식 내에서 매우 엄격하고 독립적인 전제 조건 성격의 가중치로 다뤄집니다. 아무리 환상적으로 미디어를 쪼갰을지언정 아웃풋 형식이 구문 해석 에러(Parse error)를 일으킨다면, 한 자릿수 혜택도 없이 즉시 0점 보수 처리를 받게 됩니다. 이를 통해 추론 성능과 구조 규칙성을 교환하는 꼼수를 철저히 차단합니다. 세부 세그먼트 생성 평가 보상 영역에서는 4.2 단계에서 기술한 F1 듀오 시그널이 영양제 역할을 맡으며, 내부 메타데이터 추출 보상 부문에서는 AI 심판관이 검사한 점수가 연산되어 모델을 벼려냅니다.
보상 해킹 장벽의 극복과 설계 고도화
이 강화 학습 설계 과정에서 개발진을 가장 놀라게 했던 교훈 중 하나는, 모델이 우리의 지표적 취약점을 상상 이상으로 거칠고 똑똑하게 '보상 해킹(Reward hacking)' 해내는 모습을 직접 발견했을 때의 충격이었습니다. 초창기처럼 리콜 비율이 편향된 단순 누적 비중 보상(temporal coverage) 체계를 성급하게 얹고 질주를 시도했을 때, 모델은 가이드라인의 맥락을 살리기보다는 기하학적인 고득점 꼼수를 금방 눈치챘습니다. 비디오 전체를 가뿐히 덮는 뚱뚱한 구간 한 개를 능글맞게 제시하거나, 수백 개의 짤막한 벌집 피자 형태 구간들을 미디어를 향해 발사해 합산 면적을 올리는 전략을 취한 것입니다. 결과 점수는 놀라운 속도로 천장을 뚫었지만, 실제 인간이 보기에 완전히 조각나 버린 쓰레기 같은 산출물을 배설할 뿐이었습니다.
이는 고전적인 보상 해킹의 완벽한 예시였으며, 저희로 하여금 학습 지표 자체를 더 엄격하게 개선하도록 만들었습니다. 커버리지 위주의 단순 계산법에서 탈피해 정밀도를 가미한 Temporal F1을 세우고, 이를 최종적으로 헝가리안 매칭 기반의 Segment F1과 입체적으로 가교해 결합하는 등 끈질긴 지표 고도화를 수동 루프로 거쳤습니다. 이로써 강화 학습은 단지 인공지능이 영리해지는 보일러 역할뿐만 아니라, 우리가 수년 동안 준비해 온 테스팅 채점 규칙의 구멍까지 역설적으로 사정없이 찔러주는 단련기의 역할을 훌륭히 완수해 내었습니다.
기형적 꼼수 차단 장갑 강화
F1 패러다임을 뿌리 깊게 박아넣은 현대적인 지표 설계는 결국 가장 흔히 발견되는 거대한 구멍 두 갈래를 완벽하게 잠가버립니다. 불필요하게 찢는 고질병인 벌집 피자 양상(정밀도 패널티로 사살)과 게으르게 통째로 게워내는 슬라임 형태(재현율 하락으로 통제) 모두가 고통받고 도태되는 보상 지도가 형성된 것입니다. 또한, 기초 구조 규격을 가르는 형식 게이트가 험악하게 앞길을 가라막고 있어, 지표의 사각지대를 공략하는 꼼수 대신 오직 '진짜 비디오 세부 연산 실력을 늘리는 정석 방식' 만이 생존의 유일한 출로가 되도록 인공지능의 길을 닦았습니다.
그 덕분에 실제 운영에 올라가 검증하는 지표의 수학 공식과, 인큐베이터 안에서 모델을 쪼아대며 담금질하는 훈련 도구의 영양 균형이 100% 한 몸이 되는 기적의 트레이닝 루프가 정비되었습니다.
5 - TwelveLabs 플레이그라운드에서 만나는 Pegasus 1.5

연구실에서 아무리 화려한 장표를 뽐낸다 한들 실제 현업의 고단한 워크플로우에 결합하지 못한다면 빛을 보지 못하는 법입니다. Pegasus 1.5의 세계에서는 단순 클립 하나를 던져두고 기도를 가득 담은 임시 처우식 질문을 겨우 한 줄 적으며 간지러운 답변에 절절맬 필요가 완전히 없어집니다. 데이터의 가이드라인과 템플릿 필드를 정의해 얹은 뒤 단 한 번만 TBM 분석 호출구를 울려두면, 귀하의 후속 인메모리 프로세스나 분석 DB 시스템이 즉각 인식하고 소화할 수 있는 깨끗한 타임스탬프 JSON 팩이 당신의 프런트엔드 테이블에 내려앉습니다. 수작업 스태프의 장시간 노고나 누더기처럼 기워둔 맞춤형 인제스천(Ingestion) 아르바이트 로직 없이, 오직 비디오를 선택하고 스키마를 던져넣은 뒤 산출되는 JSON 결과지를 시선으로 가볍게 확인하며 원시 미디어 파일을 즉석 결산 데이터로 고속 업그레이드하기만 하면 됩니다.
상단 데모의 귀여운 농구 비디오 경기가 이 혁신의 쓸모를 그대로 대변합니다. Pegasus 1.5는 단 한 차례의 워크플로우 회전만으로도 실제 박진감 넘치는 본선 게임 영상과 부차적인 대기 구도, 관람석 풍경 등을 스마트하게 단번에 칼바람처럼 분리해 냅니다. 각 세그먼트에는 사용자가 요청한 상세 정량 스키마 정보가 완벽한 필드로 장식되어 있습니다. 이 덕분에 아웃풋을 미디어 아카이빙 솔루션이나 자동 하이라이트 생성, 데이터 마이닝 파이프라인에 그대로 직통 송출해도 아무 막힘이 없습니다. 이 기술은 인간의 개입을 배제하지 않습니다. 사람의 '임무 성격'을 바꿀 뿐입니다. 골치 아프고 지루한 수동 검수 대신, 기계가 95% 완성한 고품질 데이터의 지점을 한눈에 확인하고 보다 가치 있는 고차원 창작 의사결정에 에너지를 집중하는 것입니다. 이것이야말로 Pegasus 1.5가 개발자들에게 열어젖힌 가장 현실적이고 영리한 패러다임 전환입니다. 비디오를 당신의 전산 원장에 매끄럽게 흐르도록 만드는 실제적인 연산 입력값으로 승격시키는 일 말입니다.
6 - 성능 비교 결과: 프로덕션 환경에서 이것이 결정적인 차이를 만드는 이유
플레이그라운드가 제공하는 혁신적인 사용자 경험 뒤에는 압도적이고 객관적인 정량 지표 성능이 든든하게 뒷받침되어 있습니다. 치열하게 수행된 비교 평가에서 Pegasus 1.5는 미디어 현업에서 가장 눈여겨보는 핵심 역량인 경계 탐지 품질(Segmentation quality)과 멀티모달 지시 준수 품질(Multimodal prompting quality) 양측 모두에서 Google의 최신 Gemini 1.5 Pro를 여유롭게 따돌렸습니다. 하단의 벤치마크 데이터를 살펴보면, Pegasus 1.5는 종합 세그먼트 생성 평가에서 점수 0.4279 대 0.3370으로 가볍게 선두에 섰으며, 텍스트와 이미지 가이드라인이 어우러진 멀티모달 프롬프트 지시 준수 세세 평가에서도 무려 0.4555 대 0.3243이라는 독보적인 격차를 벌렸습니다. 이는 경계를 식별하는 안목과 복잡하게 얽힌 다면 요청에 따라 정보를 누수 없이 정렬하는 추출 신뢰도가 한 차원 높음을 실증합니다.

이 격차는 실제 산업 현장 기준의 롱콘텍스트(Long-context) 처리 영역에서 더 웅장하게 발휘됩니다. Pegasus 1.5는 단 한 차례의 요청 큐만으로 최대 2시간짜리 비디오를 통째로 정해진 스키마 사양대로 고속 분해해 냅니다. 스포츠 풀타임 중계 중인 녹화본을 비롯해 꼼꼼한 마라톤 인터뷰 녹취, 그리고 영화 한 편 전체 분량을 가리지 않는 실습 친화적이고 탁월한 내구력입니다.

이 완벽한 증명들은 이 글의 핵심적인 외침을 관통합니다. Pegasus 1.5는 흔하디흔한 비디오 챗봇이나 일반적인 질의응답 화면에 입힌 소소한 화장 스킨 따위가 아닙니다. 이 모델은 시간적 구조 분석에 완벽히 길들여진 정예 스페셜리스트 머신입니다. 사건들이 어디서 태어나 어떤 흐름을 지나 작별 지점을 맞이하는지 영리하게 인지하며, 멀티모달 프롬프트의 난해한 미션을 흔들림 없이 처리하고, 실제 미디어 업계 전문가들이 매일 마주하는 무겁고 드넓은 장편 비디오를 한 치의 망설임 없이 소화해 내기 때문입니다.
7 - 결론
대다수의 비즈니스 전선에서 비디오는 여전히 야생의 어두운 비구조화 미디어로 머물러 왔습니다. 보물 같은 정보와 광맥이 가득 숨겨져 있지만, 소프트웨어 로직과 기계가 안전하게 갉아 먹거나 전산 시스템으로 자동 통제하기엔 너무나 무서운 난공불락의 영토였기 때문입니다. Pegasus 1.5가 가져온 혁신은 단순한 버전 소수점 패치가 아닙니다. 기계와의 거래 단위를 어설픈 낱장 답변에서 규격화되고 완벽히 동기화된 구조적 시간 메타데이터 데이터 세트로 완전히 격상시켜 버렸기 때문입니다. 인공지능 모델이 스스로 사건의 앞뒤 마디를 구별하고 끈질기게 가치 있는 지식의 칼라칩을 생성해 내는 수준에 편입된다면, 비디오는 더 이상 구경을 위해 눈을 고정해야 하는 원시적 '시청 영상'이 아니라 시스템이 직접 알고리즘을 굴려 가치를 창출할 수 있는 똑똑한 '클라우드 파일'이 됩니다.
이 장려한 정복을 달성하기 위해 우리는 문제의 첫 단추부터 다시 생각했습니다. 시간의 완성도를 어떻게 정량화하고 가둘 것인지, 파이프라인의 기쁨이 되는 평가지 데이터는 어떻게 냉정하게 확보할 것인지, 어떻게 학습의 리워드를 보장 구조와 완전 결합할 것인지 같은 수많은 철학들을 완전히 헐어내서 다시 쌓은 결과물입니다. 그 노력 덕분에 이 모델은 그저 소소한 사내 데모룸에서 잠깐 반짝하고 꺼지는 장난감이 아니라, 글로벌 비즈니스 프로덕션 데이터 라인에 즉시 나사로 단단히 조여 들어갈 수 있는 믿음직한 기어 장치로 완성되었습니다.
메시지는 아주 단순하고 선명합니다. 귀하가 수립하고 있는 모든 기술적 워크플로우(지식 검색, 트래픽 통계, 규제 및 심사, 에이전트 자동화 등)가 비디오와 인프라의 마주침 속에서 숨 쉬고 있다면, 비디오를 쪼개고 라벨러에게 아쉬운 소리를 하며 수동 주석 공정을 어렵게 조립하는 시대는 끝났습니다. 원하는 분석 스키마 양식을 단 한 번만 정의해 두면, 당신은 그저 시스템 뒤편에서 인공지능이 막대한 라이브러리를 고속 청동 압착기로 균일하게 찍어 누르는 모습을 바라보기만 하면 됩니다. 비디오는 비로소 정교하고 계산 가능한 우리의 '전산 원장'의 일부로 편입되었습니다.
직접 경험해 보세요
지금 바로 전용 TwelveLabs 플레이그라운드를 방문해 Pegasus 1.5의 저력을 눈으로 직접 확인해 보시거나, 혹은 비동기(Asynchronous) 분석 데이터 엔드포인트를 사용해 현재 배포 중인 애플리케이션에 API 코드를 다이렉트로 심어 보세요. 개발이 처음이시라면 친절하게 구성된 비디오 세그먼트 가이드 문서를 확인하시면 좋습니다. 사용 가능한 세부 시스템 변수들과 정식 파라미터 값들에 흥미가 돋는다면, API 레퍼런스 페이지 내 비동기 태스크 생성 명세를 읽어 보세요.
우선 영상 하나를 고른 뒤, 원하는 스키마 구조를 가뿐하게 구성해 호출해 보세요. 백 번의 세미나를 듣는 것보다, 여러분의 실전 비디오 파일 하나가 이 모델을 통과한 뒤 뿜어내는 정밀한 JSON의 감동을 직접 마주하는 편이 백배는 더 빠를 것입니다.
TwelveLabs 팀 임직원 명단
Pegasus 1.5는 산하의 기술 functional 그룹 전반의 정공법적인 전방위 융합 프로젝트로 마침내 완수되었습니다.
사이언스 파트: 김기안, 최삼, 남리아, 오헨리, 변딜런
ML 엔지니어링 파트: 에스제이, 이케빈, 정웨이드
데이터 가치 엔지니어링 파트: 조엘튼, 김헤일리, 강케일림, 정희예원
제품 기획 PM 파트: 홍섀넌




