제품

어두운 비디오에서 구조화된 자산으로: 시간 기반 메타데이터 파이프라인 구축하기

케빈 리

Twelve Labs가 검색 불가한 비디오 아카이브를 구조화되고 쿼리 가능한 자산으로 변환하는 스키마 조건부 시간적 추출 시스템인 '시간 기반 메타데이터(Time-Based Metadata)'를 구축한 방법과, 이를 지속적으로 개선할 수 있게 해준 이중 트랙 평가 프레임워크를 소개합니다.

Twelve Labs가 검색 불가한 비디오 아카이브를 구조화되고 쿼리 가능한 자산으로 변환하는 스키마 조건부 시간적 추출 시스템인 '시간 기반 메타데이터(Time-Based Metadata)'를 구축한 방법과, 이를 지속적으로 개선할 수 있게 해준 이중 트랙 평가 프레임워크를 소개합니다.

목차

No headings found on page

뉴스레터 구독하기

뉴스레터 구독하기

영상 이해 분야의 최신 기술 업데이트, 튜토리얼 및 인사이트를 받아보세요.

영상 이해 분야의 최신 기술 업데이트, 튜토리얼 및 인사이트를 받아보세요.

AI로 영상을 검색하고, 분석하고, 탐색하세요.

2026. 5. 11.

15분

링크 복사하기

방송사, 스포츠 리그, 미디어 기업, 대기업 플랫폼들은 페타바이트 규모의 비디오 아카이브를 보유하고 있습니다. 이러한 콘텐츠의 대부분은 우리가 다크 비디오(dark video)라고 부르는 영역에 속합니다. 존재하기는 하지만, 검색할 수 없고 구조화되어 있지 않으며 의미적 수준에서 활용할 수도 없는 상태이기 때문입니다.

이유는 민망할 정도로 단순합니다. 비디오는 텍스트가 아니기 때문입니다. 비디오 파일에는 grep 명령어를 쓸 수 없고, SELECT * FROM video WHERE scene = 'scoring_play' 같은 쿼리도 존재하지 않습니다. 비디오가 경제적 가치를 지니기 위해서는 먼저 구조화된 세그먼트와 머신러닝이 읽을 수 있는 메타데이터로 세분화되어야 합니다. 우리는 이를 비디오 자산화(video assetization)라고 부릅니다.

이 글은 저희가 타임라인 기반 메타데이터(Time-Based Metadata, TBM)와 이를 위한 평가 시스템을 어떻게 구축했는지에 대한 이야기입니다. 이 과정에서 한 가지 분명해진 사실이 있습니다. 공간적·시간적으로 정렬된 비디오 이해를 설계하고 평가하려면 텍스트나 이미지 모델에 적용되는 방식과는 완전히 다른 접근법이 필요하다는 점입니다.


1. 자산화의 간극: 고객이 실제로 원하는 것

20만 시간 분량의 뉴스 아카이브를 관리하는 방송사를 상상해 보세요. 현재 이 작업은 수작업으로 이루어집니다. 아카이브 관리자가 수동으로 각 세그먼트를 기록하고, 뉴스 스토리를 태그하며, 화자를 식별하고, 주제의 경계를 표시합니다. 비디오 1시간당 대략 15달러의 비용이 들고 예산은 줄어들고 있습니다. 이 방식으로는 도저히 스케일을 확장할 수 없습니다.

혹은 수천 개의 인플루언서 비디오에서 자사 제품의 PPL을 추적하려는 CPG(소비재) 브랜드를 예로 들어보겠습니다. 이들은 크리에이터가 제품을 화면에 비추며 카메라를 보고 말하는 모든 순간을 찾아내야 합니다. 단순히 제품이 등장했다는 사실을 아는 것만으로는 부족하며, 정확히 언제, 얼마나 돋보이게, 어떤 맥락에서 등장했는지를 파악해야 합니다.

이는 가상의 시나리오가 아닙니다. 방송 아카이브 관리, 스포츠 하이라이트 자동화, 브랜드 인텔리전스, 규정 준수(compliance) 모니터링 등 저희가 접하는 거의 모든 미디어 엔터프라이즈의 업무 환경은 다음 두 가지 독립적인 결과물을 동시에 요구합니다.

  1. 정확한 시간적 경계(precise temporal boundaries): 각 세그먼트가 어디서 시작하고 끝나는가?

  2. 스키마를 따르는 구조화된 메타데이터(schema-conforming structured metadata): 그 세그먼트 안에서 어떤 일이 일어났는가?

오늘날 대부분의 비디오-언어 모델에 "이 비디오에서 무슨 일이 일어나고 있나요?"라고 질문하면 유려한 문장으로 답해 줄 것입니다. 하지만 "각 뉴스 보도의 시작/종료 타임스탬프와 함께 주제, 화자, 신뢰도 필드가 구조화된 결과를 제공해 주세요"라고 요청하는 순간, 범용 비디오 추론과 실제 프로덕션 수준의 세그먼트 분할은 전혀 다른 차원의 문제라는 것을 곧바로 깨닫게 됩니다.

방송사가 실제로 출력물로 필요로 하는 것은 다음과 같습니다. 각 뉴스 세그먼트에는 제목, 요약, 핵심 주제, 인물/단체명, 신뢰도가 포함되어야 합니다. 1시간 분량의 뉴스 프로그램을 처리할 때, TBM은 다음과 같은 출력을 생성합니다.


각 세그먼트는 editorial_subjects, visual_subjects, names, confidence 등의 구조화된 메타데이터를 포함합니다. 바로 이 시점에서 1시간짜리 비디오 프로그램이 쿼리 가능한 개별 객체들의 집합으로 변환됩니다.


2. 기존 접근 방식의 한계

경계 예측의 프레임워크 한계

거대 언어 모델(LLM)은 요약, 질의응답, 콘텐츠 묘사 등 특정 구간에 대해 추론하는 작업에 뛰어납니다. 그러나 세그먼트의 경계가 정확히 어디인지 예측하는 것은 완전히 다른 종류의 과제입니다.

경계 예측은 다음과 같은 세 가지 난제가 얽혀 있는 지점에 위치합니다.

  • 약지도 학습 기반 시간적 로컬라이제이션(Weakly-supervised temporal localization): 데이터셋의 정답(ground truth) 레이블이 드물고 주관적입니다.

  • 멀티모달 변화점 검출(Multimodal change-point detection): 경계는 시각, 오디오, 의미론적 신호의 동시다발적인 변화에 의해 정의됩니다.

  • 자기회귀 디코딩 환경에서의 토큰 수준 분류: 모델은 타임스탬프를 정확한 토큰 값으로 출력해야 합니다.

초기 실험에서 기존의 최고 성능 모델들조차 의미적으로는 그럴듯하지만 시간적으로는 오차가 있는 경계를 예측했습니다. 화면 전환이 확실하게 일어나는 지점에서 시작해야 할 세그먼트가 5초에서 15초씩 밀리는 현상이 발생한 것입니다. 모델은 무슨 일이 일어나는지는 이해했지만, 정확히 언제인지는 짚어내지 못했습니다.

스키마가 없다면 자산이 아닙니다

대부분의 비디오-언어 모델은 자유 형식의 텍스트를 생성합니다.

"이 비디오는 뉴스 방송을 보여줍니다. 약 2분 경에 스포츠 세그먼트로 전환됩니다..."

이는 사람이 읽기에는 유용할지 몰라도, 후속 자동화 시스템에는 거의 쓸모가 없습니다. 엔터프라이즈 워크플로우에서 실제로 필요로 하는 정형 데이터는 다음과 같은 형태입니다.

{
  "start_time": 120.45,
  "end_time": 245.80,
  "metadata": {
    "segment_title": "NFL 플레이오프 종합",
    "editorial_subjects": ["NFL", "플레이오프", "부상 리포트"],
    "names": ["패트릭 마홈스", "라마 잭슨"],
    "confidence": "HIGH"
  }
}

표현력이 풍부한 텍스트와 기계가 읽을 수 있는 구조화된 출력 사이의 간극은 단순히 포맷팅의 문제가 아닙니다. 이는 모델링과 평가가 복잡하게 얽혀 있는 문제입니다.


3. 우리의 접근 방식: 스키마 조건부 시간적 추출

해결할 문제 선택하기

TBM을 설계하기 시작했을 때 우리는 갈림길에 섰습니다. 비디오를 입력하면 그에 대한 모든 질문에 답할 수 있는(세그먼트 추출은 여러 기능 중 하나일 뿐인) 범용 모델을 만들 것인가? 아니면 비디오와 사용자가 정의한 스키마를 함께 입력받아 해당 스키마에 정의된 대로 정확하게 세그먼트와 필드를 채워 넣는 스키마 조건부 추출 모델(schema-conditioned extraction model)을 만들 것인가?

처음에는 첫 번째 옵션이 매력적으로 느껴졌습니다. 하지만 앞서 2장에서 언급한 실패 유형들(모호한 경계, 구조화되지 않은 필드, 실행할 때마다 일관성 없이 변하는 결과물)은 범용 목적 프레임이 가진 구조적 구조의 한계임이 드러났습니다. 명확한 스키마가 없다면 모델은 무엇을 찾아야 할지, 또 얼마나 정밀하게 찾아야 할지 알 수 없으며, 평가 역시 "그럴듯하게 들리는가?"의 영역을 벗어날 수 없습니다.

그래서 우리는 두 번째 길을 선택했습니다. TBM은 무엇이든 다 하는 모델이 아닙니다. 정확한 시간 경계와 스키마를 준수하는 메타데이터를 추출하는 데 고도로 최적화된 추출 전용 모델입니다.

스키마 조건화가 주는 실질적인 이점

TBM에서 사용자는 어떤 세그먼트를 찾고 어떤 메타데이터 필드를 추출할 것인지 정의하는 구조화된 명세인 segment_definitions를 제공합니다. 이는 단순히 사용하기 편리한 API 설계를 넘어서, 모델링 측면에서 세 가지 강력한 효과를 줍니다.

탐색 영역을 크게 축소합니다. 비디오의 모든 면에 대해 자유로운 자연어 설명을 생성하는 대신, 모델은 스키마가 정의한 제한된 출력 공간 안에서만 작동합니다. 예를 들어 스포츠 중계에서 down, scoring_play, penalty_type만 명시해주면, 그럴듯해 보이지만 실제 가치는 없는 무수한 관련 없는 정보들이 필터링됩니다.

경계 정렬을 안정화합니다. 모델이 무엇을 찾고 있는지("인플레이 경계"와 "광고 전환점") 명확히 인지하게 되면, 단순한 변화점 감출 휴리스틱에 의존하는 대신 호각 소리, 포메이션 변화, 페이드 아웃 등 도메인 특화된 시간적 단서들을 적극적으로 활용할 수 있게 됩니다.

평가의 명확한 기점이 됩니다. 스키마의 각 필드는 구체적이고 측정 가능한 평가 대상이 됩니다. "모델이 비디오를 잘 이해했는가?"와 같은 모호한 질문 대신, "모델이 이 세그먼트에서 down 필드의 값을 3으로 올바르게 분류했는가?"와 같이 명확한 질문을 던질 수 있습니다.


4. 지원 범위: 4단계 단서 분류 체계

스키마 조건화가 실제로 작동하게 하려면, 스키마가 어떤 유형의 신호를 추적해야 하는지 알아야 합니다. 비디오 세그먼트 분할을 어렵게 만드는 요인 중 하나는 경계를 정의하는 신호의 유형이 매우 다양하다는 점입니다. 카메라 앵글 전환과 같은 프레임 수준의 시각적 변화, 뉴스의 코너 전환 같은 의미론적 구조적 흐름, 화자 교체와 같은 오디오 단서, 그리고 시각·청각 정보와 복잡한 경기 규칙이 결합된 스포츠 이벤트 등이 있습니다. 이 모든 것을 단 하나의 접근법으로 처리할 수는 없습니다.

우리는 이 다양한 단서들을 네 가지 티어로 분류했습니다.

단서 티어 (Cue Tier)

설명

경계 신호 예시

저수준 비주얼 (Low-Level Visual)

프레임 내부의 시각적 변화. 상세한 비주얼 정보.

장면 전환, 카메라 앵글 변경

고수준 시맨틱 (High-Level Semantic)

시각 및 청각 스트림 전반에 걸친 의미론적 및 서사적 전개 흐름의 변화.

주제 전환, 방송 코너 편집 경계 (앵커 ↔ 현장 기자 ↔ 스튜디오)

오디오 (Audio)

음성, 음악, 효과음, 무음 등의 음향 신호.

화자 전환, 배경 음악(BGM) 변경

컴포지트 (Composite)

시각, 청각 및 맥락적 정보가 투입된 멀티모달 신호.

스포츠 중계의 각 플레이 단위, 광고 시간 돌입

이 분류 체계가 왜 중요할까요?

범용 비디오 모델은 일 한 단계들을 세분화하여 구분하지 않습니다. 하지만 실제 고객들의 세그먼트 분할 요구 사항은 특정 단서 티어 혹은 이들의 조합과 정확히 매칭됩니다.

  • 방송사의 "독립된 보도 서사 분할" → 고수준 시맨틱 (주제 전환 + 보도 세그먼트 경계)

  • 편집팀의 "컷 편집 경계 감지" → 저수준 비주얼 (카메라 전환, 앵글 변경)

  • 스포츠 리그의 "플레이 단위 분할" → 컴포지트 (선수 정렬 포메이션 + 호각 + 경기 규칙)

  • 팟캐스트 플랫폼의 "화자 분류 기반 전사" → 오디오 (화자 전환 + ASR 주제 변경)

이것은 단지 분류를 위한 분류가 아닙니다. 각 티어는 저마다 다른 모델링 오케스트레이션, 학습 데이터 개발, 그리고 평가지표 설정을 필요로 합니다. 저수준 비주얼은 프레임 단위의 변화 감지에 더 가깝다면, 컴포지트 유형은 긴 맥락에 대한 복합적이고 장기적인 추론이 필수적입니다.


5. 멀티모달 그라운딩: 텍스트를 넘어선 객체 연결

엔터프라이즈 비디오 세그먼트 분할을 다루면서 지속적으로 마주친 한계가 있습니다. 찾고자 하는 대상이 무엇인지 텍스트 단독으로는 충분히 설명할 수 없는 경우가 많다는 점입니다.

텍스트 설명만으로는 부족한 이유

여행 콘텐츠 플랫폼을 예로 들어 보겠습니다. 그들이 해결하고자 하는 현실적인 요구사항은 다음과 같습니다.

서울을 방문한 외국인들이 올린 수만 개의 브이로그에서 화면에 "N서울타워"가 등장하는 모든 순간을 찾고, 그것이 한강이나 서울 전경에서 멀리 잡힌 구도인지, 남산공원을 걸어 올라가는 도중의 장면인지, 전망대 위에서 타워 본체를 클로즈업한 컷인지, 혹은 야간 조명이 켜진 장면인지를 분류해야 합니다.

텍스트 설명만으로는 부족합니다. 모델이 단순히 "N서울타워"라는 어휘적 명칭을 안다고 해서, 그 구체적인 시각적 형태를 정확하고 일관성 있게 떠올려 낼 수 있는 것은 아닙니다. 비디오-언어 모델에서 텍스트의 언어적 인식과 특정 대상의 시각적 식별은 다른 문제입니다. 학습 데이터의 분포에 따라 시각적 표상이 정확하지 않거나, 도쿄타워나 CN 타워 같은 유사한 형태의 송신탑과 혼동할 수 있습니다. 이때 N서울타워의 기준이 될 수 있는 참조 이미지 한 장을 모델에 함께 전달한다면, 모델은 비디오 프레임들과 직접 비교할 수 있는 시각 임베딩의 기준점(anchor)을 갖게 됩니다. 이로써 "텍스트를 시각으로 번역하는" 과정에서 오는 병목이 사라집니다.

참조 객체 시스템 (Entity Reference System)

TBM은 media_sources 지정을 지원합니다. 세그먼트 정의에 <reference_name> 태그를 배치하면, 모델은 사용자가 직접 등록한 참조 이미지를 기반으로 대상을 정확히 인식하여 메타데이터를 추출할 수 있습니다.


출처 - 세종학당재단, https://www.kogl.or.kr/recommend/recommendDivView.do?oc=&recommendIdx=91796&division=img#

출처: 세종학당재단 (KSIF)

{
  "segment_definitions": [{
    "id": "namsan_tower_appearances",
    "media_sources": [
      { "name": "namsan_tower_img", "media_type": "image", "media_url": "<https://cdn>.../namsan_tower.jpg" }
    ],
    "description": "<namsan_tower_img>를 통해 식별되는 N서울타워가 화면에 나타나는 영상 구간",
    "fields": [
      { "name": "screen_prominence", "type": "string",
        "enum": ["HERO_SHOT", "PARTIAL", "BACKGROUND"] },
      { "name": "shot_type", "type": "string",
        "enum": ["CITY_ESTABLISHING", "PARK_WALK", "OBSERVATION_DECK", "NIGHT_LIGHTUP"] }
    ]
  }]
}

모델 시스템 측면에서 이는 모호하고 열린 정의의 탐색 문제를 **기반 매칭 정보 검색(grounded retrieval) 및 시간적 로컬라이제이션** 문제로 치환합니다.

  1. 참조 대상 해석(Reference resolution): 모델은 전체 비디오 전반에서 <namsan_tower_img>를 하나의 일관된 시각적 특징으로 맵핑합니다.

  2. 시각 임베딩 정렬: 입력된 참조 이미지는 비디오 프레임 정보와 동일한 다차원 표상 공간 벡터로 변환되어 배치됩니다.

  3. 조건부 구획 경계 감지: 세그먼트 경계는 단순한 일반적인 장면 변화가 아닌, 특정 시각적 객체의 노출 및 출현 상태 여부에 근거하여 설계됩니다.

이것이 단순히 "도시 전경 장면을 찾으라"는 지시와 "N서울타워가 나오는 장면을 찾으라"는 지시의 차이점입니다. 기술적 구현의 난이도가 다른 것이 아니라, 제품 단에서 사용자의 문제를 어떻게 비즈니스 지향적으로 정의하고 해결하느냐의 수준 차이입니다.

이처럼 객체 데이터와의 정확한 연동이 개입하는 순간부터 평가는 시간 간격 경계 예측의 정확성, 카테고리 태깅 매핑의 정확성, 그리고 입력된 고유 객체 식별의 일관성이라는 다차원적인 검증 경로를 가져가야 합니다. 이는 평가 영역의 복잡성을 한 단계 더 끌어올리게 됩니다.


6. 품질 보증: 이원화된 평가 트랙 (Dual-Track Evaluation)

TBM 개발 과정에서 얻은 가장 결정적이면서도 직관에 반하는 발견은, 비디오 세그먼트 탐색 및 결과 메타데이터 변환 품질을 단 하나의 종합 점수로만 판단해서는 안 된다는 점이었습니다.

잠재적 인과 결합의 함정

다음 두 가지 서로 다른 오작동 시나리오를 비교해 보겠습니다.

시나리오 A. 모델이 10초~25초 구간의 세그먼트를 출력했습니다. 하지만 실제 정답지는 12초~48초 구간이었습니다. 앵커의 15초 오프닝 멘트는 잡았으나, 23초 동안 길게 이어진 후속 핵심 보도 스토리를 통째로 유실한 셈입니다. 앵커 이름, 토픽 태깅, 화자 지정 등의 분석은 완벽했지만 시간적 구간 영역은 전체 정보의 1/3만 간신히 확보했습니다.

시나리오 B. 모델이 12초~48초 구간을 자로 잰 듯 정확하게 포착했습니다. 하지만 출력된 태그에서는 "정치 시사 분석"을 "오늘의 날씨 예보"로 잘못 판단했습니다. 구간은 맞았으나 메타데이터 알맹이가 빗나간 것입니다.

단순히 평균을 낸 지표로는 이 두 오류 시나리오를 명확하게 변별해 낼 수 없습니다. 각 상황에 맞는 해결 방식은 정반대의 설계 방향을 가리킵니다. 전자는 시간적 경계 추출 알고리즘의 개선이 시급한 상황이고, 후자는 언어 및 지식 그래프 부합 문제를 학습해야 합니다. 이 실패 요인을 발라내 결함을 명시하지 않으면 엔진 개발 방향 자체가 혼선에 직면합니다.

우리의 극복 체계: 두 개의 독립적인 평가 패스

세그먼트 정합 검증 트랙: "모델이 올바른 이벤트 시간 영역을 발굴했는가?"

시간 정확도를 정밀 측정합니다. 개별 개별 세그먼트들이 교집합 형태를 이루며 타겟 구간을 확보했는지 정밀하게 상호 교차 대조합니다. 또한 비디오 타임라인 전체 측면에서 실질적으로 유의미한 전체 포함(Coverage) 면적 비율도 동시에 점검합니다. 이 두 하위 값은 한쪽이 우수해도 다른 측면이 누락되는 불일치가 일어날 수 있으므로, 최종 점수는 이 두 속성을 긴밀히 합산한 종합적인 F1 기반 가중 평균 점수를 주축으로 설정합니다.

메타데이터 정보 검증 트랙: "시간 영역이 결정되었을 때, 내부 속성을 옳게 반환했는가?"

구간 정합이 확인되면 매칭 성공 구간 쌍 안에서 출력된 개별 메타데이터 필드의 참 거짓 유무를 평가합니다. 이를 위해 추출된 메타데이터 유형에 부합하는 기준 프롬프트 지침을 주입한 LLM-as-judge 모델 검증 알고리즘을 구축하여 0.0점에서 5.0점 척도 범위로 엄밀히 측정합니다.

여기에 하나의 세부 규정이 더해집니다. 생성된 세그먼트 시간 영역의 교집합 일치율이 정답 세그먼트 시간 영역에 비해서 정합 밀도가 느슨하거나 누락율이 높을수록 메타데이터 평가 결과 점수에 페널티 감쇠 필터를 부과합니다. 이는 시간 경계가 심각하게 엇나갔음에도 요약 글만 교묘하게 그럴듯하게 적어서 고득점을 몰아 받는 역설적인 품질 상승 왜곡을 시스템적으로 제약하기 위함입니다.

부가적인 소득도 있습니다. 메타데이터 평가는 무거운 딥러닝 비디오 인퍼런스 자체 연산과 비동기로 분리되는 완전한 후처리 단계에 위치하므로, 비싼 비디오 디코딩을 처음부터 다시 수행할 필요가 없습니다. 덕분에 우리는 평가용 프롬프트 기준과 검증 룰셋을 엄청나게 빠른 속도로 이터레이션하며 고도화하여 나갈 수 있습니다.

이 고유 분배가 제공하는 핵심 돌파구. 가령 세그먼트 감지 경계 점수는 전작 대비 대폭 우수해졌으나 메타데이터 정확도가 소폭 나빠졌다는 피드백이 나오면, 우리는 수식 튜닝 과정에 혼돈을 겪지 않고 바로 "경계 검출 추론 부는 완벽하니, 특정 카테고리 데이터 편향에 대한 파인튜닝 지점만 맞추면 된다"는 명확한 이정표를 즉각 도출할 수 있습니다.


7. 의미론적 플라이휠: 자산화의 선순환 시너지 효과

자산화는 한 번 일회성으로 끝나는 작업이 아닙니다. 이 구조적 흐름이 안착하여 실제 제 성능을 내기 시작하면 다음과 같은 지속적인 시너지 플라이휠 루프에 진입하게 됩니다.


저희는 이것을 **의미론적 플라이휠(Semantic Flywheel)**이라고 부릅니다. 방송 아카이브 관리, 브랜드 인텔리전스, 방송 모니터링 심의, 스포츠 자동화까지 TBM을 기반으로 구동되는 업무 영역은 매우 넓고 다양하지만 종착지는 동일합니다. 세그먼트와 메타데이터의 양질의 쌍이 축적될수록, 현장의 사용자가 직접 조정한 경계 오차 수정, 거부한 부적절 피드백 태그, 수정한 속성 정보 값 등 고유의 사용자 피드백 정보 자체가 고스란히 다음 버전의 AI 학습용 골드 스탠다드로 직접 전환됩니다. 한 번 가동되기 시작하면 아카이브 공간은 단순한 보관고로 정체되는 것이 아니라, 매 작동 이력마다 비디오 이해와 정리의 해상도를 점점 더 자동 갱신해나가는 자기 지향 학습 구조체로 완전하게 탈바꿈하게 됩니다.

다만 플라이휠을 역동적으로 구동시키기 위해 충족시켜야 하는 필수 선결 요건이 있습니다. 바로 **발전 수준에 대한 투명한 관찰 가능성(observability)**입니다. 시간 정확도와 메타데이터 추출 정합을 투명하게 분리하여 정량적 추이를 모니터링할 수 없다면, 어느 알고리즘이 발전하고 어느 파트가 병목에 빠졌는지 분별하기가 불가능합니다. 수치의 방향타가 부재하면 장기적인 기획 로드맵이 막히고 플라이휠의 회전 모멘텀 자체가 유실됩니다. 비디오 자산의 내부 결에 정확하게 정렬된 평가 프레임이 받쳐주어야만, 자산화가 단발성 데모에 그치지 않고 산업용 자동화 시스템으로 완벽히 성숙할 수 있습니다.


8. 그간 여정을 돌이켜 얻은 레슨들

TBM과 그 이원화 평가 엔진 구조를 온전히 정초해 나가는 긴 여정 속에서 깨달은 교훈이 있습니다.

세그먼트 분할은 Q&A 태스크와는 완전히 다릅니다. 비디오 세그먼트 검출 임무를 단순한 "또 다른 LLM이 답해야 할 자연어 이해 영역 중 하나"로 뭉뚱그려 대처하려고 시도했던 초기 본능은 연구 여정에 꽤 오랜 지연 비용을 치르게 했습니다. 경계 구획 탐지 프로세스는 고유한 실패 특징 패턴을 가지며, 완전히 상이한 계측 지표와 네트워크 백본 최적화 정합을 필수적으로 원합니다. 이 분리점을 일찌감치 명징하게 짚어냈더라면 수개월의 탐색 비용을 더 절약하고 효율적인 루트에 진입할 수 있었을 것입니다.

구조화된 형식이 유려한 텍스트 답변을 압도합니다. 실제 고객들의 검증 환경에서 소수점 초 단위가 살짝 흔들렸을지언정 완벽히 보정 정렬된 구조적 JSON 명세 속성 정보는, 한 편의 서술 서사 문장처럼 펼쳐지는 보기 좋은 줄글 설명문 따위보다 비교할 수 없이 압도적인 구조적 효용을 지닙니다. 사람이 보기에 좋은 수사적인 문장 생성 욕심을 깨끗이 덜어내고 기계가 읽을 수 있는(machine-readable) 엄격한 출력 완성도에 개발 코스트를 올곧게 배정한 방향이 결국 대단히 탁월한 전략적 결단이었습니다.

결정론적 특유의 규칙 제약은 한계가 아닌 최대의 핵심 특성입니다. 세그먼트들이 시간 축에서 서로 중첩되어 침범하지 못하게 막은 단호함, 일체 타협 없는 스키마 완전 충족 강제, temperature=0의 디바이스 기본 셋팅 유도 등 처음에 마주했던 일련의 단단한 설계 규정들은 사내 모델러들로부터 "생성 인공지능이 응당 뽐내야 할 다양한 자유 문맥 적응 가능성을 임의로 속박하려는 지나친 보수주의 프레임"이라는 의구심 섞인 반발 기류를 종종 불러일으켰습니다. 하지만 돌이켜보니 시스템들을 고도화하는 실전 단계에서 그 강고한 족쇄 제약 조건들이야말로 제품이 엔터프라이즈 자동화 파이프라인 상에 안전하게 결합되기 위한 든든한 등급 보증 수표 역할을 다 해주었습니다. 고객들은 어설프고 기복이 심한 창의력 넘치는 변동성 가득한 파트너 모델보다, 확실하게 규준을 통제해 주며 안정적인 가용성을 입증하는 신뢰 모델 시스템을 절대적으로 필요로 하기 때문입니다.


앞으로 나아갈 로드맵

비디오 자산화 패러다임은 이제 갓 첫 봉우리를 정복하기 시작한 여정의 극초기 상태에 있습니다. 우리는 머지 않은 시점에 3시간 단위를 유연히 넘어서는 한층 방대한 초장기 컨텍스트(3+ hours) 처리, 수십여 장의 다양하고 조밀한 배치 레퍼런스로 대상을 지정하고 가동하는 더욱 조밀한 멀티모달 그라운딩, 그리고 이러한 강력한 구조적 추출 엔진 패러다임을 비디오 바깥의 음성, 오디오 원천, 복잡한 종합 팟캐스트 자산군 전반으로 거침없이 이식하는 폭넓은 영토 확장의 전진을 직접 주행해 나갈 예정입니다.

그러나 진정으로 더 높은 기술적 등반 가치를 갖는 핵심 영역은, 모델의 엄청난 기술 성장에 완전히 동기화되어 유기적으로 뒤를 든든하게 받쳐줄 평가 아키텍처를 끝없는 스케일업 수준으로 유지해 나가는 일입니다. 비디오-언어 기반 모형이 거대화될수록 모델 실패 패턴 또한 한층 까다로운 경계 영역으로 자취를 감출 것이며, 시스템적 품질 계측 엔진은 이를 정확하게 색출하기 위해 전보다도 훨씬 명료한 모니터링 면도날을 끊임없이 갈고 다듬어야 합니다.

전 세계의 막대한 주요 엔터프라이즈 비디오 저장소는 여전히 제대로 열어보지도 못한 다크 비디오 상태로 잠들어 있습니다. 이 광대한 원석 저장고에서 숨은 가치를 찬란하게 구원해 내는 마법은 결코 범용 언어 생성 장치 하나만 새로 올린다고 완성되는 것이 아닙니다. 오직 모델이 목표한 완벽한 컷의 순간을 정확하게 도출해 냈는지 냉철한 기준의 계측기로 증명하고, 추출한 속성들을 흐트러짐 없이 구조화할 수 있는 치밀한 검증 인프라가 작동될 때에만 비로소 강력한 혁신은 온전하게 완성됩니다.

방송사, 스포츠 리그, 미디어 기업, 대기업 플랫폼들은 페타바이트 규모의 비디오 아카이브를 보유하고 있습니다. 이러한 콘텐츠의 대부분은 우리가 다크 비디오(dark video)라고 부르는 영역에 속합니다. 존재하기는 하지만, 검색할 수 없고 구조화되어 있지 않으며 의미적 수준에서 활용할 수도 없는 상태이기 때문입니다.

이유는 민망할 정도로 단순합니다. 비디오는 텍스트가 아니기 때문입니다. 비디오 파일에는 grep 명령어를 쓸 수 없고, SELECT * FROM video WHERE scene = 'scoring_play' 같은 쿼리도 존재하지 않습니다. 비디오가 경제적 가치를 지니기 위해서는 먼저 구조화된 세그먼트와 머신러닝이 읽을 수 있는 메타데이터로 세분화되어야 합니다. 우리는 이를 비디오 자산화(video assetization)라고 부릅니다.

이 글은 저희가 타임라인 기반 메타데이터(Time-Based Metadata, TBM)와 이를 위한 평가 시스템을 어떻게 구축했는지에 대한 이야기입니다. 이 과정에서 한 가지 분명해진 사실이 있습니다. 공간적·시간적으로 정렬된 비디오 이해를 설계하고 평가하려면 텍스트나 이미지 모델에 적용되는 방식과는 완전히 다른 접근법이 필요하다는 점입니다.


1. 자산화의 간극: 고객이 실제로 원하는 것

20만 시간 분량의 뉴스 아카이브를 관리하는 방송사를 상상해 보세요. 현재 이 작업은 수작업으로 이루어집니다. 아카이브 관리자가 수동으로 각 세그먼트를 기록하고, 뉴스 스토리를 태그하며, 화자를 식별하고, 주제의 경계를 표시합니다. 비디오 1시간당 대략 15달러의 비용이 들고 예산은 줄어들고 있습니다. 이 방식으로는 도저히 스케일을 확장할 수 없습니다.

혹은 수천 개의 인플루언서 비디오에서 자사 제품의 PPL을 추적하려는 CPG(소비재) 브랜드를 예로 들어보겠습니다. 이들은 크리에이터가 제품을 화면에 비추며 카메라를 보고 말하는 모든 순간을 찾아내야 합니다. 단순히 제품이 등장했다는 사실을 아는 것만으로는 부족하며, 정확히 언제, 얼마나 돋보이게, 어떤 맥락에서 등장했는지를 파악해야 합니다.

이는 가상의 시나리오가 아닙니다. 방송 아카이브 관리, 스포츠 하이라이트 자동화, 브랜드 인텔리전스, 규정 준수(compliance) 모니터링 등 저희가 접하는 거의 모든 미디어 엔터프라이즈의 업무 환경은 다음 두 가지 독립적인 결과물을 동시에 요구합니다.

  1. 정확한 시간적 경계(precise temporal boundaries): 각 세그먼트가 어디서 시작하고 끝나는가?

  2. 스키마를 따르는 구조화된 메타데이터(schema-conforming structured metadata): 그 세그먼트 안에서 어떤 일이 일어났는가?

오늘날 대부분의 비디오-언어 모델에 "이 비디오에서 무슨 일이 일어나고 있나요?"라고 질문하면 유려한 문장으로 답해 줄 것입니다. 하지만 "각 뉴스 보도의 시작/종료 타임스탬프와 함께 주제, 화자, 신뢰도 필드가 구조화된 결과를 제공해 주세요"라고 요청하는 순간, 범용 비디오 추론과 실제 프로덕션 수준의 세그먼트 분할은 전혀 다른 차원의 문제라는 것을 곧바로 깨닫게 됩니다.

방송사가 실제로 출력물로 필요로 하는 것은 다음과 같습니다. 각 뉴스 세그먼트에는 제목, 요약, 핵심 주제, 인물/단체명, 신뢰도가 포함되어야 합니다. 1시간 분량의 뉴스 프로그램을 처리할 때, TBM은 다음과 같은 출력을 생성합니다.


각 세그먼트는 editorial_subjects, visual_subjects, names, confidence 등의 구조화된 메타데이터를 포함합니다. 바로 이 시점에서 1시간짜리 비디오 프로그램이 쿼리 가능한 개별 객체들의 집합으로 변환됩니다.


2. 기존 접근 방식의 한계

경계 예측의 프레임워크 한계

거대 언어 모델(LLM)은 요약, 질의응답, 콘텐츠 묘사 등 특정 구간에 대해 추론하는 작업에 뛰어납니다. 그러나 세그먼트의 경계가 정확히 어디인지 예측하는 것은 완전히 다른 종류의 과제입니다.

경계 예측은 다음과 같은 세 가지 난제가 얽혀 있는 지점에 위치합니다.

  • 약지도 학습 기반 시간적 로컬라이제이션(Weakly-supervised temporal localization): 데이터셋의 정답(ground truth) 레이블이 드물고 주관적입니다.

  • 멀티모달 변화점 검출(Multimodal change-point detection): 경계는 시각, 오디오, 의미론적 신호의 동시다발적인 변화에 의해 정의됩니다.

  • 자기회귀 디코딩 환경에서의 토큰 수준 분류: 모델은 타임스탬프를 정확한 토큰 값으로 출력해야 합니다.

초기 실험에서 기존의 최고 성능 모델들조차 의미적으로는 그럴듯하지만 시간적으로는 오차가 있는 경계를 예측했습니다. 화면 전환이 확실하게 일어나는 지점에서 시작해야 할 세그먼트가 5초에서 15초씩 밀리는 현상이 발생한 것입니다. 모델은 무슨 일이 일어나는지는 이해했지만, 정확히 언제인지는 짚어내지 못했습니다.

스키마가 없다면 자산이 아닙니다

대부분의 비디오-언어 모델은 자유 형식의 텍스트를 생성합니다.

"이 비디오는 뉴스 방송을 보여줍니다. 약 2분 경에 스포츠 세그먼트로 전환됩니다..."

이는 사람이 읽기에는 유용할지 몰라도, 후속 자동화 시스템에는 거의 쓸모가 없습니다. 엔터프라이즈 워크플로우에서 실제로 필요로 하는 정형 데이터는 다음과 같은 형태입니다.

{
  "start_time": 120.45,
  "end_time": 245.80,
  "metadata": {
    "segment_title": "NFL 플레이오프 종합",
    "editorial_subjects": ["NFL", "플레이오프", "부상 리포트"],
    "names": ["패트릭 마홈스", "라마 잭슨"],
    "confidence": "HIGH"
  }
}

표현력이 풍부한 텍스트와 기계가 읽을 수 있는 구조화된 출력 사이의 간극은 단순히 포맷팅의 문제가 아닙니다. 이는 모델링과 평가가 복잡하게 얽혀 있는 문제입니다.


3. 우리의 접근 방식: 스키마 조건부 시간적 추출

해결할 문제 선택하기

TBM을 설계하기 시작했을 때 우리는 갈림길에 섰습니다. 비디오를 입력하면 그에 대한 모든 질문에 답할 수 있는(세그먼트 추출은 여러 기능 중 하나일 뿐인) 범용 모델을 만들 것인가? 아니면 비디오와 사용자가 정의한 스키마를 함께 입력받아 해당 스키마에 정의된 대로 정확하게 세그먼트와 필드를 채워 넣는 스키마 조건부 추출 모델(schema-conditioned extraction model)을 만들 것인가?

처음에는 첫 번째 옵션이 매력적으로 느껴졌습니다. 하지만 앞서 2장에서 언급한 실패 유형들(모호한 경계, 구조화되지 않은 필드, 실행할 때마다 일관성 없이 변하는 결과물)은 범용 목적 프레임이 가진 구조적 구조의 한계임이 드러났습니다. 명확한 스키마가 없다면 모델은 무엇을 찾아야 할지, 또 얼마나 정밀하게 찾아야 할지 알 수 없으며, 평가 역시 "그럴듯하게 들리는가?"의 영역을 벗어날 수 없습니다.

그래서 우리는 두 번째 길을 선택했습니다. TBM은 무엇이든 다 하는 모델이 아닙니다. 정확한 시간 경계와 스키마를 준수하는 메타데이터를 추출하는 데 고도로 최적화된 추출 전용 모델입니다.

스키마 조건화가 주는 실질적인 이점

TBM에서 사용자는 어떤 세그먼트를 찾고 어떤 메타데이터 필드를 추출할 것인지 정의하는 구조화된 명세인 segment_definitions를 제공합니다. 이는 단순히 사용하기 편리한 API 설계를 넘어서, 모델링 측면에서 세 가지 강력한 효과를 줍니다.

탐색 영역을 크게 축소합니다. 비디오의 모든 면에 대해 자유로운 자연어 설명을 생성하는 대신, 모델은 스키마가 정의한 제한된 출력 공간 안에서만 작동합니다. 예를 들어 스포츠 중계에서 down, scoring_play, penalty_type만 명시해주면, 그럴듯해 보이지만 실제 가치는 없는 무수한 관련 없는 정보들이 필터링됩니다.

경계 정렬을 안정화합니다. 모델이 무엇을 찾고 있는지("인플레이 경계"와 "광고 전환점") 명확히 인지하게 되면, 단순한 변화점 감출 휴리스틱에 의존하는 대신 호각 소리, 포메이션 변화, 페이드 아웃 등 도메인 특화된 시간적 단서들을 적극적으로 활용할 수 있게 됩니다.

평가의 명확한 기점이 됩니다. 스키마의 각 필드는 구체적이고 측정 가능한 평가 대상이 됩니다. "모델이 비디오를 잘 이해했는가?"와 같은 모호한 질문 대신, "모델이 이 세그먼트에서 down 필드의 값을 3으로 올바르게 분류했는가?"와 같이 명확한 질문을 던질 수 있습니다.


4. 지원 범위: 4단계 단서 분류 체계

스키마 조건화가 실제로 작동하게 하려면, 스키마가 어떤 유형의 신호를 추적해야 하는지 알아야 합니다. 비디오 세그먼트 분할을 어렵게 만드는 요인 중 하나는 경계를 정의하는 신호의 유형이 매우 다양하다는 점입니다. 카메라 앵글 전환과 같은 프레임 수준의 시각적 변화, 뉴스의 코너 전환 같은 의미론적 구조적 흐름, 화자 교체와 같은 오디오 단서, 그리고 시각·청각 정보와 복잡한 경기 규칙이 결합된 스포츠 이벤트 등이 있습니다. 이 모든 것을 단 하나의 접근법으로 처리할 수는 없습니다.

우리는 이 다양한 단서들을 네 가지 티어로 분류했습니다.

단서 티어 (Cue Tier)

설명

경계 신호 예시

저수준 비주얼 (Low-Level Visual)

프레임 내부의 시각적 변화. 상세한 비주얼 정보.

장면 전환, 카메라 앵글 변경

고수준 시맨틱 (High-Level Semantic)

시각 및 청각 스트림 전반에 걸친 의미론적 및 서사적 전개 흐름의 변화.

주제 전환, 방송 코너 편집 경계 (앵커 ↔ 현장 기자 ↔ 스튜디오)

오디오 (Audio)

음성, 음악, 효과음, 무음 등의 음향 신호.

화자 전환, 배경 음악(BGM) 변경

컴포지트 (Composite)

시각, 청각 및 맥락적 정보가 투입된 멀티모달 신호.

스포츠 중계의 각 플레이 단위, 광고 시간 돌입

이 분류 체계가 왜 중요할까요?

범용 비디오 모델은 일 한 단계들을 세분화하여 구분하지 않습니다. 하지만 실제 고객들의 세그먼트 분할 요구 사항은 특정 단서 티어 혹은 이들의 조합과 정확히 매칭됩니다.

  • 방송사의 "독립된 보도 서사 분할" → 고수준 시맨틱 (주제 전환 + 보도 세그먼트 경계)

  • 편집팀의 "컷 편집 경계 감지" → 저수준 비주얼 (카메라 전환, 앵글 변경)

  • 스포츠 리그의 "플레이 단위 분할" → 컴포지트 (선수 정렬 포메이션 + 호각 + 경기 규칙)

  • 팟캐스트 플랫폼의 "화자 분류 기반 전사" → 오디오 (화자 전환 + ASR 주제 변경)

이것은 단지 분류를 위한 분류가 아닙니다. 각 티어는 저마다 다른 모델링 오케스트레이션, 학습 데이터 개발, 그리고 평가지표 설정을 필요로 합니다. 저수준 비주얼은 프레임 단위의 변화 감지에 더 가깝다면, 컴포지트 유형은 긴 맥락에 대한 복합적이고 장기적인 추론이 필수적입니다.


5. 멀티모달 그라운딩: 텍스트를 넘어선 객체 연결

엔터프라이즈 비디오 세그먼트 분할을 다루면서 지속적으로 마주친 한계가 있습니다. 찾고자 하는 대상이 무엇인지 텍스트 단독으로는 충분히 설명할 수 없는 경우가 많다는 점입니다.

텍스트 설명만으로는 부족한 이유

여행 콘텐츠 플랫폼을 예로 들어 보겠습니다. 그들이 해결하고자 하는 현실적인 요구사항은 다음과 같습니다.

서울을 방문한 외국인들이 올린 수만 개의 브이로그에서 화면에 "N서울타워"가 등장하는 모든 순간을 찾고, 그것이 한강이나 서울 전경에서 멀리 잡힌 구도인지, 남산공원을 걸어 올라가는 도중의 장면인지, 전망대 위에서 타워 본체를 클로즈업한 컷인지, 혹은 야간 조명이 켜진 장면인지를 분류해야 합니다.

텍스트 설명만으로는 부족합니다. 모델이 단순히 "N서울타워"라는 어휘적 명칭을 안다고 해서, 그 구체적인 시각적 형태를 정확하고 일관성 있게 떠올려 낼 수 있는 것은 아닙니다. 비디오-언어 모델에서 텍스트의 언어적 인식과 특정 대상의 시각적 식별은 다른 문제입니다. 학습 데이터의 분포에 따라 시각적 표상이 정확하지 않거나, 도쿄타워나 CN 타워 같은 유사한 형태의 송신탑과 혼동할 수 있습니다. 이때 N서울타워의 기준이 될 수 있는 참조 이미지 한 장을 모델에 함께 전달한다면, 모델은 비디오 프레임들과 직접 비교할 수 있는 시각 임베딩의 기준점(anchor)을 갖게 됩니다. 이로써 "텍스트를 시각으로 번역하는" 과정에서 오는 병목이 사라집니다.

참조 객체 시스템 (Entity Reference System)

TBM은 media_sources 지정을 지원합니다. 세그먼트 정의에 <reference_name> 태그를 배치하면, 모델은 사용자가 직접 등록한 참조 이미지를 기반으로 대상을 정확히 인식하여 메타데이터를 추출할 수 있습니다.


출처 - 세종학당재단, https://www.kogl.or.kr/recommend/recommendDivView.do?oc=&recommendIdx=91796&division=img#

출처: 세종학당재단 (KSIF)

{
  "segment_definitions": [{
    "id": "namsan_tower_appearances",
    "media_sources": [
      { "name": "namsan_tower_img", "media_type": "image", "media_url": "<https://cdn>.../namsan_tower.jpg" }
    ],
    "description": "<namsan_tower_img>를 통해 식별되는 N서울타워가 화면에 나타나는 영상 구간",
    "fields": [
      { "name": "screen_prominence", "type": "string",
        "enum": ["HERO_SHOT", "PARTIAL", "BACKGROUND"] },
      { "name": "shot_type", "type": "string",
        "enum": ["CITY_ESTABLISHING", "PARK_WALK", "OBSERVATION_DECK", "NIGHT_LIGHTUP"] }
    ]
  }]
}

모델 시스템 측면에서 이는 모호하고 열린 정의의 탐색 문제를 **기반 매칭 정보 검색(grounded retrieval) 및 시간적 로컬라이제이션** 문제로 치환합니다.

  1. 참조 대상 해석(Reference resolution): 모델은 전체 비디오 전반에서 <namsan_tower_img>를 하나의 일관된 시각적 특징으로 맵핑합니다.

  2. 시각 임베딩 정렬: 입력된 참조 이미지는 비디오 프레임 정보와 동일한 다차원 표상 공간 벡터로 변환되어 배치됩니다.

  3. 조건부 구획 경계 감지: 세그먼트 경계는 단순한 일반적인 장면 변화가 아닌, 특정 시각적 객체의 노출 및 출현 상태 여부에 근거하여 설계됩니다.

이것이 단순히 "도시 전경 장면을 찾으라"는 지시와 "N서울타워가 나오는 장면을 찾으라"는 지시의 차이점입니다. 기술적 구현의 난이도가 다른 것이 아니라, 제품 단에서 사용자의 문제를 어떻게 비즈니스 지향적으로 정의하고 해결하느냐의 수준 차이입니다.

이처럼 객체 데이터와의 정확한 연동이 개입하는 순간부터 평가는 시간 간격 경계 예측의 정확성, 카테고리 태깅 매핑의 정확성, 그리고 입력된 고유 객체 식별의 일관성이라는 다차원적인 검증 경로를 가져가야 합니다. 이는 평가 영역의 복잡성을 한 단계 더 끌어올리게 됩니다.


6. 품질 보증: 이원화된 평가 트랙 (Dual-Track Evaluation)

TBM 개발 과정에서 얻은 가장 결정적이면서도 직관에 반하는 발견은, 비디오 세그먼트 탐색 및 결과 메타데이터 변환 품질을 단 하나의 종합 점수로만 판단해서는 안 된다는 점이었습니다.

잠재적 인과 결합의 함정

다음 두 가지 서로 다른 오작동 시나리오를 비교해 보겠습니다.

시나리오 A. 모델이 10초~25초 구간의 세그먼트를 출력했습니다. 하지만 실제 정답지는 12초~48초 구간이었습니다. 앵커의 15초 오프닝 멘트는 잡았으나, 23초 동안 길게 이어진 후속 핵심 보도 스토리를 통째로 유실한 셈입니다. 앵커 이름, 토픽 태깅, 화자 지정 등의 분석은 완벽했지만 시간적 구간 영역은 전체 정보의 1/3만 간신히 확보했습니다.

시나리오 B. 모델이 12초~48초 구간을 자로 잰 듯 정확하게 포착했습니다. 하지만 출력된 태그에서는 "정치 시사 분석"을 "오늘의 날씨 예보"로 잘못 판단했습니다. 구간은 맞았으나 메타데이터 알맹이가 빗나간 것입니다.

단순히 평균을 낸 지표로는 이 두 오류 시나리오를 명확하게 변별해 낼 수 없습니다. 각 상황에 맞는 해결 방식은 정반대의 설계 방향을 가리킵니다. 전자는 시간적 경계 추출 알고리즘의 개선이 시급한 상황이고, 후자는 언어 및 지식 그래프 부합 문제를 학습해야 합니다. 이 실패 요인을 발라내 결함을 명시하지 않으면 엔진 개발 방향 자체가 혼선에 직면합니다.

우리의 극복 체계: 두 개의 독립적인 평가 패스

세그먼트 정합 검증 트랙: "모델이 올바른 이벤트 시간 영역을 발굴했는가?"

시간 정확도를 정밀 측정합니다. 개별 개별 세그먼트들이 교집합 형태를 이루며 타겟 구간을 확보했는지 정밀하게 상호 교차 대조합니다. 또한 비디오 타임라인 전체 측면에서 실질적으로 유의미한 전체 포함(Coverage) 면적 비율도 동시에 점검합니다. 이 두 하위 값은 한쪽이 우수해도 다른 측면이 누락되는 불일치가 일어날 수 있으므로, 최종 점수는 이 두 속성을 긴밀히 합산한 종합적인 F1 기반 가중 평균 점수를 주축으로 설정합니다.

메타데이터 정보 검증 트랙: "시간 영역이 결정되었을 때, 내부 속성을 옳게 반환했는가?"

구간 정합이 확인되면 매칭 성공 구간 쌍 안에서 출력된 개별 메타데이터 필드의 참 거짓 유무를 평가합니다. 이를 위해 추출된 메타데이터 유형에 부합하는 기준 프롬프트 지침을 주입한 LLM-as-judge 모델 검증 알고리즘을 구축하여 0.0점에서 5.0점 척도 범위로 엄밀히 측정합니다.

여기에 하나의 세부 규정이 더해집니다. 생성된 세그먼트 시간 영역의 교집합 일치율이 정답 세그먼트 시간 영역에 비해서 정합 밀도가 느슨하거나 누락율이 높을수록 메타데이터 평가 결과 점수에 페널티 감쇠 필터를 부과합니다. 이는 시간 경계가 심각하게 엇나갔음에도 요약 글만 교묘하게 그럴듯하게 적어서 고득점을 몰아 받는 역설적인 품질 상승 왜곡을 시스템적으로 제약하기 위함입니다.

부가적인 소득도 있습니다. 메타데이터 평가는 무거운 딥러닝 비디오 인퍼런스 자체 연산과 비동기로 분리되는 완전한 후처리 단계에 위치하므로, 비싼 비디오 디코딩을 처음부터 다시 수행할 필요가 없습니다. 덕분에 우리는 평가용 프롬프트 기준과 검증 룰셋을 엄청나게 빠른 속도로 이터레이션하며 고도화하여 나갈 수 있습니다.

이 고유 분배가 제공하는 핵심 돌파구. 가령 세그먼트 감지 경계 점수는 전작 대비 대폭 우수해졌으나 메타데이터 정확도가 소폭 나빠졌다는 피드백이 나오면, 우리는 수식 튜닝 과정에 혼돈을 겪지 않고 바로 "경계 검출 추론 부는 완벽하니, 특정 카테고리 데이터 편향에 대한 파인튜닝 지점만 맞추면 된다"는 명확한 이정표를 즉각 도출할 수 있습니다.


7. 의미론적 플라이휠: 자산화의 선순환 시너지 효과

자산화는 한 번 일회성으로 끝나는 작업이 아닙니다. 이 구조적 흐름이 안착하여 실제 제 성능을 내기 시작하면 다음과 같은 지속적인 시너지 플라이휠 루프에 진입하게 됩니다.


저희는 이것을 **의미론적 플라이휠(Semantic Flywheel)**이라고 부릅니다. 방송 아카이브 관리, 브랜드 인텔리전스, 방송 모니터링 심의, 스포츠 자동화까지 TBM을 기반으로 구동되는 업무 영역은 매우 넓고 다양하지만 종착지는 동일합니다. 세그먼트와 메타데이터의 양질의 쌍이 축적될수록, 현장의 사용자가 직접 조정한 경계 오차 수정, 거부한 부적절 피드백 태그, 수정한 속성 정보 값 등 고유의 사용자 피드백 정보 자체가 고스란히 다음 버전의 AI 학습용 골드 스탠다드로 직접 전환됩니다. 한 번 가동되기 시작하면 아카이브 공간은 단순한 보관고로 정체되는 것이 아니라, 매 작동 이력마다 비디오 이해와 정리의 해상도를 점점 더 자동 갱신해나가는 자기 지향 학습 구조체로 완전하게 탈바꿈하게 됩니다.

다만 플라이휠을 역동적으로 구동시키기 위해 충족시켜야 하는 필수 선결 요건이 있습니다. 바로 **발전 수준에 대한 투명한 관찰 가능성(observability)**입니다. 시간 정확도와 메타데이터 추출 정합을 투명하게 분리하여 정량적 추이를 모니터링할 수 없다면, 어느 알고리즘이 발전하고 어느 파트가 병목에 빠졌는지 분별하기가 불가능합니다. 수치의 방향타가 부재하면 장기적인 기획 로드맵이 막히고 플라이휠의 회전 모멘텀 자체가 유실됩니다. 비디오 자산의 내부 결에 정확하게 정렬된 평가 프레임이 받쳐주어야만, 자산화가 단발성 데모에 그치지 않고 산업용 자동화 시스템으로 완벽히 성숙할 수 있습니다.


8. 그간 여정을 돌이켜 얻은 레슨들

TBM과 그 이원화 평가 엔진 구조를 온전히 정초해 나가는 긴 여정 속에서 깨달은 교훈이 있습니다.

세그먼트 분할은 Q&A 태스크와는 완전히 다릅니다. 비디오 세그먼트 검출 임무를 단순한 "또 다른 LLM이 답해야 할 자연어 이해 영역 중 하나"로 뭉뚱그려 대처하려고 시도했던 초기 본능은 연구 여정에 꽤 오랜 지연 비용을 치르게 했습니다. 경계 구획 탐지 프로세스는 고유한 실패 특징 패턴을 가지며, 완전히 상이한 계측 지표와 네트워크 백본 최적화 정합을 필수적으로 원합니다. 이 분리점을 일찌감치 명징하게 짚어냈더라면 수개월의 탐색 비용을 더 절약하고 효율적인 루트에 진입할 수 있었을 것입니다.

구조화된 형식이 유려한 텍스트 답변을 압도합니다. 실제 고객들의 검증 환경에서 소수점 초 단위가 살짝 흔들렸을지언정 완벽히 보정 정렬된 구조적 JSON 명세 속성 정보는, 한 편의 서술 서사 문장처럼 펼쳐지는 보기 좋은 줄글 설명문 따위보다 비교할 수 없이 압도적인 구조적 효용을 지닙니다. 사람이 보기에 좋은 수사적인 문장 생성 욕심을 깨끗이 덜어내고 기계가 읽을 수 있는(machine-readable) 엄격한 출력 완성도에 개발 코스트를 올곧게 배정한 방향이 결국 대단히 탁월한 전략적 결단이었습니다.

결정론적 특유의 규칙 제약은 한계가 아닌 최대의 핵심 특성입니다. 세그먼트들이 시간 축에서 서로 중첩되어 침범하지 못하게 막은 단호함, 일체 타협 없는 스키마 완전 충족 강제, temperature=0의 디바이스 기본 셋팅 유도 등 처음에 마주했던 일련의 단단한 설계 규정들은 사내 모델러들로부터 "생성 인공지능이 응당 뽐내야 할 다양한 자유 문맥 적응 가능성을 임의로 속박하려는 지나친 보수주의 프레임"이라는 의구심 섞인 반발 기류를 종종 불러일으켰습니다. 하지만 돌이켜보니 시스템들을 고도화하는 실전 단계에서 그 강고한 족쇄 제약 조건들이야말로 제품이 엔터프라이즈 자동화 파이프라인 상에 안전하게 결합되기 위한 든든한 등급 보증 수표 역할을 다 해주었습니다. 고객들은 어설프고 기복이 심한 창의력 넘치는 변동성 가득한 파트너 모델보다, 확실하게 규준을 통제해 주며 안정적인 가용성을 입증하는 신뢰 모델 시스템을 절대적으로 필요로 하기 때문입니다.


앞으로 나아갈 로드맵

비디오 자산화 패러다임은 이제 갓 첫 봉우리를 정복하기 시작한 여정의 극초기 상태에 있습니다. 우리는 머지 않은 시점에 3시간 단위를 유연히 넘어서는 한층 방대한 초장기 컨텍스트(3+ hours) 처리, 수십여 장의 다양하고 조밀한 배치 레퍼런스로 대상을 지정하고 가동하는 더욱 조밀한 멀티모달 그라운딩, 그리고 이러한 강력한 구조적 추출 엔진 패러다임을 비디오 바깥의 음성, 오디오 원천, 복잡한 종합 팟캐스트 자산군 전반으로 거침없이 이식하는 폭넓은 영토 확장의 전진을 직접 주행해 나갈 예정입니다.

그러나 진정으로 더 높은 기술적 등반 가치를 갖는 핵심 영역은, 모델의 엄청난 기술 성장에 완전히 동기화되어 유기적으로 뒤를 든든하게 받쳐줄 평가 아키텍처를 끝없는 스케일업 수준으로 유지해 나가는 일입니다. 비디오-언어 기반 모형이 거대화될수록 모델 실패 패턴 또한 한층 까다로운 경계 영역으로 자취를 감출 것이며, 시스템적 품질 계측 엔진은 이를 정확하게 색출하기 위해 전보다도 훨씬 명료한 모니터링 면도날을 끊임없이 갈고 다듬어야 합니다.

전 세계의 막대한 주요 엔터프라이즈 비디오 저장소는 여전히 제대로 열어보지도 못한 다크 비디오 상태로 잠들어 있습니다. 이 광대한 원석 저장고에서 숨은 가치를 찬란하게 구원해 내는 마법은 결코 범용 언어 생성 장치 하나만 새로 올린다고 완성되는 것이 아닙니다. 오직 모델이 목표한 완벽한 컷의 순간을 정확하게 도출해 냈는지 냉철한 기준의 계측기로 증명하고, 추출한 속성들을 흐트러짐 없이 구조화할 수 있는 치밀한 검증 인프라가 작동될 때에만 비로소 강력한 혁신은 온전하게 완성됩니다.

방송사, 스포츠 리그, 미디어 기업, 대기업 플랫폼들은 페타바이트 규모의 비디오 아카이브를 보유하고 있습니다. 이러한 콘텐츠의 대부분은 우리가 다크 비디오(dark video)라고 부르는 영역에 속합니다. 존재하기는 하지만, 검색할 수 없고 구조화되어 있지 않으며 의미적 수준에서 활용할 수도 없는 상태이기 때문입니다.

이유는 민망할 정도로 단순합니다. 비디오는 텍스트가 아니기 때문입니다. 비디오 파일에는 grep 명령어를 쓸 수 없고, SELECT * FROM video WHERE scene = 'scoring_play' 같은 쿼리도 존재하지 않습니다. 비디오가 경제적 가치를 지니기 위해서는 먼저 구조화된 세그먼트와 머신러닝이 읽을 수 있는 메타데이터로 세분화되어야 합니다. 우리는 이를 비디오 자산화(video assetization)라고 부릅니다.

이 글은 저희가 타임라인 기반 메타데이터(Time-Based Metadata, TBM)와 이를 위한 평가 시스템을 어떻게 구축했는지에 대한 이야기입니다. 이 과정에서 한 가지 분명해진 사실이 있습니다. 공간적·시간적으로 정렬된 비디오 이해를 설계하고 평가하려면 텍스트나 이미지 모델에 적용되는 방식과는 완전히 다른 접근법이 필요하다는 점입니다.


1. 자산화의 간극: 고객이 실제로 원하는 것

20만 시간 분량의 뉴스 아카이브를 관리하는 방송사를 상상해 보세요. 현재 이 작업은 수작업으로 이루어집니다. 아카이브 관리자가 수동으로 각 세그먼트를 기록하고, 뉴스 스토리를 태그하며, 화자를 식별하고, 주제의 경계를 표시합니다. 비디오 1시간당 대략 15달러의 비용이 들고 예산은 줄어들고 있습니다. 이 방식으로는 도저히 스케일을 확장할 수 없습니다.

혹은 수천 개의 인플루언서 비디오에서 자사 제품의 PPL을 추적하려는 CPG(소비재) 브랜드를 예로 들어보겠습니다. 이들은 크리에이터가 제품을 화면에 비추며 카메라를 보고 말하는 모든 순간을 찾아내야 합니다. 단순히 제품이 등장했다는 사실을 아는 것만으로는 부족하며, 정확히 언제, 얼마나 돋보이게, 어떤 맥락에서 등장했는지를 파악해야 합니다.

이는 가상의 시나리오가 아닙니다. 방송 아카이브 관리, 스포츠 하이라이트 자동화, 브랜드 인텔리전스, 규정 준수(compliance) 모니터링 등 저희가 접하는 거의 모든 미디어 엔터프라이즈의 업무 환경은 다음 두 가지 독립적인 결과물을 동시에 요구합니다.

  1. 정확한 시간적 경계(precise temporal boundaries): 각 세그먼트가 어디서 시작하고 끝나는가?

  2. 스키마를 따르는 구조화된 메타데이터(schema-conforming structured metadata): 그 세그먼트 안에서 어떤 일이 일어났는가?

오늘날 대부분의 비디오-언어 모델에 "이 비디오에서 무슨 일이 일어나고 있나요?"라고 질문하면 유려한 문장으로 답해 줄 것입니다. 하지만 "각 뉴스 보도의 시작/종료 타임스탬프와 함께 주제, 화자, 신뢰도 필드가 구조화된 결과를 제공해 주세요"라고 요청하는 순간, 범용 비디오 추론과 실제 프로덕션 수준의 세그먼트 분할은 전혀 다른 차원의 문제라는 것을 곧바로 깨닫게 됩니다.

방송사가 실제로 출력물로 필요로 하는 것은 다음과 같습니다. 각 뉴스 세그먼트에는 제목, 요약, 핵심 주제, 인물/단체명, 신뢰도가 포함되어야 합니다. 1시간 분량의 뉴스 프로그램을 처리할 때, TBM은 다음과 같은 출력을 생성합니다.


각 세그먼트는 editorial_subjects, visual_subjects, names, confidence 등의 구조화된 메타데이터를 포함합니다. 바로 이 시점에서 1시간짜리 비디오 프로그램이 쿼리 가능한 개별 객체들의 집합으로 변환됩니다.


2. 기존 접근 방식의 한계

경계 예측의 프레임워크 한계

거대 언어 모델(LLM)은 요약, 질의응답, 콘텐츠 묘사 등 특정 구간에 대해 추론하는 작업에 뛰어납니다. 그러나 세그먼트의 경계가 정확히 어디인지 예측하는 것은 완전히 다른 종류의 과제입니다.

경계 예측은 다음과 같은 세 가지 난제가 얽혀 있는 지점에 위치합니다.

  • 약지도 학습 기반 시간적 로컬라이제이션(Weakly-supervised temporal localization): 데이터셋의 정답(ground truth) 레이블이 드물고 주관적입니다.

  • 멀티모달 변화점 검출(Multimodal change-point detection): 경계는 시각, 오디오, 의미론적 신호의 동시다발적인 변화에 의해 정의됩니다.

  • 자기회귀 디코딩 환경에서의 토큰 수준 분류: 모델은 타임스탬프를 정확한 토큰 값으로 출력해야 합니다.

초기 실험에서 기존의 최고 성능 모델들조차 의미적으로는 그럴듯하지만 시간적으로는 오차가 있는 경계를 예측했습니다. 화면 전환이 확실하게 일어나는 지점에서 시작해야 할 세그먼트가 5초에서 15초씩 밀리는 현상이 발생한 것입니다. 모델은 무슨 일이 일어나는지는 이해했지만, 정확히 언제인지는 짚어내지 못했습니다.

스키마가 없다면 자산이 아닙니다

대부분의 비디오-언어 모델은 자유 형식의 텍스트를 생성합니다.

"이 비디오는 뉴스 방송을 보여줍니다. 약 2분 경에 스포츠 세그먼트로 전환됩니다..."

이는 사람이 읽기에는 유용할지 몰라도, 후속 자동화 시스템에는 거의 쓸모가 없습니다. 엔터프라이즈 워크플로우에서 실제로 필요로 하는 정형 데이터는 다음과 같은 형태입니다.

{
  "start_time": 120.45,
  "end_time": 245.80,
  "metadata": {
    "segment_title": "NFL 플레이오프 종합",
    "editorial_subjects": ["NFL", "플레이오프", "부상 리포트"],
    "names": ["패트릭 마홈스", "라마 잭슨"],
    "confidence": "HIGH"
  }
}

표현력이 풍부한 텍스트와 기계가 읽을 수 있는 구조화된 출력 사이의 간극은 단순히 포맷팅의 문제가 아닙니다. 이는 모델링과 평가가 복잡하게 얽혀 있는 문제입니다.


3. 우리의 접근 방식: 스키마 조건부 시간적 추출

해결할 문제 선택하기

TBM을 설계하기 시작했을 때 우리는 갈림길에 섰습니다. 비디오를 입력하면 그에 대한 모든 질문에 답할 수 있는(세그먼트 추출은 여러 기능 중 하나일 뿐인) 범용 모델을 만들 것인가? 아니면 비디오와 사용자가 정의한 스키마를 함께 입력받아 해당 스키마에 정의된 대로 정확하게 세그먼트와 필드를 채워 넣는 스키마 조건부 추출 모델(schema-conditioned extraction model)을 만들 것인가?

처음에는 첫 번째 옵션이 매력적으로 느껴졌습니다. 하지만 앞서 2장에서 언급한 실패 유형들(모호한 경계, 구조화되지 않은 필드, 실행할 때마다 일관성 없이 변하는 결과물)은 범용 목적 프레임이 가진 구조적 구조의 한계임이 드러났습니다. 명확한 스키마가 없다면 모델은 무엇을 찾아야 할지, 또 얼마나 정밀하게 찾아야 할지 알 수 없으며, 평가 역시 "그럴듯하게 들리는가?"의 영역을 벗어날 수 없습니다.

그래서 우리는 두 번째 길을 선택했습니다. TBM은 무엇이든 다 하는 모델이 아닙니다. 정확한 시간 경계와 스키마를 준수하는 메타데이터를 추출하는 데 고도로 최적화된 추출 전용 모델입니다.

스키마 조건화가 주는 실질적인 이점

TBM에서 사용자는 어떤 세그먼트를 찾고 어떤 메타데이터 필드를 추출할 것인지 정의하는 구조화된 명세인 segment_definitions를 제공합니다. 이는 단순히 사용하기 편리한 API 설계를 넘어서, 모델링 측면에서 세 가지 강력한 효과를 줍니다.

탐색 영역을 크게 축소합니다. 비디오의 모든 면에 대해 자유로운 자연어 설명을 생성하는 대신, 모델은 스키마가 정의한 제한된 출력 공간 안에서만 작동합니다. 예를 들어 스포츠 중계에서 down, scoring_play, penalty_type만 명시해주면, 그럴듯해 보이지만 실제 가치는 없는 무수한 관련 없는 정보들이 필터링됩니다.

경계 정렬을 안정화합니다. 모델이 무엇을 찾고 있는지("인플레이 경계"와 "광고 전환점") 명확히 인지하게 되면, 단순한 변화점 감출 휴리스틱에 의존하는 대신 호각 소리, 포메이션 변화, 페이드 아웃 등 도메인 특화된 시간적 단서들을 적극적으로 활용할 수 있게 됩니다.

평가의 명확한 기점이 됩니다. 스키마의 각 필드는 구체적이고 측정 가능한 평가 대상이 됩니다. "모델이 비디오를 잘 이해했는가?"와 같은 모호한 질문 대신, "모델이 이 세그먼트에서 down 필드의 값을 3으로 올바르게 분류했는가?"와 같이 명확한 질문을 던질 수 있습니다.


4. 지원 범위: 4단계 단서 분류 체계

스키마 조건화가 실제로 작동하게 하려면, 스키마가 어떤 유형의 신호를 추적해야 하는지 알아야 합니다. 비디오 세그먼트 분할을 어렵게 만드는 요인 중 하나는 경계를 정의하는 신호의 유형이 매우 다양하다는 점입니다. 카메라 앵글 전환과 같은 프레임 수준의 시각적 변화, 뉴스의 코너 전환 같은 의미론적 구조적 흐름, 화자 교체와 같은 오디오 단서, 그리고 시각·청각 정보와 복잡한 경기 규칙이 결합된 스포츠 이벤트 등이 있습니다. 이 모든 것을 단 하나의 접근법으로 처리할 수는 없습니다.

우리는 이 다양한 단서들을 네 가지 티어로 분류했습니다.

단서 티어 (Cue Tier)

설명

경계 신호 예시

저수준 비주얼 (Low-Level Visual)

프레임 내부의 시각적 변화. 상세한 비주얼 정보.

장면 전환, 카메라 앵글 변경

고수준 시맨틱 (High-Level Semantic)

시각 및 청각 스트림 전반에 걸친 의미론적 및 서사적 전개 흐름의 변화.

주제 전환, 방송 코너 편집 경계 (앵커 ↔ 현장 기자 ↔ 스튜디오)

오디오 (Audio)

음성, 음악, 효과음, 무음 등의 음향 신호.

화자 전환, 배경 음악(BGM) 변경

컴포지트 (Composite)

시각, 청각 및 맥락적 정보가 투입된 멀티모달 신호.

스포츠 중계의 각 플레이 단위, 광고 시간 돌입

이 분류 체계가 왜 중요할까요?

범용 비디오 모델은 일 한 단계들을 세분화하여 구분하지 않습니다. 하지만 실제 고객들의 세그먼트 분할 요구 사항은 특정 단서 티어 혹은 이들의 조합과 정확히 매칭됩니다.

  • 방송사의 "독립된 보도 서사 분할" → 고수준 시맨틱 (주제 전환 + 보도 세그먼트 경계)

  • 편집팀의 "컷 편집 경계 감지" → 저수준 비주얼 (카메라 전환, 앵글 변경)

  • 스포츠 리그의 "플레이 단위 분할" → 컴포지트 (선수 정렬 포메이션 + 호각 + 경기 규칙)

  • 팟캐스트 플랫폼의 "화자 분류 기반 전사" → 오디오 (화자 전환 + ASR 주제 변경)

이것은 단지 분류를 위한 분류가 아닙니다. 각 티어는 저마다 다른 모델링 오케스트레이션, 학습 데이터 개발, 그리고 평가지표 설정을 필요로 합니다. 저수준 비주얼은 프레임 단위의 변화 감지에 더 가깝다면, 컴포지트 유형은 긴 맥락에 대한 복합적이고 장기적인 추론이 필수적입니다.


5. 멀티모달 그라운딩: 텍스트를 넘어선 객체 연결

엔터프라이즈 비디오 세그먼트 분할을 다루면서 지속적으로 마주친 한계가 있습니다. 찾고자 하는 대상이 무엇인지 텍스트 단독으로는 충분히 설명할 수 없는 경우가 많다는 점입니다.

텍스트 설명만으로는 부족한 이유

여행 콘텐츠 플랫폼을 예로 들어 보겠습니다. 그들이 해결하고자 하는 현실적인 요구사항은 다음과 같습니다.

서울을 방문한 외국인들이 올린 수만 개의 브이로그에서 화면에 "N서울타워"가 등장하는 모든 순간을 찾고, 그것이 한강이나 서울 전경에서 멀리 잡힌 구도인지, 남산공원을 걸어 올라가는 도중의 장면인지, 전망대 위에서 타워 본체를 클로즈업한 컷인지, 혹은 야간 조명이 켜진 장면인지를 분류해야 합니다.

텍스트 설명만으로는 부족합니다. 모델이 단순히 "N서울타워"라는 어휘적 명칭을 안다고 해서, 그 구체적인 시각적 형태를 정확하고 일관성 있게 떠올려 낼 수 있는 것은 아닙니다. 비디오-언어 모델에서 텍스트의 언어적 인식과 특정 대상의 시각적 식별은 다른 문제입니다. 학습 데이터의 분포에 따라 시각적 표상이 정확하지 않거나, 도쿄타워나 CN 타워 같은 유사한 형태의 송신탑과 혼동할 수 있습니다. 이때 N서울타워의 기준이 될 수 있는 참조 이미지 한 장을 모델에 함께 전달한다면, 모델은 비디오 프레임들과 직접 비교할 수 있는 시각 임베딩의 기준점(anchor)을 갖게 됩니다. 이로써 "텍스트를 시각으로 번역하는" 과정에서 오는 병목이 사라집니다.

참조 객체 시스템 (Entity Reference System)

TBM은 media_sources 지정을 지원합니다. 세그먼트 정의에 <reference_name> 태그를 배치하면, 모델은 사용자가 직접 등록한 참조 이미지를 기반으로 대상을 정확히 인식하여 메타데이터를 추출할 수 있습니다.


출처 - 세종학당재단, https://www.kogl.or.kr/recommend/recommendDivView.do?oc=&recommendIdx=91796&division=img#

출처: 세종학당재단 (KSIF)

{
  "segment_definitions": [{
    "id": "namsan_tower_appearances",
    "media_sources": [
      { "name": "namsan_tower_img", "media_type": "image", "media_url": "<https://cdn>.../namsan_tower.jpg" }
    ],
    "description": "<namsan_tower_img>를 통해 식별되는 N서울타워가 화면에 나타나는 영상 구간",
    "fields": [
      { "name": "screen_prominence", "type": "string",
        "enum": ["HERO_SHOT", "PARTIAL", "BACKGROUND"] },
      { "name": "shot_type", "type": "string",
        "enum": ["CITY_ESTABLISHING", "PARK_WALK", "OBSERVATION_DECK", "NIGHT_LIGHTUP"] }
    ]
  }]
}

모델 시스템 측면에서 이는 모호하고 열린 정의의 탐색 문제를 **기반 매칭 정보 검색(grounded retrieval) 및 시간적 로컬라이제이션** 문제로 치환합니다.

  1. 참조 대상 해석(Reference resolution): 모델은 전체 비디오 전반에서 <namsan_tower_img>를 하나의 일관된 시각적 특징으로 맵핑합니다.

  2. 시각 임베딩 정렬: 입력된 참조 이미지는 비디오 프레임 정보와 동일한 다차원 표상 공간 벡터로 변환되어 배치됩니다.

  3. 조건부 구획 경계 감지: 세그먼트 경계는 단순한 일반적인 장면 변화가 아닌, 특정 시각적 객체의 노출 및 출현 상태 여부에 근거하여 설계됩니다.

이것이 단순히 "도시 전경 장면을 찾으라"는 지시와 "N서울타워가 나오는 장면을 찾으라"는 지시의 차이점입니다. 기술적 구현의 난이도가 다른 것이 아니라, 제품 단에서 사용자의 문제를 어떻게 비즈니스 지향적으로 정의하고 해결하느냐의 수준 차이입니다.

이처럼 객체 데이터와의 정확한 연동이 개입하는 순간부터 평가는 시간 간격 경계 예측의 정확성, 카테고리 태깅 매핑의 정확성, 그리고 입력된 고유 객체 식별의 일관성이라는 다차원적인 검증 경로를 가져가야 합니다. 이는 평가 영역의 복잡성을 한 단계 더 끌어올리게 됩니다.


6. 품질 보증: 이원화된 평가 트랙 (Dual-Track Evaluation)

TBM 개발 과정에서 얻은 가장 결정적이면서도 직관에 반하는 발견은, 비디오 세그먼트 탐색 및 결과 메타데이터 변환 품질을 단 하나의 종합 점수로만 판단해서는 안 된다는 점이었습니다.

잠재적 인과 결합의 함정

다음 두 가지 서로 다른 오작동 시나리오를 비교해 보겠습니다.

시나리오 A. 모델이 10초~25초 구간의 세그먼트를 출력했습니다. 하지만 실제 정답지는 12초~48초 구간이었습니다. 앵커의 15초 오프닝 멘트는 잡았으나, 23초 동안 길게 이어진 후속 핵심 보도 스토리를 통째로 유실한 셈입니다. 앵커 이름, 토픽 태깅, 화자 지정 등의 분석은 완벽했지만 시간적 구간 영역은 전체 정보의 1/3만 간신히 확보했습니다.

시나리오 B. 모델이 12초~48초 구간을 자로 잰 듯 정확하게 포착했습니다. 하지만 출력된 태그에서는 "정치 시사 분석"을 "오늘의 날씨 예보"로 잘못 판단했습니다. 구간은 맞았으나 메타데이터 알맹이가 빗나간 것입니다.

단순히 평균을 낸 지표로는 이 두 오류 시나리오를 명확하게 변별해 낼 수 없습니다. 각 상황에 맞는 해결 방식은 정반대의 설계 방향을 가리킵니다. 전자는 시간적 경계 추출 알고리즘의 개선이 시급한 상황이고, 후자는 언어 및 지식 그래프 부합 문제를 학습해야 합니다. 이 실패 요인을 발라내 결함을 명시하지 않으면 엔진 개발 방향 자체가 혼선에 직면합니다.

우리의 극복 체계: 두 개의 독립적인 평가 패스

세그먼트 정합 검증 트랙: "모델이 올바른 이벤트 시간 영역을 발굴했는가?"

시간 정확도를 정밀 측정합니다. 개별 개별 세그먼트들이 교집합 형태를 이루며 타겟 구간을 확보했는지 정밀하게 상호 교차 대조합니다. 또한 비디오 타임라인 전체 측면에서 실질적으로 유의미한 전체 포함(Coverage) 면적 비율도 동시에 점검합니다. 이 두 하위 값은 한쪽이 우수해도 다른 측면이 누락되는 불일치가 일어날 수 있으므로, 최종 점수는 이 두 속성을 긴밀히 합산한 종합적인 F1 기반 가중 평균 점수를 주축으로 설정합니다.

메타데이터 정보 검증 트랙: "시간 영역이 결정되었을 때, 내부 속성을 옳게 반환했는가?"

구간 정합이 확인되면 매칭 성공 구간 쌍 안에서 출력된 개별 메타데이터 필드의 참 거짓 유무를 평가합니다. 이를 위해 추출된 메타데이터 유형에 부합하는 기준 프롬프트 지침을 주입한 LLM-as-judge 모델 검증 알고리즘을 구축하여 0.0점에서 5.0점 척도 범위로 엄밀히 측정합니다.

여기에 하나의 세부 규정이 더해집니다. 생성된 세그먼트 시간 영역의 교집합 일치율이 정답 세그먼트 시간 영역에 비해서 정합 밀도가 느슨하거나 누락율이 높을수록 메타데이터 평가 결과 점수에 페널티 감쇠 필터를 부과합니다. 이는 시간 경계가 심각하게 엇나갔음에도 요약 글만 교묘하게 그럴듯하게 적어서 고득점을 몰아 받는 역설적인 품질 상승 왜곡을 시스템적으로 제약하기 위함입니다.

부가적인 소득도 있습니다. 메타데이터 평가는 무거운 딥러닝 비디오 인퍼런스 자체 연산과 비동기로 분리되는 완전한 후처리 단계에 위치하므로, 비싼 비디오 디코딩을 처음부터 다시 수행할 필요가 없습니다. 덕분에 우리는 평가용 프롬프트 기준과 검증 룰셋을 엄청나게 빠른 속도로 이터레이션하며 고도화하여 나갈 수 있습니다.

이 고유 분배가 제공하는 핵심 돌파구. 가령 세그먼트 감지 경계 점수는 전작 대비 대폭 우수해졌으나 메타데이터 정확도가 소폭 나빠졌다는 피드백이 나오면, 우리는 수식 튜닝 과정에 혼돈을 겪지 않고 바로 "경계 검출 추론 부는 완벽하니, 특정 카테고리 데이터 편향에 대한 파인튜닝 지점만 맞추면 된다"는 명확한 이정표를 즉각 도출할 수 있습니다.


7. 의미론적 플라이휠: 자산화의 선순환 시너지 효과

자산화는 한 번 일회성으로 끝나는 작업이 아닙니다. 이 구조적 흐름이 안착하여 실제 제 성능을 내기 시작하면 다음과 같은 지속적인 시너지 플라이휠 루프에 진입하게 됩니다.


저희는 이것을 **의미론적 플라이휠(Semantic Flywheel)**이라고 부릅니다. 방송 아카이브 관리, 브랜드 인텔리전스, 방송 모니터링 심의, 스포츠 자동화까지 TBM을 기반으로 구동되는 업무 영역은 매우 넓고 다양하지만 종착지는 동일합니다. 세그먼트와 메타데이터의 양질의 쌍이 축적될수록, 현장의 사용자가 직접 조정한 경계 오차 수정, 거부한 부적절 피드백 태그, 수정한 속성 정보 값 등 고유의 사용자 피드백 정보 자체가 고스란히 다음 버전의 AI 학습용 골드 스탠다드로 직접 전환됩니다. 한 번 가동되기 시작하면 아카이브 공간은 단순한 보관고로 정체되는 것이 아니라, 매 작동 이력마다 비디오 이해와 정리의 해상도를 점점 더 자동 갱신해나가는 자기 지향 학습 구조체로 완전하게 탈바꿈하게 됩니다.

다만 플라이휠을 역동적으로 구동시키기 위해 충족시켜야 하는 필수 선결 요건이 있습니다. 바로 **발전 수준에 대한 투명한 관찰 가능성(observability)**입니다. 시간 정확도와 메타데이터 추출 정합을 투명하게 분리하여 정량적 추이를 모니터링할 수 없다면, 어느 알고리즘이 발전하고 어느 파트가 병목에 빠졌는지 분별하기가 불가능합니다. 수치의 방향타가 부재하면 장기적인 기획 로드맵이 막히고 플라이휠의 회전 모멘텀 자체가 유실됩니다. 비디오 자산의 내부 결에 정확하게 정렬된 평가 프레임이 받쳐주어야만, 자산화가 단발성 데모에 그치지 않고 산업용 자동화 시스템으로 완벽히 성숙할 수 있습니다.


8. 그간 여정을 돌이켜 얻은 레슨들

TBM과 그 이원화 평가 엔진 구조를 온전히 정초해 나가는 긴 여정 속에서 깨달은 교훈이 있습니다.

세그먼트 분할은 Q&A 태스크와는 완전히 다릅니다. 비디오 세그먼트 검출 임무를 단순한 "또 다른 LLM이 답해야 할 자연어 이해 영역 중 하나"로 뭉뚱그려 대처하려고 시도했던 초기 본능은 연구 여정에 꽤 오랜 지연 비용을 치르게 했습니다. 경계 구획 탐지 프로세스는 고유한 실패 특징 패턴을 가지며, 완전히 상이한 계측 지표와 네트워크 백본 최적화 정합을 필수적으로 원합니다. 이 분리점을 일찌감치 명징하게 짚어냈더라면 수개월의 탐색 비용을 더 절약하고 효율적인 루트에 진입할 수 있었을 것입니다.

구조화된 형식이 유려한 텍스트 답변을 압도합니다. 실제 고객들의 검증 환경에서 소수점 초 단위가 살짝 흔들렸을지언정 완벽히 보정 정렬된 구조적 JSON 명세 속성 정보는, 한 편의 서술 서사 문장처럼 펼쳐지는 보기 좋은 줄글 설명문 따위보다 비교할 수 없이 압도적인 구조적 효용을 지닙니다. 사람이 보기에 좋은 수사적인 문장 생성 욕심을 깨끗이 덜어내고 기계가 읽을 수 있는(machine-readable) 엄격한 출력 완성도에 개발 코스트를 올곧게 배정한 방향이 결국 대단히 탁월한 전략적 결단이었습니다.

결정론적 특유의 규칙 제약은 한계가 아닌 최대의 핵심 특성입니다. 세그먼트들이 시간 축에서 서로 중첩되어 침범하지 못하게 막은 단호함, 일체 타협 없는 스키마 완전 충족 강제, temperature=0의 디바이스 기본 셋팅 유도 등 처음에 마주했던 일련의 단단한 설계 규정들은 사내 모델러들로부터 "생성 인공지능이 응당 뽐내야 할 다양한 자유 문맥 적응 가능성을 임의로 속박하려는 지나친 보수주의 프레임"이라는 의구심 섞인 반발 기류를 종종 불러일으켰습니다. 하지만 돌이켜보니 시스템들을 고도화하는 실전 단계에서 그 강고한 족쇄 제약 조건들이야말로 제품이 엔터프라이즈 자동화 파이프라인 상에 안전하게 결합되기 위한 든든한 등급 보증 수표 역할을 다 해주었습니다. 고객들은 어설프고 기복이 심한 창의력 넘치는 변동성 가득한 파트너 모델보다, 확실하게 규준을 통제해 주며 안정적인 가용성을 입증하는 신뢰 모델 시스템을 절대적으로 필요로 하기 때문입니다.


앞으로 나아갈 로드맵

비디오 자산화 패러다임은 이제 갓 첫 봉우리를 정복하기 시작한 여정의 극초기 상태에 있습니다. 우리는 머지 않은 시점에 3시간 단위를 유연히 넘어서는 한층 방대한 초장기 컨텍스트(3+ hours) 처리, 수십여 장의 다양하고 조밀한 배치 레퍼런스로 대상을 지정하고 가동하는 더욱 조밀한 멀티모달 그라운딩, 그리고 이러한 강력한 구조적 추출 엔진 패러다임을 비디오 바깥의 음성, 오디오 원천, 복잡한 종합 팟캐스트 자산군 전반으로 거침없이 이식하는 폭넓은 영토 확장의 전진을 직접 주행해 나갈 예정입니다.

그러나 진정으로 더 높은 기술적 등반 가치를 갖는 핵심 영역은, 모델의 엄청난 기술 성장에 완전히 동기화되어 유기적으로 뒤를 든든하게 받쳐줄 평가 아키텍처를 끝없는 스케일업 수준으로 유지해 나가는 일입니다. 비디오-언어 기반 모형이 거대화될수록 모델 실패 패턴 또한 한층 까다로운 경계 영역으로 자취를 감출 것이며, 시스템적 품질 계측 엔진은 이를 정확하게 색출하기 위해 전보다도 훨씬 명료한 모니터링 면도날을 끊임없이 갈고 다듬어야 합니다.

전 세계의 막대한 주요 엔터프라이즈 비디오 저장소는 여전히 제대로 열어보지도 못한 다크 비디오 상태로 잠들어 있습니다. 이 광대한 원석 저장고에서 숨은 가치를 찬란하게 구원해 내는 마법은 결코 범용 언어 생성 장치 하나만 새로 올린다고 완성되는 것이 아닙니다. 오직 모델이 목표한 완벽한 컷의 순간을 정확하게 도출해 냈는지 냉철한 기준의 계측기로 증명하고, 추출한 속성들을 흐트러짐 없이 구조화할 수 있는 치밀한 검증 인프라가 작동될 때에만 비로소 강력한 혁신은 온전하게 완성됩니다.