Product

Video-to-Text 및 Pegasus-1(80B)을 소개합니다

에이든 리, 재 리

Twelve Labs는 3억 개 이상의 비디오-텍스트 쌍으로 학습된 800억 매개변수 규모의 비디오-언어 파운데이션 모델인 Pegasus-1을 출시합니다. 이와 함께 비디오 요약 벤치마크에서 이전의 최고 성능 모델(SOTA)을 최대 61%까지 능가하는 새로운 Video-to-Text API 제품군을 선보입니다.

Twelve Labs는 3억 개 이상의 비디오-텍스트 쌍으로 학습된 800억 매개변수 규모의 비디오-언어 파운데이션 모델인 Pegasus-1을 출시합니다. 이와 함께 비디오 요약 벤치마크에서 이전의 최고 성능 모델(SOTA)을 최대 61%까지 능가하는 새로운 Video-to-Text API 제품군을 선보입니다.

In this article

No headings found on page

뉴스레터 구독하기

뉴스레터 구독하기

영상 이해 분야의 최신 기술 업데이트, 튜토리얼 및 인사이트를 받아보세요.

영상 이해 분야의 최신 기술 업데이트, 튜토리얼 및 인사이트를 받아보세요.

AI로 영상을 검색하고, 분석하고, 탐색하세요.

2023. 10. 23.

8분

링크 복사하기

요약

  • 제품: Twelve Labs가 최신 비디오-언어 파운데이션 모델인 Pegasus-1과 함께 비디오-텍스트 API 신규 제품군(Gist API, Summary API, Generate API)을 발표합니다.

  • 제품 및 연구 철학: 비디오 이해를 단순히 이미지나 음성 이해 문제로 재구성하는 기존의 많은 방식들과 달리, Twelve Labs는 다음 네 가지 핵심 원칙을 바탕으로 한 "비디오 우선(Video First)" 전략을 채택하고 있습니다: 효율적인 장편 비디오 처리, 멀티모달 이해, 비디오 네이티브 임베딩, 비디오 및 언어 임베딩 간의 긴밀한 정렬

  • 새로운 모델: Pegasus-1은 약 80B(800억 개)의 매개변수를 가지고 있으며 비디오 인코더, 비디오-언어 정렬 모델, 언어 디코더라는 세 가지 모델 구성 요소가 함께 공동 학습되었습니다.

  • 데이터셋: Twelve Labs는 다양하고 정교하게 정제된 3억 개 이상의 비디오-텍스트 쌍을 수집했으며, 이는 비디오-언어 파운데이션 모델 학습을 위한 세계 최대 규모의 비디오-텍스트 코퍼스 중 하나입니다. 본 기술 보고서는 3,500만 개의 비디오-텍스트 쌍과 10억 개 이상의 이미지-텍스트 쌍으로 구성된 10%의 서브셋에서 진행된 초기 학습 학습 실행을 기반으로 합니다.

  • 최신(SOTA) 비디오-언어 모델 대비 성능: 이전의 최신(SOTA) 비디오-언어 모델과 비교했을 때, Pegasus-1은 QEFVC 품질 점수(Maaz et al., 2023) 기준 MSR-VTT 데이터셋(Xu et al., 2016)에서 61%의 상대적 성능 향상을, 비디오 설명(Video Descriptions) 데이터셋(Maaz et al., 2023)에서 47%의 성능 향상을 보여줍니다. 저희가 제안하는 평가 지표인 VidFactScore로 평가했을 때, MSR-VTT 데이터셋에서는 절대 F1 Score 기준 20%의 상승을, 비디오 설명 데이터셋에서는 14%의 성능 향상을 보여줍니다.

  • ASR+LLM 모델 대비 성능: ASR+LLM은 비디오-텍스트 변환 문제를 해결하기 위해 널리 채택되는 방식입니다. Whisper-ChatGPT(OpenAI) 및 업계 선두의 상용 ASR+LLM 제품과 비교했을 때, Pegasus-1은 MSR-VTT에서 79%, 비디오 설명 데이터셋에서 188% 더 우수한 성능을 나타냅니다. VidFactScore-F1으로 평가 시, MSR-VTT 데이터셋에서 25%, 비디오 설명 데이터셋에서 33%의 절대 성능 이점을 보여줍니다.

  • Pegasus-1 API 액세스: Pegasus 기반 비디오-텍스트 API의 대기 명단(Waitlist) 등록 링크입니다.

연구 지평의 확장: 비디오 임베딩을 넘어 생성형 모델로

샌프란시스코 베이 에어리어에 본사를 둔 AI 연구 및 제품 개발 기업 Twelve Labs는 멀티모달 비디오 이해의 최전선에 서 있습니다. 오늘 우리는 최신 비디오-언어 파운데이션 모델인 Pegasus-1의 최첨단 비디오-텍스트 생성 기능을 공개하게 되어 매우 기쁩니다. 이는 다양한 다운스트림 비디오 이해 작업에 맞춤화된 종합 API 제품군을 제공하겠다는 우리의 약속을 보여줍니다. 저희 포트폴리오는 자연어 기반의 비디오 모먼트 검색부터 분류, 그리고 이번에 새로 출시된 프롬프트 기반의 비디오-텍스트 생성 기능에 이르기까지 폭넓게 아우르고 있습니다.

우리의 비디오 우선(Video-First) 정신

비디오 데이터는 단일 포맷 내에 여러 모달리티(시각, 청각 등)를 포함하고 있다는 점에서 매우 흥미롭습니다. 우리는 비디오를 진정으로 이해하기 위해서는 시각적 인지의 복잡성과 오디오 및 텍스트의 순차적이고 맥락적인 미묘한 차이를 결합하는 완전히 새로운 접근 방식이 필요하다고 믿습니다. 뛰어난 성능의 이미지 및 언어 모델이 등장함에 따라, 비디오 이해 분야의 주류 접근 방식은 이를 이미지나 음성 이해 문제로 재정의하는 것이었습니다. 전형적인 프레임워크는 비디오에서 프레임을 샘플링하여 비전-언어 모델에 입력하는 형식을 취합니다.

비디오 길이가 짧은 경우에는 이러한 접근 방식이 유효할 수 있지만(대부분의 비전-언어 모델이 1분 미만의 짧은 비디오 클립에 집중하는 이유이기도 합니다), 실제 환경의 비디오 대부분은 1분을 초과하며 수 시간까지 쉽게 늘어납니다. 이러한 비디오에 기존의 "이미지 우선(image-first)" 방식을 사용하면 비디오 하나당 수만 장의 이미지를 처리해야 합니다. 이는 시공간 정보의 의미를 기껏해야 대략적으로만 포착하는 방대한 양의 이미지-텍스트 임베딩을 다뤄야 함을 뜻합니다. 이는 성능, 지연 시간(latency), 비용 측면에서 많은 실제 애플리케이션에 적용하기가 어렵습니다. 더 나아가, 이러한 주류 방법론은 비디오 콘텐츠의 포괄적인 이해를 위해 시각 및 음성을 포함한 청각적 요소를 함께 공동으로 분석하는 것이 핵심이라는 비디오 본연의 멀티모달 특성을 간과하고 있습니다.

이러한 비디오 데이터의 근본적인 특성을 염두에 두고, Twelve Labs는 모델, 데이터, ML 시스템을 오직 비디오 데이터의 처리와 이해에만 전념하도록 하는 "비디오 우선(Video First)" 전략을 채택했습니다. 이는 다른 많은 생성형 AI 기업에서 관찰되는 일반적인 "언어/이미지 우선" 접근 방식과 극명한 대조를 이룹니다. 저희의 "비디오 우선" 정신을 강화하는 네 가지 핵심 원칙은 비디오-언어 파운데이션 모델의 설계와 ML 시스템 아키텍처 구축의 나침반 역할을 하고 있습니다.

  1. 효율적인 장편 비디오 처리: 저희 모델과 시스템은 짧은 10초짜리 클립부터 수 시간에 이르는 방대한 콘텐츠까지 다양한 길이의 비디오를 최적화하여 처리할 수 있어야 합니다.

  2. 멀티모달 이해: 저희 모델은 시각, 오디오, 음성 정보를 종합적으로 합성할 수 있어야 합니다.

  3. 비디오 네이티브 임베딩: 공간적 관계에만 집중하는 이미지 네이티브 임베딩(예: CLIP)에 의존하는 대신, 비디오의 시공간적 정보를 유기적이고 통합된 방식으로 담아낼 수 있는 비디오 네이티브 임베딩이 필요하다고 믿습니다.

  4. 비디오 네이티브 임베딩과 언어 모델 간의 긴밀한 정렬: 이미지-텍스트 정렬을 넘어, 대규모 비디오-텍스트 코퍼스와 비디오-텍스트 명령(instruction) 데이터셋에 대한 광범위한 학습을 통해 모델이 깊이 있는 비디오-언어 정렬을 달성하도록 해야 합니다.

새로운 비디오-텍스트 생성 능력과 인터페이스

개발자들은 단 한 번의 API 호출만으로 Pegasus-1 모델에 프롬프트를 입력하여 비디오 데이터로부터 특정 텍스트 출력을 생성할 수 있습니다. 음성-텍스트 변환(STT)을 사용하거나 시각 프레임 데이터에만 의존하는 기존 솔루션들과 달리, Pegasus-1은 시각, 오디오, 음성 정보를 통합하여 비디오로부터 한층 더 종합적인 텍스트를 생성하며 비디오 요약 벤치마크에서 새로운 업계 최고 수준(SOTA)의 성능을 달성했습니다. (아래 평가 및 결과 섹션 참조)

Gist API와 Summary API에는 사용자가 따로 프롬프트를 입력하지 않아도 즉시 작동할 수 있도록 관련 프롬프트가 기본 탑재되어 있습니다. Gist API는 제목, 주제, 관련 해시태그 목록과 같이 간결한 형태의 텍스트 결과를 생성할 수 있습니다. Summary API는 비디오 요약, 챕터 구분, 하이라이트 생성에 특화되어 설계되었습니다. 더 맞춤화된 출력을 원하시는 경우, 실험 단계인 Generate API를 통해 불릿 포인트 형태부터 보고서 스타일, 비디오 내용에 기반한 창의적인 노래 가사에 이르기까지 다양한 형식과 스타일을 요구하는 양방향 프롬프트를 입력할 수 있습니다.

예시 1: Gist API 및 Summary API를 통해 비디오에서 짧은 보고서 생성하기.

예시 2: Summary API에 스타일 지정 프롬프트를 전달하여 비디오 요약 생성하기.

예시 3: 실험 중인 Generate API를 활용한 프롬프트 지시로 맞춤형 텍스트 출력 생성하기.

예시 4: 비디오 안의 시각, 음성, 청각적 단서를 통합하는 멀티모달 이해 과정의 예시. (녹색으로 강조된 부분: 시각 정보)

Pegasus-1 (80B) 모델 개요

개별 구성 모델들의 세부 기능 및 전체 아키텍처

Pegasus-1 모델은 각각 비디오 네이티브 임베딩 생성, 비디오-언어 정렬 임베딩 생성, 텍스트 출력을 담당하는 세 가지 주요 컴포넌트로 구성되어 있습니다.

1. 비디오 인코더 모델 - 기존 Marengo 임베딩 모델에서 파생

  • 입력: 비디오

  • 출력: 비디오 임베딩(시각, 오디오, 음성 정보 포함)

  • 기능: 비디오 인코더의 목적은 비디오에서 복잡하고 정밀한 세부 정보를 수집하는 것입니다. 비디오 프레임과 그 시간적 관계를 평가하여 관련 시각 정보를 확보하는 동시에 오디오 신호와 음성 정보를 함께 처리합니다.

2. 비디오-언어 정렬(Alignment) 모델

  • 입력: 비디오 임베딩

  • 출력: 비디오-언어 정렬 임베딩

  • 기능: 정렬 모델의 주요 임무는 비디오 임베딩과 언어 모델 영역 간의 가교 역할을 하는 것입니다. 이를 통해 언어 모델이 비디오 임베딩을 텍스트 토큰을 이해하는 것과 유사한 방식으로 해석할 수 있도록 돕습니다.

3. 대규모 언어 모델 - 디코더 모델

  • 입력: 비디오-언어 정렬 임베딩, 사용자 프롬프트

  • 출력: 텍스트

  • 기능: 광범위한 지식 베이스를 활용하여, 언어 모델은 입력된 사용자 프롬프트를 바탕으로 정렬 임베딩을 해석합니다. 그 후 이 정보를 일관성 있고 사람이 읽기 쉬운 자연스러운 텍스트로 디코딩합니다.

모델 매개변수(Parameters) 및 규모

Pegasus-1 모델은 총 약 80B(800억 개)의 매개변수를 보유하고 있습니다. Marengo 임베딩 모델의 크기를 포함하여 각 개별 컴포넌트의 상세한 매개변수 분포는 현재 시점에는 공개되지 않습니다.

학습 및 미세조정(Fine-tuning) 데이터셋

  1. 비디오-언어 파운데이션 모델용 학습 데이터: 3억 개 이상의 비디오-텍스트 쌍 라이브러리에서 3,500만 개의 비디오(TL-35M으로 명명)와 10억 개 이상의 이미지로 구성된 10%의 서브셋 가공 및 선별을 마쳤습니다. 첫 학습 단계로서 충분히 큰 규모라고 생각하며, 향후 학습은 TL-100M에서 진행할 예정입니다. 저희가 파악하기로, 이는 비디오-언어 파운데이션 모델 학습을 위해 정교하게 선별된 비디오-텍스트 코퍼스로는 최대 규모입니다. 더 폭넓은 학술적 연구 지원을 위해 소규모 데이터셋을 오픈소스로 공개하는 방안을 고려 중입니다. 관심이 있으신 분은 research@twelvelabs.io로 문의해 주시기 바랍니다.

  2. 미세조정(Fine-tuning) 데이터셋: 앞서 언급한 비디오-언어 파운데이션 모델의 지시 이행(instruction-following) 능력을 강화하려면 고품질의 비디오-텍스트 미세조정 데이터셋이 필수적입니다. 저희의 데이터 선정 기준은 도메인의 다양성, 텍스트 주석(annotation)의 포괄성 및 정밀도라는 세 가지 주요 측면에 중점을 두고 있습니다. 본 데이터셋 내 각 비디오에 부여된 텍스트 주석의 평균 길이는 비슷한 길이의 기존 공개 비디오 데이터셋에 비해 두 배 더 깁니다. 또한, 정확성을 기하기 위해 주석 데이터에 대해 여러 차례의 검증 및 보정 단계를 거칩니다. 비록 이러한 접근법이 단위 주석 비용을 증가시키지만, 이전 연구(Zhou et al., 2023)에서 밝혀진 바와 같이 가치 있는 성과를 위해 단순량적 팽창보다 미세조정 데이터셋의 고품질 표준 유지를 더 중시했습니다.

성능에 영향을 미치는 요인들

예상하는 바와 같이, 모델의 종합적인 성능은 각 컴포넌트의 성능과 강력한 상관관계가 있습니다. 개별 구성 모델이 전체 품질 향상에 주는 구체적인 기여도는 여전히 연구 중인 영역입니다. 향후 더 심층적인 이해를 위해 대대적인 소거 실험(ablation study)을 진행하고 발견한 사실들을 공유해 드릴 예정입니다.

  1. 비디오 인코더 모델: 현재 당사의 Search 및 Classify API의 기반인 Marengo 2.5 모델(2023년 3월 기준, 1억 개 이상 비디오 / 10억 개 이상 이미지 포함)을 토대로 파생된 비디오 인코더 모델은 임베딩 기반의 비디오 분류 및 검색 작업에서 최고 수준의 결과를 기록하고 있습니다. 비디오로부터 추출할 수 있는 정보의 깊이는 본질적으로 이 비디오 인코더 모델에 의해 상한선이 정해집니다. Marengo 모델에 대한 더욱 상세한 내용은 차기 버전 Marengo 2.6 출시와 함께 다가올 보고서에서 다뤄질 예정입니다.

  2. 비디오-언어 정렬 모델: 이 모델은 파운데이션 모델 학습과 지시 미세조정 과정에서 비디오-언어 정렬 전문 지식을 학습합니다. 저희 언어 모델이 비디오 임베딩과 원활히 조화될 수 있는 핵심 경계가 바로 이 정렬 메커니즘을 통해 구축됩니다.

  3. 대규모 언어 모델 (디코더 모델): 언어 모델의 역량은 사전 학습 단계에서 축적한 풍부한 지식을 바탕으로 정의됩니다. 결과물인 출력 텍스트의 완성도는 모델 자체의 지식, 제공된 사용자 프롬프트, 그리고 비디오-언어 정렬 임베딩을 어떻게 조화롭게 합성해내느냐에 달려 있습니다.

평가 및 결과

Twelve Labs는 Pegasus-1 모델을 포함하여 전반적인 선진 기술들이 책임감 있게 배포되도록 보장하는 것의 중요성을 무겁게 인지하고 있습니다. 당사는 정확성, 세부 묘사 정밀도, 맥락적 이해도, 안전성, 유용성 등 미세한 다각적 관점에서 모든 개발 모델들의 벤치마크 테스트를 진행할 수 있는 종합적이고 투명한 데이터셋 및 평가 체계를 마련하고자 헌신하고 있습니다. 현재 비디오-언어 모델의 안전성과 유용성을 구체적으로 정량화하기 위한 고유 평가 지표를 조율 중이며, 결과는 즉각 공유될 예정입니다. 이번 블로그를 통해 예비 분석 결과를 우선 전해드리게 되어 대단히 고무적이며, 더욱 심화된 보고서 역시 차후 발표할 계획입니다. 이번 평가는 Pegasus-1 프리뷰 버전을 바탕으로 하였습니다.

저희 평가 코드베이스는 여기에서 확인하실 수 있습니다.

비교 모델군

당사의 모델과 비교할 타사 모델군은 크게 세 가지 고유 카테고리로 분류하였습니다.

  1. Video-ChatGPT (Maaz et al., 2023): 오픈 소스 형태로 공개되어 있으며 채팅 인터페이스를 탑재한 현시점 최신(SOTA) 수준의 대표적인 비디오-언어 모델입니다. 비디오 내 위상과 시각적 사건들을 다루기 위해 영상 프레임을 가공해 해석하지만, 비디오 속에 발생하는 대화 정보는 직접적으로 활용하지 못하는 특징을 보입니다.

  2. Whisper + ChatGPT-3.5 (OpenAI): 비디오 요약 작업을 위해 널리 상용화되어 쓰이는 이종 모델 간 대표적인 하이브리드 조합 중 하나입니다. 최고 수준의 음성 인식 기술(STT) 및 대형 언어 모델의 힘을 합쳐 결과물을 도출하지만, 주된 소스가 청각 음성 트랙에 전적으로 치우쳐져 있어 비디오 내의 귀중한 시각 맥락을 놓치게 된다는 중대한 맹점이 존재합니다.

  3. A사의 요약(Summary) API: 오디오 및 비디오 요약본 생성을 목표로 시장에서 활발히 채택해 사용 중인 대표적인 상용 솔루션입니다. A사의 솔루션은 비디오 요약 결과를 전달할 때 시각 정보를 완전 배제한 채 오직 텍스트 전사(TTS/ASR) 기록과 언어 모델에만 의존(ASR+ChatGPT 3.5 기반 방식과 유사)하는 것으로 분석됩니다.

데이터셋

MSR-VTT 데이터셋 (Xu et al., 2016): 모델이 10초에서 40초 사이의 짧은 비디오 클립에 대한 캡션이나 묘사 결과를 얼마나 훌륭히 생성해 내는지 가늠하게 돕는 널리 쓰이는 표준 비디오 캡셔닝 벤치마크 데이터셋입니다. 각 비디오에 인간 검수자가 작성한 20개 문장이 매칭되어 있으며, 최대한 상세한 세부를 끌어내고자 LLM(ChatGPT)을 통한 통합 정제 단계를 밟아 촘촘한 최종 통합 기술서 한 문단으로 가공해 활용했습니다. 본 평가는 총 1,000개 클립으로 조율된 JSFusion 검증용 분할(Test Split) 상에서 엄격히 이행되었습니다.

Video-ChatGPT 비디오 설명(Descriptions) 데이터셋 (Maaz et al., 2023): 대다수 비디오-텍스트 성능 평가는 위에 소개한 MSR-VTT와 같은 단문 중심의 비디오 가공 캡션 데이터에 크게 의존하는 경향을 보여왔습니다. 이러한 단편 캡셔닝이 훌륭한 나침반이 될 순 있으나 실제 작업 환경에 상존하는 다양한 형태의 장편 비디오를 완벽히 예측 평가하기란 불가능에 가깝습니다. 이에 따라, 저희는 Video-ChatGPT 비디오 설명 데이터셋을 평가 과정에 추가했습니다. 본 데이터셋은 ActivityNet 소스의 500개 비디오 가량으로 구성되어 있으며, 전문 검수 인력에 의해 정밀 제작된 풍부한 내용의 요약 정보가 포함되어 있습니다. 일반적인 짧은 가공식 캡션들과 달리 30초에서 수 분에 이르는 길이감을 가지며, 모든 결과는 시각 및 음향 정보를 종합 보완한 5~8개 수준의 완성도 높은 풀 세부 문단 요약으로 구성되어 있습니다.

평가 지표

비디오 기반 대화 모델을 위한 정량적 평가 프레임워크 (QEFVC)(Maaz et al., 2023) 기준에 따라 당사는 정보의 정확성(Correctness), 세부 묘사 능력(Detail Orientation), 맥락 이해(Contextual Understanding) 등 세 영역에 초점을 맞추어 검증을 진행했습니다. 이를 위해, 정밀 지시 미세조정을 마친 우수한 평가용 언어 모델(GPT-4)을 선택해 정답 레퍼런스 기준 대비 각 기준의 완성도를 질의 분석하도록 유도했습니다. 최종적 전반 성능 수치 도출을 유도하기 위해 3대 지표값을 산술평균 하였으며, 이를 공식 QEFVC 품질 스코어라 명명했습니다.

이 평가 시스템이 타 모델들과의 비교를 매우 매끄럽게 돕는 것은 사실이지만 완벽한 만능 해법은 아닙니다. 언어 모델을 활용하는 제반 평가의 불확실성을 가리킨 기존 동종 학계 유수 연구 결과들은, 평가 모델(GPT-4 등) 하나에만 전적으로 의존하는 수치 도출이 편향이나 기만적 평가 오류를 낼 위험이 있음을 주의 깊게 지적해 왔습니다. 또한 세부 평가 단위를 미시적으로 정교화할수록 평가 수치의 정확 신뢰도와 일관성이 대폭 상승한다는 점 역시 증명된 바 있습니다 (Ye et al., 2023). 이에 영감을 받아 전사적 팩트 체크 스코어링 체계인 FActScore(Min et al., 2023)를 참고해, 비디오 요약 결과의 퀄리티를 더욱 깊고 조밀하게 계측 분석할 독자적 신규 평가 방법론인 VidFactScore(비디오 사실성 스코어)를 선언 및 적용했습니다.

  • 모델의 모든 비디오 대상 출력안과 인간 요약 정답 쌍을 세밀한 이산형 단일 사실 구조들로 잘개 쪼갭니다. 예를 들자면 "한 남자와 여성이 힘차게 뛰어가고 있다"라는 큰 흐름의 진술을 문법적으로 해석해 "남자가 뛰고 있다", "여자가 뛰고 있다" 등의 독립 원자 단위 사실로 분절하는 방식입니다. 이 가공 여정 역시 적절한 훈련과 전용 프롬프트를 이식받은 GPT-4 등의 지시형 언어 모델 기재를 적용해 진행합니다.

  • 분석 평가를 앞둔 실제 자동 생성 비디오 요약본 또한 정확히 같은 방식으로 미시적인 원자 단위 사실형 조각들로 각각 분리하는 흐름을 거쳐 갑니다.

  • 가장 잘 정돈된 완성형 요약본이란 (1) 원래 들어있어야 할 정답 기준의 주요 팩트 요소들을 최대한 빠짐없이 반영하고, (2) 오리지널 원본 소스에 전혀 부합하지 않는 잘못된 거짓 팩트 주장을 최소화하는 요건을 만족해야 합니다. 이 유무 판단 단계 역시 완벽히 프로그래밍된 프롬프트 검인 명령을 장착 완료한 지시 조정형 언어 모델의 엄정 판별을 거칩니다.

  • 정밀 수식화 과정을 대입할 시, (1)은 생성 예측과 정답 세트 간 합치된 사실 총량이 원본 전체 팩트 중 얼마의 기여율을 차지하는가의 계통 분모인 재현율(Recall Rate)과 긴밀히 연결됩니다. 반대로 (2)는 실제 예측 생성본이라 내놓은 글의 팩트 조각들 수 중 진짜 원본 사실에 들어있던 정확 조각의 순수 비중이 얼마인지를 확인하는 정밀도(Precision)에 매칭됩니다. 이 재현율과 정밀도 두 값의 종합 조화평균값인 F1 스코어는 각 모델들의 참 성능 편차를 완벽히 식별해 주는 최상의 직관 평가 좌표를 제안합니다.

성능 평가 결과

최신 업계 최선두 경쟁 구도(SOTA)를 지키던 VideoChatGPT 모델과의 상호 정량 비교 테스트 과정에서, Pegasus-1은 기존 QEFVC 품질 점수 기준 MSR-VTT 상에서 무려 61%의 상대적인 성능 우수성을 달성 하였을 뿐만 아니라, 장편 비디오 설명 데이터셋 테스트 부문에서도 47% 가량 눈에 띄게 큰 연적 격차의 성능 점수 발전을 보여주었습니다. 또한 텍스트 기반 번역 하이브리드 조합군(Whisper+ChatGPT 및 A사 솔루션 그룹) 대비 격차의 한계는 더욱 거대하게 전개되었는데, Pegasus-1이 타 모델들을 압도하며 MSR-VTT 데이터셋에서는 79%, 고난도의 비디오 설명 데이터셋 파트에서는 188%라는 경이로운 지표 우월성을 증명해 보였습니다.

새로 연구 대입한 독자적인 VidFactScore-F1 계측 시스템 상에서 또한, Pegasus-1은 VideoChatGPT 대비 MSR-VTT 환경에서 20%의 절대적 성능 향상을, 장편 비디오 설명 데이터셋 파트에선 14%의 성능 격차 상승률을 기록하며 판정승을 거두었습니다. 이 역시 단순 번역 의존성 하이브리드 조합군과 정밀 계측을 비교 시, MSR-VTT 데이터셋 평가부문에서 25% 상승, 비디오 설명 데이터셋 환경에 있어서는 33%의 절대 우위 점수를 따내는 눈부신 성취를 거두었습니다. 본 검증 결과들은 당사가 신규 제안하는 VidFactScore 평가지표 체계가 기성 학계의 주류 흐름인 QEFVC 분석 메커니즘과 완벽히 궤를 함께하는 높은 정밀 인과성을 보유하고 있음을 한치 오차 없이 명징하게 나타냅니다.

한 가지 무척 고무적이었던 점은, 주로 인물 음성에 극단적으로 전도될 것이라 예상했던 스탠드업 코미디 콘서트 녹화 영상물이나 대학 전공 강의 비디오와 같은 경우였습니다. 이러한 극단적 스피치 비중의 상황에서도 자사의 통합 솔루션 모델은 기존 ASR+LLM 하이브리드 아키텍처 모델군들을 거뜬히 추월하는 면모를 보여주었습니다. 흔히 '이런 음성 전용 콘셉트 비디오들의 제어에는 음성 텍스트 변환(ASR) 하나만으로도 완전히 충분할 것'이라 예단하기 쉽지만, 당사의 상세 비교 시험은 그 편견을 완벽히 반증해 냅니다. 비록 무대 위 아주 짧은 동작의 흐름(예: 무대 위서 스탠드업 쇼를 이어가는 한 남성의 제스처 포착, 혹은 청중들의 교감 리액션 모먼트 스케치)과 같은 미세 수준의 시각 정보다 할지라도, 이 정보가 단순 음성 데이터 트랙과 실시간 복합 결합할 때, 말뜻에 담긴 표현의 입체감을 전방위 확대하여 한층 조밀하고 완전무결한 고급 비디오 핵심 요약을 정련해 내게 됩니다. 결과가 반증하듯, 진정한 형태의 깊은 공간적 비디오 분석 및 맥락 이해는 단지 청각 데이터를 문자로 옮겨내는 얕은 음성 청해 단계를 한참 뛰어넘는 고급 예술입니다. 온전한 이해를 담보하기 위해 시각과 음성을 아우르는 복합 멀티모달 프레임워크 설계가 필수불가결하다는 주장의 선명한 실증입니다. 하단에 기재된 사외 실전 적용형 예시(In-the-wild Examples) 중 "리액션 비디오(Reaction Video)" 실제 비교 파트가 그 해답을 잘 설명해 줄 것입니다.

사외 실전 적용형 예시 (In-the-wild examples)

아래 사례들은 기존의 타사 솔루션들과 비교해 Pegasus-1 모델이 보여주는 뛰어난 역량을 선보이고자 다양한 도메인에서 무작위로 추출 및 가공 처리한 실제 가용 예시들입니다.

자동 생성된 텍스트 출력물 내에는 아래와 같은 한계점들이 잠재적으로 포함될 수 있음을 투명하게 사전 공지해 드립니다.

  • 환각 현상 (Hallucinations: 실제 비디오 상에는 직접 노출 혹은 입증되지 않은 미지의 개연 팩트들을 모델 스스로의 지레짐작과 내부 확률 맥락에 의해 개연성 있는 소설 형태로 창작해 가공해 내는 현상)

  • 사용자가 제시한 명령 프롬프트나 맥락 질문 구조 자체를 명확히 이해하지 못해 다소 동문서답에 가까운 부적합한 출력을 내는 일종의 이탈 오류

  • 특정 편향이나 편견(Biases)의 개입 가능성

이와 관련된 귀중한 모든 피드백 수집 경로를 상시 늘려가고 있으며, 지적 및 보정 요청 사항들은 가까운 시일 내 업데이트 개발에 성실히 투영 및 개선해 가도록 최선을 다할 것입니다.

요약

  • 제품: Twelve Labs가 최신 비디오-언어 파운데이션 모델인 Pegasus-1과 함께 비디오-텍스트 API 신규 제품군(Gist API, Summary API, Generate API)을 발표합니다.

  • 제품 및 연구 철학: 비디오 이해를 단순히 이미지나 음성 이해 문제로 재구성하는 기존의 많은 방식들과 달리, Twelve Labs는 다음 네 가지 핵심 원칙을 바탕으로 한 "비디오 우선(Video First)" 전략을 채택하고 있습니다: 효율적인 장편 비디오 처리, 멀티모달 이해, 비디오 네이티브 임베딩, 비디오 및 언어 임베딩 간의 긴밀한 정렬

  • 새로운 모델: Pegasus-1은 약 80B(800억 개)의 매개변수를 가지고 있으며 비디오 인코더, 비디오-언어 정렬 모델, 언어 디코더라는 세 가지 모델 구성 요소가 함께 공동 학습되었습니다.

  • 데이터셋: Twelve Labs는 다양하고 정교하게 정제된 3억 개 이상의 비디오-텍스트 쌍을 수집했으며, 이는 비디오-언어 파운데이션 모델 학습을 위한 세계 최대 규모의 비디오-텍스트 코퍼스 중 하나입니다. 본 기술 보고서는 3,500만 개의 비디오-텍스트 쌍과 10억 개 이상의 이미지-텍스트 쌍으로 구성된 10%의 서브셋에서 진행된 초기 학습 학습 실행을 기반으로 합니다.

  • 최신(SOTA) 비디오-언어 모델 대비 성능: 이전의 최신(SOTA) 비디오-언어 모델과 비교했을 때, Pegasus-1은 QEFVC 품질 점수(Maaz et al., 2023) 기준 MSR-VTT 데이터셋(Xu et al., 2016)에서 61%의 상대적 성능 향상을, 비디오 설명(Video Descriptions) 데이터셋(Maaz et al., 2023)에서 47%의 성능 향상을 보여줍니다. 저희가 제안하는 평가 지표인 VidFactScore로 평가했을 때, MSR-VTT 데이터셋에서는 절대 F1 Score 기준 20%의 상승을, 비디오 설명 데이터셋에서는 14%의 성능 향상을 보여줍니다.

  • ASR+LLM 모델 대비 성능: ASR+LLM은 비디오-텍스트 변환 문제를 해결하기 위해 널리 채택되는 방식입니다. Whisper-ChatGPT(OpenAI) 및 업계 선두의 상용 ASR+LLM 제품과 비교했을 때, Pegasus-1은 MSR-VTT에서 79%, 비디오 설명 데이터셋에서 188% 더 우수한 성능을 나타냅니다. VidFactScore-F1으로 평가 시, MSR-VTT 데이터셋에서 25%, 비디오 설명 데이터셋에서 33%의 절대 성능 이점을 보여줍니다.

  • Pegasus-1 API 액세스: Pegasus 기반 비디오-텍스트 API의 대기 명단(Waitlist) 등록 링크입니다.

연구 지평의 확장: 비디오 임베딩을 넘어 생성형 모델로

샌프란시스코 베이 에어리어에 본사를 둔 AI 연구 및 제품 개발 기업 Twelve Labs는 멀티모달 비디오 이해의 최전선에 서 있습니다. 오늘 우리는 최신 비디오-언어 파운데이션 모델인 Pegasus-1의 최첨단 비디오-텍스트 생성 기능을 공개하게 되어 매우 기쁩니다. 이는 다양한 다운스트림 비디오 이해 작업에 맞춤화된 종합 API 제품군을 제공하겠다는 우리의 약속을 보여줍니다. 저희 포트폴리오는 자연어 기반의 비디오 모먼트 검색부터 분류, 그리고 이번에 새로 출시된 프롬프트 기반의 비디오-텍스트 생성 기능에 이르기까지 폭넓게 아우르고 있습니다.

우리의 비디오 우선(Video-First) 정신

비디오 데이터는 단일 포맷 내에 여러 모달리티(시각, 청각 등)를 포함하고 있다는 점에서 매우 흥미롭습니다. 우리는 비디오를 진정으로 이해하기 위해서는 시각적 인지의 복잡성과 오디오 및 텍스트의 순차적이고 맥락적인 미묘한 차이를 결합하는 완전히 새로운 접근 방식이 필요하다고 믿습니다. 뛰어난 성능의 이미지 및 언어 모델이 등장함에 따라, 비디오 이해 분야의 주류 접근 방식은 이를 이미지나 음성 이해 문제로 재정의하는 것이었습니다. 전형적인 프레임워크는 비디오에서 프레임을 샘플링하여 비전-언어 모델에 입력하는 형식을 취합니다.

비디오 길이가 짧은 경우에는 이러한 접근 방식이 유효할 수 있지만(대부분의 비전-언어 모델이 1분 미만의 짧은 비디오 클립에 집중하는 이유이기도 합니다), 실제 환경의 비디오 대부분은 1분을 초과하며 수 시간까지 쉽게 늘어납니다. 이러한 비디오에 기존의 "이미지 우선(image-first)" 방식을 사용하면 비디오 하나당 수만 장의 이미지를 처리해야 합니다. 이는 시공간 정보의 의미를 기껏해야 대략적으로만 포착하는 방대한 양의 이미지-텍스트 임베딩을 다뤄야 함을 뜻합니다. 이는 성능, 지연 시간(latency), 비용 측면에서 많은 실제 애플리케이션에 적용하기가 어렵습니다. 더 나아가, 이러한 주류 방법론은 비디오 콘텐츠의 포괄적인 이해를 위해 시각 및 음성을 포함한 청각적 요소를 함께 공동으로 분석하는 것이 핵심이라는 비디오 본연의 멀티모달 특성을 간과하고 있습니다.

이러한 비디오 데이터의 근본적인 특성을 염두에 두고, Twelve Labs는 모델, 데이터, ML 시스템을 오직 비디오 데이터의 처리와 이해에만 전념하도록 하는 "비디오 우선(Video First)" 전략을 채택했습니다. 이는 다른 많은 생성형 AI 기업에서 관찰되는 일반적인 "언어/이미지 우선" 접근 방식과 극명한 대조를 이룹니다. 저희의 "비디오 우선" 정신을 강화하는 네 가지 핵심 원칙은 비디오-언어 파운데이션 모델의 설계와 ML 시스템 아키텍처 구축의 나침반 역할을 하고 있습니다.

  1. 효율적인 장편 비디오 처리: 저희 모델과 시스템은 짧은 10초짜리 클립부터 수 시간에 이르는 방대한 콘텐츠까지 다양한 길이의 비디오를 최적화하여 처리할 수 있어야 합니다.

  2. 멀티모달 이해: 저희 모델은 시각, 오디오, 음성 정보를 종합적으로 합성할 수 있어야 합니다.

  3. 비디오 네이티브 임베딩: 공간적 관계에만 집중하는 이미지 네이티브 임베딩(예: CLIP)에 의존하는 대신, 비디오의 시공간적 정보를 유기적이고 통합된 방식으로 담아낼 수 있는 비디오 네이티브 임베딩이 필요하다고 믿습니다.

  4. 비디오 네이티브 임베딩과 언어 모델 간의 긴밀한 정렬: 이미지-텍스트 정렬을 넘어, 대규모 비디오-텍스트 코퍼스와 비디오-텍스트 명령(instruction) 데이터셋에 대한 광범위한 학습을 통해 모델이 깊이 있는 비디오-언어 정렬을 달성하도록 해야 합니다.

새로운 비디오-텍스트 생성 능력과 인터페이스

개발자들은 단 한 번의 API 호출만으로 Pegasus-1 모델에 프롬프트를 입력하여 비디오 데이터로부터 특정 텍스트 출력을 생성할 수 있습니다. 음성-텍스트 변환(STT)을 사용하거나 시각 프레임 데이터에만 의존하는 기존 솔루션들과 달리, Pegasus-1은 시각, 오디오, 음성 정보를 통합하여 비디오로부터 한층 더 종합적인 텍스트를 생성하며 비디오 요약 벤치마크에서 새로운 업계 최고 수준(SOTA)의 성능을 달성했습니다. (아래 평가 및 결과 섹션 참조)

Gist API와 Summary API에는 사용자가 따로 프롬프트를 입력하지 않아도 즉시 작동할 수 있도록 관련 프롬프트가 기본 탑재되어 있습니다. Gist API는 제목, 주제, 관련 해시태그 목록과 같이 간결한 형태의 텍스트 결과를 생성할 수 있습니다. Summary API는 비디오 요약, 챕터 구분, 하이라이트 생성에 특화되어 설계되었습니다. 더 맞춤화된 출력을 원하시는 경우, 실험 단계인 Generate API를 통해 불릿 포인트 형태부터 보고서 스타일, 비디오 내용에 기반한 창의적인 노래 가사에 이르기까지 다양한 형식과 스타일을 요구하는 양방향 프롬프트를 입력할 수 있습니다.

예시 1: Gist API 및 Summary API를 통해 비디오에서 짧은 보고서 생성하기.

예시 2: Summary API에 스타일 지정 프롬프트를 전달하여 비디오 요약 생성하기.

예시 3: 실험 중인 Generate API를 활용한 프롬프트 지시로 맞춤형 텍스트 출력 생성하기.

예시 4: 비디오 안의 시각, 음성, 청각적 단서를 통합하는 멀티모달 이해 과정의 예시. (녹색으로 강조된 부분: 시각 정보)

Pegasus-1 (80B) 모델 개요

개별 구성 모델들의 세부 기능 및 전체 아키텍처

Pegasus-1 모델은 각각 비디오 네이티브 임베딩 생성, 비디오-언어 정렬 임베딩 생성, 텍스트 출력을 담당하는 세 가지 주요 컴포넌트로 구성되어 있습니다.

1. 비디오 인코더 모델 - 기존 Marengo 임베딩 모델에서 파생

  • 입력: 비디오

  • 출력: 비디오 임베딩(시각, 오디오, 음성 정보 포함)

  • 기능: 비디오 인코더의 목적은 비디오에서 복잡하고 정밀한 세부 정보를 수집하는 것입니다. 비디오 프레임과 그 시간적 관계를 평가하여 관련 시각 정보를 확보하는 동시에 오디오 신호와 음성 정보를 함께 처리합니다.

2. 비디오-언어 정렬(Alignment) 모델

  • 입력: 비디오 임베딩

  • 출력: 비디오-언어 정렬 임베딩

  • 기능: 정렬 모델의 주요 임무는 비디오 임베딩과 언어 모델 영역 간의 가교 역할을 하는 것입니다. 이를 통해 언어 모델이 비디오 임베딩을 텍스트 토큰을 이해하는 것과 유사한 방식으로 해석할 수 있도록 돕습니다.

3. 대규모 언어 모델 - 디코더 모델

  • 입력: 비디오-언어 정렬 임베딩, 사용자 프롬프트

  • 출력: 텍스트

  • 기능: 광범위한 지식 베이스를 활용하여, 언어 모델은 입력된 사용자 프롬프트를 바탕으로 정렬 임베딩을 해석합니다. 그 후 이 정보를 일관성 있고 사람이 읽기 쉬운 자연스러운 텍스트로 디코딩합니다.

모델 매개변수(Parameters) 및 규모

Pegasus-1 모델은 총 약 80B(800억 개)의 매개변수를 보유하고 있습니다. Marengo 임베딩 모델의 크기를 포함하여 각 개별 컴포넌트의 상세한 매개변수 분포는 현재 시점에는 공개되지 않습니다.

학습 및 미세조정(Fine-tuning) 데이터셋

  1. 비디오-언어 파운데이션 모델용 학습 데이터: 3억 개 이상의 비디오-텍스트 쌍 라이브러리에서 3,500만 개의 비디오(TL-35M으로 명명)와 10억 개 이상의 이미지로 구성된 10%의 서브셋 가공 및 선별을 마쳤습니다. 첫 학습 단계로서 충분히 큰 규모라고 생각하며, 향후 학습은 TL-100M에서 진행할 예정입니다. 저희가 파악하기로, 이는 비디오-언어 파운데이션 모델 학습을 위해 정교하게 선별된 비디오-텍스트 코퍼스로는 최대 규모입니다. 더 폭넓은 학술적 연구 지원을 위해 소규모 데이터셋을 오픈소스로 공개하는 방안을 고려 중입니다. 관심이 있으신 분은 research@twelvelabs.io로 문의해 주시기 바랍니다.

  2. 미세조정(Fine-tuning) 데이터셋: 앞서 언급한 비디오-언어 파운데이션 모델의 지시 이행(instruction-following) 능력을 강화하려면 고품질의 비디오-텍스트 미세조정 데이터셋이 필수적입니다. 저희의 데이터 선정 기준은 도메인의 다양성, 텍스트 주석(annotation)의 포괄성 및 정밀도라는 세 가지 주요 측면에 중점을 두고 있습니다. 본 데이터셋 내 각 비디오에 부여된 텍스트 주석의 평균 길이는 비슷한 길이의 기존 공개 비디오 데이터셋에 비해 두 배 더 깁니다. 또한, 정확성을 기하기 위해 주석 데이터에 대해 여러 차례의 검증 및 보정 단계를 거칩니다. 비록 이러한 접근법이 단위 주석 비용을 증가시키지만, 이전 연구(Zhou et al., 2023)에서 밝혀진 바와 같이 가치 있는 성과를 위해 단순량적 팽창보다 미세조정 데이터셋의 고품질 표준 유지를 더 중시했습니다.

성능에 영향을 미치는 요인들

예상하는 바와 같이, 모델의 종합적인 성능은 각 컴포넌트의 성능과 강력한 상관관계가 있습니다. 개별 구성 모델이 전체 품질 향상에 주는 구체적인 기여도는 여전히 연구 중인 영역입니다. 향후 더 심층적인 이해를 위해 대대적인 소거 실험(ablation study)을 진행하고 발견한 사실들을 공유해 드릴 예정입니다.

  1. 비디오 인코더 모델: 현재 당사의 Search 및 Classify API의 기반인 Marengo 2.5 모델(2023년 3월 기준, 1억 개 이상 비디오 / 10억 개 이상 이미지 포함)을 토대로 파생된 비디오 인코더 모델은 임베딩 기반의 비디오 분류 및 검색 작업에서 최고 수준의 결과를 기록하고 있습니다. 비디오로부터 추출할 수 있는 정보의 깊이는 본질적으로 이 비디오 인코더 모델에 의해 상한선이 정해집니다. Marengo 모델에 대한 더욱 상세한 내용은 차기 버전 Marengo 2.6 출시와 함께 다가올 보고서에서 다뤄질 예정입니다.

  2. 비디오-언어 정렬 모델: 이 모델은 파운데이션 모델 학습과 지시 미세조정 과정에서 비디오-언어 정렬 전문 지식을 학습합니다. 저희 언어 모델이 비디오 임베딩과 원활히 조화될 수 있는 핵심 경계가 바로 이 정렬 메커니즘을 통해 구축됩니다.

  3. 대규모 언어 모델 (디코더 모델): 언어 모델의 역량은 사전 학습 단계에서 축적한 풍부한 지식을 바탕으로 정의됩니다. 결과물인 출력 텍스트의 완성도는 모델 자체의 지식, 제공된 사용자 프롬프트, 그리고 비디오-언어 정렬 임베딩을 어떻게 조화롭게 합성해내느냐에 달려 있습니다.

평가 및 결과

Twelve Labs는 Pegasus-1 모델을 포함하여 전반적인 선진 기술들이 책임감 있게 배포되도록 보장하는 것의 중요성을 무겁게 인지하고 있습니다. 당사는 정확성, 세부 묘사 정밀도, 맥락적 이해도, 안전성, 유용성 등 미세한 다각적 관점에서 모든 개발 모델들의 벤치마크 테스트를 진행할 수 있는 종합적이고 투명한 데이터셋 및 평가 체계를 마련하고자 헌신하고 있습니다. 현재 비디오-언어 모델의 안전성과 유용성을 구체적으로 정량화하기 위한 고유 평가 지표를 조율 중이며, 결과는 즉각 공유될 예정입니다. 이번 블로그를 통해 예비 분석 결과를 우선 전해드리게 되어 대단히 고무적이며, 더욱 심화된 보고서 역시 차후 발표할 계획입니다. 이번 평가는 Pegasus-1 프리뷰 버전을 바탕으로 하였습니다.

저희 평가 코드베이스는 여기에서 확인하실 수 있습니다.

비교 모델군

당사의 모델과 비교할 타사 모델군은 크게 세 가지 고유 카테고리로 분류하였습니다.

  1. Video-ChatGPT (Maaz et al., 2023): 오픈 소스 형태로 공개되어 있으며 채팅 인터페이스를 탑재한 현시점 최신(SOTA) 수준의 대표적인 비디오-언어 모델입니다. 비디오 내 위상과 시각적 사건들을 다루기 위해 영상 프레임을 가공해 해석하지만, 비디오 속에 발생하는 대화 정보는 직접적으로 활용하지 못하는 특징을 보입니다.

  2. Whisper + ChatGPT-3.5 (OpenAI): 비디오 요약 작업을 위해 널리 상용화되어 쓰이는 이종 모델 간 대표적인 하이브리드 조합 중 하나입니다. 최고 수준의 음성 인식 기술(STT) 및 대형 언어 모델의 힘을 합쳐 결과물을 도출하지만, 주된 소스가 청각 음성 트랙에 전적으로 치우쳐져 있어 비디오 내의 귀중한 시각 맥락을 놓치게 된다는 중대한 맹점이 존재합니다.

  3. A사의 요약(Summary) API: 오디오 및 비디오 요약본 생성을 목표로 시장에서 활발히 채택해 사용 중인 대표적인 상용 솔루션입니다. A사의 솔루션은 비디오 요약 결과를 전달할 때 시각 정보를 완전 배제한 채 오직 텍스트 전사(TTS/ASR) 기록과 언어 모델에만 의존(ASR+ChatGPT 3.5 기반 방식과 유사)하는 것으로 분석됩니다.

데이터셋

MSR-VTT 데이터셋 (Xu et al., 2016): 모델이 10초에서 40초 사이의 짧은 비디오 클립에 대한 캡션이나 묘사 결과를 얼마나 훌륭히 생성해 내는지 가늠하게 돕는 널리 쓰이는 표준 비디오 캡셔닝 벤치마크 데이터셋입니다. 각 비디오에 인간 검수자가 작성한 20개 문장이 매칭되어 있으며, 최대한 상세한 세부를 끌어내고자 LLM(ChatGPT)을 통한 통합 정제 단계를 밟아 촘촘한 최종 통합 기술서 한 문단으로 가공해 활용했습니다. 본 평가는 총 1,000개 클립으로 조율된 JSFusion 검증용 분할(Test Split) 상에서 엄격히 이행되었습니다.

Video-ChatGPT 비디오 설명(Descriptions) 데이터셋 (Maaz et al., 2023): 대다수 비디오-텍스트 성능 평가는 위에 소개한 MSR-VTT와 같은 단문 중심의 비디오 가공 캡션 데이터에 크게 의존하는 경향을 보여왔습니다. 이러한 단편 캡셔닝이 훌륭한 나침반이 될 순 있으나 실제 작업 환경에 상존하는 다양한 형태의 장편 비디오를 완벽히 예측 평가하기란 불가능에 가깝습니다. 이에 따라, 저희는 Video-ChatGPT 비디오 설명 데이터셋을 평가 과정에 추가했습니다. 본 데이터셋은 ActivityNet 소스의 500개 비디오 가량으로 구성되어 있으며, 전문 검수 인력에 의해 정밀 제작된 풍부한 내용의 요약 정보가 포함되어 있습니다. 일반적인 짧은 가공식 캡션들과 달리 30초에서 수 분에 이르는 길이감을 가지며, 모든 결과는 시각 및 음향 정보를 종합 보완한 5~8개 수준의 완성도 높은 풀 세부 문단 요약으로 구성되어 있습니다.

평가 지표

비디오 기반 대화 모델을 위한 정량적 평가 프레임워크 (QEFVC)(Maaz et al., 2023) 기준에 따라 당사는 정보의 정확성(Correctness), 세부 묘사 능력(Detail Orientation), 맥락 이해(Contextual Understanding) 등 세 영역에 초점을 맞추어 검증을 진행했습니다. 이를 위해, 정밀 지시 미세조정을 마친 우수한 평가용 언어 모델(GPT-4)을 선택해 정답 레퍼런스 기준 대비 각 기준의 완성도를 질의 분석하도록 유도했습니다. 최종적 전반 성능 수치 도출을 유도하기 위해 3대 지표값을 산술평균 하였으며, 이를 공식 QEFVC 품질 스코어라 명명했습니다.

이 평가 시스템이 타 모델들과의 비교를 매우 매끄럽게 돕는 것은 사실이지만 완벽한 만능 해법은 아닙니다. 언어 모델을 활용하는 제반 평가의 불확실성을 가리킨 기존 동종 학계 유수 연구 결과들은, 평가 모델(GPT-4 등) 하나에만 전적으로 의존하는 수치 도출이 편향이나 기만적 평가 오류를 낼 위험이 있음을 주의 깊게 지적해 왔습니다. 또한 세부 평가 단위를 미시적으로 정교화할수록 평가 수치의 정확 신뢰도와 일관성이 대폭 상승한다는 점 역시 증명된 바 있습니다 (Ye et al., 2023). 이에 영감을 받아 전사적 팩트 체크 스코어링 체계인 FActScore(Min et al., 2023)를 참고해, 비디오 요약 결과의 퀄리티를 더욱 깊고 조밀하게 계측 분석할 독자적 신규 평가 방법론인 VidFactScore(비디오 사실성 스코어)를 선언 및 적용했습니다.

  • 모델의 모든 비디오 대상 출력안과 인간 요약 정답 쌍을 세밀한 이산형 단일 사실 구조들로 잘개 쪼갭니다. 예를 들자면 "한 남자와 여성이 힘차게 뛰어가고 있다"라는 큰 흐름의 진술을 문법적으로 해석해 "남자가 뛰고 있다", "여자가 뛰고 있다" 등의 독립 원자 단위 사실로 분절하는 방식입니다. 이 가공 여정 역시 적절한 훈련과 전용 프롬프트를 이식받은 GPT-4 등의 지시형 언어 모델 기재를 적용해 진행합니다.

  • 분석 평가를 앞둔 실제 자동 생성 비디오 요약본 또한 정확히 같은 방식으로 미시적인 원자 단위 사실형 조각들로 각각 분리하는 흐름을 거쳐 갑니다.

  • 가장 잘 정돈된 완성형 요약본이란 (1) 원래 들어있어야 할 정답 기준의 주요 팩트 요소들을 최대한 빠짐없이 반영하고, (2) 오리지널 원본 소스에 전혀 부합하지 않는 잘못된 거짓 팩트 주장을 최소화하는 요건을 만족해야 합니다. 이 유무 판단 단계 역시 완벽히 프로그래밍된 프롬프트 검인 명령을 장착 완료한 지시 조정형 언어 모델의 엄정 판별을 거칩니다.

  • 정밀 수식화 과정을 대입할 시, (1)은 생성 예측과 정답 세트 간 합치된 사실 총량이 원본 전체 팩트 중 얼마의 기여율을 차지하는가의 계통 분모인 재현율(Recall Rate)과 긴밀히 연결됩니다. 반대로 (2)는 실제 예측 생성본이라 내놓은 글의 팩트 조각들 수 중 진짜 원본 사실에 들어있던 정확 조각의 순수 비중이 얼마인지를 확인하는 정밀도(Precision)에 매칭됩니다. 이 재현율과 정밀도 두 값의 종합 조화평균값인 F1 스코어는 각 모델들의 참 성능 편차를 완벽히 식별해 주는 최상의 직관 평가 좌표를 제안합니다.

성능 평가 결과

최신 업계 최선두 경쟁 구도(SOTA)를 지키던 VideoChatGPT 모델과의 상호 정량 비교 테스트 과정에서, Pegasus-1은 기존 QEFVC 품질 점수 기준 MSR-VTT 상에서 무려 61%의 상대적인 성능 우수성을 달성 하였을 뿐만 아니라, 장편 비디오 설명 데이터셋 테스트 부문에서도 47% 가량 눈에 띄게 큰 연적 격차의 성능 점수 발전을 보여주었습니다. 또한 텍스트 기반 번역 하이브리드 조합군(Whisper+ChatGPT 및 A사 솔루션 그룹) 대비 격차의 한계는 더욱 거대하게 전개되었는데, Pegasus-1이 타 모델들을 압도하며 MSR-VTT 데이터셋에서는 79%, 고난도의 비디오 설명 데이터셋 파트에서는 188%라는 경이로운 지표 우월성을 증명해 보였습니다.

새로 연구 대입한 독자적인 VidFactScore-F1 계측 시스템 상에서 또한, Pegasus-1은 VideoChatGPT 대비 MSR-VTT 환경에서 20%의 절대적 성능 향상을, 장편 비디오 설명 데이터셋 파트에선 14%의 성능 격차 상승률을 기록하며 판정승을 거두었습니다. 이 역시 단순 번역 의존성 하이브리드 조합군과 정밀 계측을 비교 시, MSR-VTT 데이터셋 평가부문에서 25% 상승, 비디오 설명 데이터셋 환경에 있어서는 33%의 절대 우위 점수를 따내는 눈부신 성취를 거두었습니다. 본 검증 결과들은 당사가 신규 제안하는 VidFactScore 평가지표 체계가 기성 학계의 주류 흐름인 QEFVC 분석 메커니즘과 완벽히 궤를 함께하는 높은 정밀 인과성을 보유하고 있음을 한치 오차 없이 명징하게 나타냅니다.

한 가지 무척 고무적이었던 점은, 주로 인물 음성에 극단적으로 전도될 것이라 예상했던 스탠드업 코미디 콘서트 녹화 영상물이나 대학 전공 강의 비디오와 같은 경우였습니다. 이러한 극단적 스피치 비중의 상황에서도 자사의 통합 솔루션 모델은 기존 ASR+LLM 하이브리드 아키텍처 모델군들을 거뜬히 추월하는 면모를 보여주었습니다. 흔히 '이런 음성 전용 콘셉트 비디오들의 제어에는 음성 텍스트 변환(ASR) 하나만으로도 완전히 충분할 것'이라 예단하기 쉽지만, 당사의 상세 비교 시험은 그 편견을 완벽히 반증해 냅니다. 비록 무대 위 아주 짧은 동작의 흐름(예: 무대 위서 스탠드업 쇼를 이어가는 한 남성의 제스처 포착, 혹은 청중들의 교감 리액션 모먼트 스케치)과 같은 미세 수준의 시각 정보다 할지라도, 이 정보가 단순 음성 데이터 트랙과 실시간 복합 결합할 때, 말뜻에 담긴 표현의 입체감을 전방위 확대하여 한층 조밀하고 완전무결한 고급 비디오 핵심 요약을 정련해 내게 됩니다. 결과가 반증하듯, 진정한 형태의 깊은 공간적 비디오 분석 및 맥락 이해는 단지 청각 데이터를 문자로 옮겨내는 얕은 음성 청해 단계를 한참 뛰어넘는 고급 예술입니다. 온전한 이해를 담보하기 위해 시각과 음성을 아우르는 복합 멀티모달 프레임워크 설계가 필수불가결하다는 주장의 선명한 실증입니다. 하단에 기재된 사외 실전 적용형 예시(In-the-wild Examples) 중 "리액션 비디오(Reaction Video)" 실제 비교 파트가 그 해답을 잘 설명해 줄 것입니다.

사외 실전 적용형 예시 (In-the-wild examples)

아래 사례들은 기존의 타사 솔루션들과 비교해 Pegasus-1 모델이 보여주는 뛰어난 역량을 선보이고자 다양한 도메인에서 무작위로 추출 및 가공 처리한 실제 가용 예시들입니다.

자동 생성된 텍스트 출력물 내에는 아래와 같은 한계점들이 잠재적으로 포함될 수 있음을 투명하게 사전 공지해 드립니다.

  • 환각 현상 (Hallucinations: 실제 비디오 상에는 직접 노출 혹은 입증되지 않은 미지의 개연 팩트들을 모델 스스로의 지레짐작과 내부 확률 맥락에 의해 개연성 있는 소설 형태로 창작해 가공해 내는 현상)

  • 사용자가 제시한 명령 프롬프트나 맥락 질문 구조 자체를 명확히 이해하지 못해 다소 동문서답에 가까운 부적합한 출력을 내는 일종의 이탈 오류

  • 특정 편향이나 편견(Biases)의 개입 가능성

이와 관련된 귀중한 모든 피드백 수집 경로를 상시 늘려가고 있으며, 지적 및 보정 요청 사항들은 가까운 시일 내 업데이트 개발에 성실히 투영 및 개선해 가도록 최선을 다할 것입니다.