Product

Pegasus 1 Beta: 비디오-언어 모델링의 새로운 기준을 제시

Twelve Labs가 Pegasus-1의 오픈 베타 버전을 출시합니다. 이번 버전은 170억 개의 파라미터를 갖춘 알파 버전에서 한 단계 업그레이드되었으며, 비디오 처리 해상도가 15배 향상되었습니다. 또한, 개선된 학습 기술을 통해 Gemini Pro 1.5를 포함한 타 모델들과의 비교에서 비디오 질문 답변, 요약 및 대화 벤치마크 기준 최상위(SOTA) 수준의 성능을 입증했습니다.

Twelve Labs가 Pegasus-1의 오픈 베타 버전을 출시합니다. 이번 버전은 170억 개의 파라미터를 갖춘 알파 버전에서 한 단계 업그레이드되었으며, 비디오 처리 해상도가 15배 향상되었습니다. 또한, 개선된 학습 기술을 통해 Gemini Pro 1.5를 포함한 타 모델들과의 비교에서 비디오 질문 답변, 요약 및 대화 벤치마크 기준 최상위(SOTA) 수준의 성능을 입증했습니다.

In this article

No headings found on page

뉴스레터 구독하기

뉴스레터 구독하기

영상 이해 분야의 최신 기술 업데이트, 튜토리얼 및 인사이트를 받아보세요.

영상 이해 분야의 최신 기술 업데이트, 튜토리얼 및 인사이트를 받아보세요.

AI로 영상을 검색하고, 분석하고, 탐색하세요.

2024. 3. 12.

10분

링크 복사하기

arXiVHuggingFace에서 Pegasus-1 기술 보고서를 확인해 보세요!

1 - 소개 (Introduction)

Twelve Labs의 목표는 혁신적인 멀티모달 AI 모델을 개발하여 비디오 이해 기술을 한 단계 더 진보시키는 것입니다. 이전 포스트인 "Video-to-Text 및 Pegasus-1 (80B) 소개"에서 Pegasus-1 알파 버전을 처음 공개해 드린 바 있습니다. 이 파운데이션 모델은 비디오 입력을 통해 상세한 설명 텍스트를 생성할 수 있습니다. 그리고 오늘, 드디어 Pegasus-1의 오픈 베타 출시 소식을 전해드리게 되어 매우 기쁩니다.

Pegasus-1은 복잡한 비디오 콘텐츠를 이해하고 이를 명확하게 표현하도록 설계되어, 우리가 멀티미디어와 상호작용하고 분석하는 방식을 혁신적으로 변화시킵니다. 약 170억 개의 매개변수(parameter)를 갖춘 이 모델은 멀티모달 AI 분야의 중요한 진전을 의미하며, 독보적인 정확도와 디테일로 비디오 입력으로부터 언어를 처리하고 생성해 냅니다.

이번 업데이트에서는 알파 출시 이후 Pegasus-1에 적용된 다양한 개선 사항을 살펴봅니다. 여기에는 데이터 품질, 비디오 처리 및 학습 방법의 개선이 포함됩니다. 또한 비디오 요약, 질의응답 및 대화 모델링 전반에서 Pegasus-1의 독보적인 성능을 입증하는 주요 상용 및 오픈소스 모델과의 벤치마크 결과도 공유합니다. 정량적 지표를 넘어, Pegasus-1은 한층 강화된 글로벌 상식 지식(world knowledge)과 상세한 시각적 정보를 정교하게 포착하는 능력을 통해 한 차원 높은 정성적 향상을 보여줍니다.

2 - 모델 개요 (Model Overview)

__wf_reserved_inherit

짧게 요약하자면, Pegasus-1은 비디오 콘텐츠와 언어 사이의 간극을 좁혀 기계가 비디오 입력을 바탕으로 텍스트를 해석하고 생성할 수 있도록 설계된 멀티모달 파운데이션 모델입니다. Pegasus-1의 아키텍처는 크게 세 가지 핵심 컴포넌트로 구성됩니다.

  1. 비디오 인코더 모델 (Video encoder model)은 비디오 입력을 처리하여 비디오 프레임과 오디오 음성 인식(ASR) 데이터 모두로부터 풍부한 임베딩을 생성합니다. 이 임베딩은 비디오 콘텐츠의 시각적 및 청각적 속성을 압축하여 담아낸 고밀도 표현입니다.

  2. 비디오-언어 정렬 모델 (Video-language alignment model)은 비디오 임베딩을 그에 대응하는 언어 임베딩에 매핑하여, 비디오와 텍스트 표현이 일치하는 공유 공간을 생성합니다. 이 정렬 프로세스는 모델이 비디오 속 시각 파일과 이를 설명하는 언어 간의 연관성을 파악하는 데 매우 중요합니다.

  3. 대규모 언어 모델 (LLM) 디코더는 이 정렬된 임베딩과 사용자 프롬프트를 입력받아 맥락에 맞춰 자연스럽고 정교한 텍스트 출력을 생성합니다. 이 출력은 설명 위주의 요약부터 비디오 내용에 대한 특정 질문의 답변까지 다양하게 구현됩니다.

알파 버전과 비교했을 때, Pegasus-1 오픈 베타 버전은 약 170억 개의 매개변수를 자랑하며, 비디오 데이터 기반의 텍스트 해석 및 생성 분야에서 가볍고도 강력한 성능을 보여줍니다.

3 - 주요 개선 사항 (Major Improvements)

알파 단계에서 오픈 베타 단계로 진화하면서, 저희는 모델을 지속적으로 정제하고 강화하여 한층 더 정확하고 고도화된 비디오-언어 이해를 제공해 왔습니다. 이러한 개선은 고품질 데이터, 최적화된 비디오 처리, 그리고 정교화된 학습 기법이라는 세 가지 핵심 요소를 통해 이루어졌습니다.

3.1 - 데이터 개선 (Data Improvement)

기존 연구 결과들과 마찬가지로, 저희 역시 단순히 데이터의 절대적인 양을 늘리는 것보다 캡션의 품질과 상세함(granularity)이 모델 성능에 훨씬 더 결정적인 영향을 미친다는 점을 확인했습니다. 일례로, 10만 개의 고품질 비디오-텍스트 쌍(pair)으로 학습된 Pegasus-1은 낮은 품질의 캡션을 가진 대규모 데이터셋(1,000만 개 이상)으로 학습된 동일한 아키텍처의 성능을 한참 능가합니다.

이러한 실험적 근거를 바탕으로, 저희는 앞서 언급한 1,000만 개 이상의 비디오에 대해 고품질 비디오 캡션을 실시간으로 생성할 수 있는 효율적인 데이터 어노테이션 파이프라인을 구축했습니다. 이처럼 방대한 양의 고품질 비디오-텍스트 쌍을 통해 학습을 마친 Pegasus는 타 모델에서는 찾아볼 수 없는 독보적이고 강력한 비디오 이해 성능을 갖추게 되었습니다.

3.2 - 비디오 처리 개선 (Video Processing Improvement)

저희는 공간적 및 시간적 해상도를 모두 최적화하기 위해 비디오 처리 파이프라인에 대대적인 변화를 주었습니다. 프레임당 패치 수(공간적 해상도)를 10배 늘리고 프레임 수(시간적 해상도)를 1.5배 늘려, 결과적으로 비디오당 총 패치 수를 15배나 증가시켰습니다. 이러한 개선 덕분에 Pegasus-1은 프레임당 훨씬 더 풍부한 정보를 포착해 표현할 수 있습니다.

또한, 정성적 및 정량적 분석(특히 질의응답 데이터셋 결과)을 통해 확인된 것처럼 이제 Pegasus-1은 비디오 전체의 내러티브와 맥락을 훨씬 더 명확하고 일관성 있게 파악할 수 있습니다.

3.3 - 학습 기법 개선 (Training Improvement)

멀티모달 파운데이션 모델인 Pegasus-1은 여러 단계에 걸쳐 대규모 멀티모달 데이터셋으로 학습됩니다. 그러나 다단계 학습은 보통 파괴적 망각(catastrophic forgetting)이라 불리는 한계에 부딪히기 쉽습니다. 모델이 새로운 정보를 학습하는 과정에서 이전에 학습했던 기존 정보를 쉽게 잊어버리는 현상입니다. 이러한 현상은 모달리티 간의 순차적 학습 과정을 거치는 멀티모달 모델에서 특히 더 두드러집니다.

이를 해결하기 위해, 저희는 새로운 지식 습득과 기존 정보 보존 사이의 정교한 균형을 유지할 수 있도록 특별히 설계된 전략적 학습 체계(strategic training regimen)를 도입했습니다. 이 접근법의 핵심은 학습 프로세스 전반에 걸쳐 모델 매개변수를 선택적으로 업데이트(unfreezing)하고 학습률(learning rates)을 세밀하게 제어하는 데 있습니다.

Pegasus-1 오픈 베타 버전은 알파 버전과 비교하여 세밀한 시간적 모멘트 포착 기능이 크게 향상되었으며, 환각(hallucination) 현상이 크게 감소하여 다양한 비디오 도메인에 걸쳐 높은 신뢰성과 일관성을 확보했습니다. 또한 확장된 월드 지식을 보여주고, 특정 단일 장면에만 집중하기보다 시간 순서대로 다양한 모멘트를 나열하는 능력이 크게 향상되었습니다.

4 - 정량적 벤치마크 결과

__wf_reserved_inherit

철저히 검증된 당사의 벤치마크 평가를 통해, Pegasus-1은 상용 및 오픈소스 모델 모두를 아우르는 다양한 모델군과 비교 분석되었습니다. 이 섹션에서는 여러 비디오-언어 모델링 태스크에서 타 모델들과 비교한 Pegasus-1의 구체적인 성능 수치를 명확히 제시합니다.

4.1 - 베이스라인 모델 (Baseline Models)

Pegasus-1의 벤치마크 평가에 사용된 베이스라인 모델 목록은 다음과 같습니다.

  • Gemini Pro (1.5): 2023년 11월에 처음 공개되고 가장 최근인 2024년 2월에 업데이트된 Google DeepMind의 상용 멀티모달 모델로, 뛰어난 비디오-언어 이해 성능으로 잘 알려져 있습니다. 본 비교에는 최신 버전인 Gemini Pro 1.5가 사용되었습니다.

  • Whisper + ChatGPT-3.5 (OpenAI): 이 조합은 업계에서 흔히 비디오 요약에 사용하는 접근법 중 하나입니다. 최고 수준의 음성 인식 모델(STT)과 LLM을 결합하여 가동되며, 요약은 주로 비디오의 음성 대화 내용을 바탕으로 처리됩니다. 비디오 내의 귀중한 '시각적 정보'를 인지하지 못한다는 치명적인 한계가 있습니다.

  • Vendor A’s Summary API: 오디오 및 비디오 요약 생성에 널리 사용되는 시중의 상용 제품입니다. Vendor A의 요약 API는 오직 텍스트 트랜스크립션 데이터와 구어체 언어 모델(ASR+ChatGPT3.5와 유사)에 기인하여 결과물을 도출하는 것으로 파악됩니다.

  • Video-ChatGPT: Maaz 등이 개발한 모델(2023년 6월 출시)로 채팅 인터페이스를 탑재한 비디오 언어 모델입니다. 비디오 프레임을 처리하여 비디오 서사 내의 시각적 이벤트를 파악합니다. 단, 비디오 내의 다이얼로그나 음성 정보는 활용하지 못한다는 점이 피력됩니다.

  • VideoChat2: Li 등이 개발한 모델(2023년 11월 출시)로, 다양한 지시어 튜닝(instruction-tuning) 데이터를 탑재하여 프로그레시브 멀티모달 학습을 설계한 최고 수준의 오픈소스 멀티모달 LLM입니다.

시각 기반의 이미지-언어 모델인 LLaVAGPT-4V 등은 우리의 비교 대상에서 제외되었습니다. 이 모델들은 당사가 평가하려는 태스크의 핵심 요건인 네이티브 비디오 처리 기능이 결여되어 있기 때문입니다. 구체적인 한계는 아래와 같습니다.

  • 해당 모델들의 상당수는 오직 완벽한 단일 이미지만 인식 가능하여, 대부분의 비디오 벤치마크 데이터셋에서 매우 저조한 성능을 보입니다.

  • 일부 모델(예: GPT-4V)은 여러 이미지를 한 번에 처리할 수 있으나, 한 번에 처리할 수 있는 비디오 프레임 수가 극히 소량(10프레임 이하)에 불과하여 1분이 넘어가는 대부분의 실무 비디오 처리에 한계가 있습니다.

  • 이미지 기반 모델은 비디오 콘텐츠 특유의 유기적이고 역동적인 내러티브 맥락을 온전히 처리하는 데 태생적 한계를 보입니다. 입력을 유기적인 비디오가 아닌 정적인 이미지의 나열로만 학습하기 때문입니다.

  • 또한, 이러한 이미지 기반 모델들이 전체 비디오를 구동 및 처리하기 위해 요구되는 실행 시간은 실제 서비스 및 프로덕션 환경에 적용하기에 지나치게 깁니다. 비디오 속 내러티브의 흐름과 액션을 직관적으로 파악하는 데 필수적인 시간 축(temporal dimension)을 효율적으로 다루는 기술적 설계가 부족하기 때문입니다.

4.2 - 비디오 질의응답 결과 (Video QA)

__wf_reserved_inherit

비디오 질의응답(Video QA) 분야에서, Pegasus-1은 별도의 파인튜닝 프로세스 없이도 ActivityNet-QANExT-QA 벤치마크 모두에서 뛰어난 제로샷(zero-shot) 성능을 달성했습니다. 특정 태스크 전용 학습 없이도, 다양한 도메인의 비디오 내용을 유연하게 일반화하여 핵심 질문에 아주 높은 신뢰도로 올바른 답을 도출합니다.

4.3 - 비디오 대화 결과 (Video Conversations)

__wf_reserved_inherit

Video-ChatGPT 벤치마크(QEFVC라고도 불림) 결과는 비디오 대화를 처리하는 데 있어서 Pegasus-1의 월등한 성능을 여과 없이 표현합니다. 정확성(Correctness), 디테일(Detail), 컨텍스트(Context), 시간 정보 이해(Temporal understanding), 일관성(Consistency) 수치 모두에서 시장 타 모델들을 크게 앞질렀습니다. 특히 Pegasus-1은 정확성에서 3.79, 설명 디테일에서 4.29를 획득하여, 인물 간의 정교한 대화 맥락과 상황적 context를 능숙하게 파악함을 스스로 입증했습니다.

4.4 - 비디오 요약 결과 (Video Summarization)

__wf_reserved_inherit

마지막으로, Pegasus-1은 비디오를 요약하는 영역에서도 압도적인 역량을 증명해 보였습니다. MSR-VTT 데이터셋을 대상으로 VideoChatGPT의 상세 평가 지표 시스템을 적용하여 요약 성능 빅매치를 진행했습니다 (요약 태스크 특성상 시간 정보 이해 및 일관성 지표는 제외). 상기 데이터 결과가 증명하듯 Pegasus-1은 모든 정량적 평가에서 경쟁 베이스라인 모델들을 큰 격차로 따돌렸습니다.

이 종합적인 벤치마크 결과를 통해 Pegasus-1은 비디오-언어 처리 모델링 분야의 선두 주자로 우뚝 섰으며, 제로샷 요약 성능과 뛰어난 범용 비디오 태스크 수행 능력에 있어 새로운 글로벌 표준을 정립했습니다.

5 - 구체적인 정성적 사용 예시 (Qualitative Examples)

다양한 도메인에서 엄선되고 무작위로 추출된 실제 케이스를 통해 Pegasus-1의 실제 작동 형태를 직관적으로 체험해 보세요.

이러닝 비디오 (E-Learning Video)

생성된 타이틀 (Generated Title)

텐트 설치하기: 캐나다 국립공원 관리청과 함께하는 캠핑 초보자 가이드

생성된 토픽 (Generated Topic)

캠핑: 캐나다 국립공원에서 안전하게 텐트 치고 고정하기

생성된 해시태그 (Generated Hashtags)

#캠핑, #텐트, #설치하기, #화로대, #안전, #초보캠핑, #캐나다국립공원

생성된 비디오 챕터 (Generated Chapters)

1단계: 사이트 선정 00:00:00 - 00:00:08

적절한 캠핑 사이트를 선택하고 텐트 설치 준비하기.

2단계: 화로 구축 00:00:09 - 00:00:36

조리 및 보온을 위한 안전한 모닥불 화로 만들기.

3단계: 텐트 펼치기 00:00:37 - 00:01:14

텐트를 바닥에 펼쳐놓고 위치 조절하기.

4단계: 지면 고정 00:01:14 - 00:01:48

텐트가 바람에 날아가지 않도록 팩을 사용해 단단히 지면에 고정하기.

5단계: 플라이 시트 장착 00:01:49 - 00:01:54

비와 이슬을 막기 위해 텐트 상단에 레인플라이 씌우기.

6단계: 내부 세팅 00:01:55 - 00:02:16

텐트 내부에 매트와 침구 등 장비를 배치해 편안한 보금자리 만들기.

7단계: 텐트 철수 00:02:17 - 00:02:30

설치된 텐트의 장비를 치우고 안전하게 해체하기.

8단계: 패킹하기 00:02:31 - 00:02:58

텐트를 잘 접어서 전용 가방에 깔끔하게 보관하기.

9단계: 교육 프로그램 알아보기 00:03:00 - 00:03:06

캐나다 국립공원 관리청의 교육 캠페인 소개 안내.



광고 비디오 (Ad Video)

맞춤형 프롬프트를 통한 지능형 답변 생성 예시

프롬프트: 이 광고가 브랜드의 메시지를 전달하기 위해 인물들의 표정을 어떻게 활용하고 있는지 분석해 줘.

답변(Output): 본 광고는 브랜드 특유의 우아함과 기쁨, 럭셔리한 정취를 전달하기 위해 인물들의 표정을 고도로 기획하여 배치하고 있습니다. 광고 속 모델들은 당당하면서도 따뜻한 미소를 짓고 있는데, 이는 불가리(Bvlgari) 주얼리가 선사하는 내면의 행복감과 착용자의 아름다움을 한층 극대화해 준다는 인상을 심어 줍니다. 이 미소 띤 표정들은 시청자에게 긍정적인 감정을 전달하며 타겟 오디언스와 브랜드 간의 감정적 교감을 즉각적으로 형성합니다.

나아가, 모델들의 차분하고 기품 있는 표정은 브랜드의 클래식하고 정제된 가치를 잘 대변합니다. 주얼리를 클로즈업 사진처럼 다각도로 조명하며 모델의 얼굴과 표정을 함께 교차하여 비춰줌으로써, 디바이스 표면 위에 감도는 긍정적이고 경이로운 무드를 독자에게 은밀히 주입합니다. 이를 통해 시청자의 소망과 욕구를 자극하여 주얼리를 고급스러운 동경의 대상으로서 확고하게 포지셔닝합니다.

비디오의 기본적인 전개에 비추어 볼 때, 이 광고는 다양한 배경 속에서 다채로운 불가리 컬렉션을 선보이는 여성 모델의 시선을 따라 흘러갑니다. 도입부에서는 주얼리와 귀걸이를 착용한 고혹적인 여성의 자태로 시작하는데, 그녀 옆 고목 나무 기둥 부근에 불가리 브랜드 로고가 웅장하게 안착되어 있습니다. 이어 다른 세련된 드레스를 매칭하였으나 동일한 네크리스 컬렉션을 갖춘 채 나무가 늘어선 우아한 저택 도로를 향해 걸어나가는 시퀀스로 자연스럽게 전환됩니다. 이후 화려한 인테리어 속 내부 공간으로 신(scene)이 연결되며, 섬세한 펜던트가 입혀진 목걸이부터 시그니처 링 반지를 감상하는 명확한 스포트라이트를 지속 도출합니다.

동시에 고전적인 럭셔리와 신비로움을 상징하는 공작새 및 깃털 모티브가 장면 곳곳에 은유적으로 개입됩니다. 후반부에 접어들면서 주인공 모델 곁에 매혹적인 보조 인물이 함께 가세하여 컬렉션의 깊이를 입체화합니다. 광고의 대미는 불가리 고유의 인장 로고와 함께 'Wonderful Extravaganza' 및 'Bvlgari Rome'이라는 텍스트가 강렬하게 부각되며 세련되고 웅장한 여운에 마침표를 찍습니다.

요약하자면, 본 광고는 환희와 세련미가 넘치는 미소 표현 기법을 적확하게 사용하고 있습니다. 럭셔리한 인프라와 공작 요소를 매혹적으로 레이어링하여 궁극의 브랜드 헤리티지와 압도적인 수작업 미학을 강력하게 각인시킵니다.



영화 예고편 비디오 (Movie Trailer Video)

맞춤형 프롬프트를 통한 지능형 답변 생성 예시

프롬프트: 이 비디오를 어린아이들에게 추천해도 괜찮을까?

답변(Output): 비디오 콘텐츠의 입체적인 시각 분석 결과에 근거해 판단할 때, 이 영상을 어린 자녀에게 시청하게 하는 것은 권장되지 않습니다. 영상 전반에 하드보일드 성격의 거친 액션 시퀀스와 무기류 위주의 시각적 긴장 요소, 그리고 성숙한 타겟층을 위한 긴박하고 어두운 무드의 테마가 빈번하게 노출되기 때문입니다. 트레일러의 흐름상 미스터리하고 스릴 있는 범죄 느와르 성향의 영화 혹은 드라마 장르에 속하는 작품으로 강력하게 유추됩니다.

비디오는 타오르는 듯한 주황색 톤의 강렬한 타이틀 카드 디자인으로 문을 열며, 이어 촛불들이 은빛 배경에 매달려 엄숙하고 우스스한 분위기를 내뿜는 성당 내부를 비춥니다. 수트를 단정히 입은 남성이 제단을 지나 위풍당당하게 걸어가고 있고, 그 뒤를 동일한 피트의 신사가 따릅니다. 직후 미스터리한 음모감을 자극하듯 여인과 남성의 밀도 높은 포옹 장면이 조명되어 성인용 멜로 혹은 서스펜스 드라마 서사를 강력하게 암시합니다.

예고편이 진전되면서 가파르고 손에 땀을 쥐게 하는 시퀀스들이 연이어 몰아칩니다. 적대 세력인 두 남성 간의 단호한 신경전 대치 상태, 조심스럽게 포켓 시계를 응시하는 고독한 침묵의 순간, 인물 간의 차갑고 의미심장한 설전, 그리고 어두운 심야 도심의 도로 위를 돌파하는 타이트한 자동차 체이싱 카레이스 트랙 장면 등이 대표적입니다. 도망치는 배후와 더불어 강박적으로 흔들리는 사막 오지 풍경, 폭발의 화마를 유연하게 뚫고 뒤돌아 유유히 걸어나오는 요원들의 백뷰 샷 역시 성인 지향적인 하드 보일드 무비를 완벽하게 가리킵니다.

구체적으로 살상력을 품은 소형 권총 장비를 클로즈업해 유심히 응시하는 빌런의 모습이 수차례 포함되어 심각한 물리적 타격을 암시합니다. 영상의 마무리 연출 역시 강렬합니다. 붉게 타오르는 석양 아래 고독하게 서 있는 에펠탑 주변을 비춘 다음, 제목 텍스트인 "IN MARC A DANCER"와 개봉 예고일 "MARCH 24"가 부상하며 짙은 잔상을 배출하고 마무리됩니다.

즉, 성인 지향적인 타격신과 폭발 등의 위협 수위가 결부된 자극이 포진된 미디어이므로 미취학 및 소아 연령층의 시청에는 적합지 않습니다.



6 - 한계점 (Limitations)

안전성 및 편향 (Safety & Biases): Pegasus-1은 철저한 안전 장치와 필터 프로세스를 바탕으로 정밀 설계되었습니다. 하지만 오픈 필드의 거센 시나리오 하에 구동되는 대형 신경망 특성상, 일정한 통제 범위를 벗어날 경우 부적절한 설명 결과물이 표출될 여지는 소수 존재할 수 있습니다. 당사는 비디오 파운데이션 모델에 대한 완벽한 윤리 검증과 방어망 성장을 위한 안전 연구를 다각도로 고수하고 있습니다. 추후 내부 테스트와 학계 데이터 피드백 분석들이 일단락되는 시점에 보다 입체성 있는 윤리 백서를 대외 공개할 예정입니다.

지원 비디오 제한 (Video Duration): 현재 당사 정식 API는 최소 4초에서 최대 20분 내외 분량의 비디오 스트림 처리를 안정 영역으로 확보하고 있습니다. 비디오의 대규모 로 변형 및 토큰 분석 시 부하를 막기 위해 연산 하드웨어 용량을 감안해 설계한 스펙 라인업입니다. 대규모 영화 및 롱폼 영상의 완벽한 핸들링을 도모하려면 사용자가 프레임 영역을 일정 분절로 분배해 업로드해야 합니다. 향후 업데이트 플랜을 고려하여 초대용량 장기 비디오 포맷도 네이티브하게 온전히 커버 가능한 업데이트가 곧 구축될 예정입니다.

환각 현상 (Hallucinations): Pegasus-1 모델 역시 일반적인 생성 AI처럼 드물게 실시간 오정답 데이터를 정교한 어조로 생성해 내는 환각 문제를 겪을 확률이 존재합니다. 알파 버전에 비해 이 확률을 강력히 낮춘 상태이지만, 매우 섬세하고 정확한 증명이 핵심인 산업 및 연구 도메인 전반에 사용 시 오답 교차 체크 장치를 늘 수반해 실행하시기를 거듭 강조드립니다.

7 - 맺음말 (Closing Remarks)

Pegasus-1이 초기 알파 버전에서 마침내 세련된 오픈 베타 시스템으로 고도화될 수 있었던 핵심 여정 뒤에는 집념 어린 공학적 탐구와 엔지니어링의 정수가 있었습니다. 학습에 개입되는 캡션 데이터를 수동 어노테이션 기법으로 고점까지 정제했고, 비디오 내 시간 축의 거동을 15배 더 압축 처리하는 프레임워크를 이식하여, 과거 기계적 언어가 도달하지 못했던 맥락과 미학적 서사의 이해를 완벽히 구현해 냈습니다.

벤치마크 점수 역시 이를 명료히 증명합니다. 당사의 혁신적 시도는 업계를 압도하는 수준 높은 결과를 실현해 냈으며, 글로벌 테크 대기업들의 생성형 AI 프레임워크 등과 직접 겨뤄 정량적 스코어 상 우위를 점하는 등 화려한 기록을 다수 갈아치웠습니다. Pegasus-1의 이러한 성취는 곧 비디오 AI 기술 패러다임이 맞이할 차세대 도약을 예견하고 있습니다.

완전한 통제를 위한 향후 롱폼 영상 지원 로드맵, 환각 현상 극복 연구, 완벽한 세이프티 수립 등의 남겨진 세밀한 퍼즐 조각들조차 당사 연구진에게는 강력한 성장의 도약대로 작용하고 있습니다. Twelve Labs는 진보된 비디오 인터페이스 기술의 미래 지평을 여러분과 가장 먼저 열기 위해 쉬지 않고 더 거세게 시동을 걸겠습니다.

Twelve Labs 팀

이 놀라운 성과는 모델 및 데이터 연구, 엔지니어링, 프로덕트, 사업 개발에 걸친 수많은 크루들의 유기적인 시너지와 땀방울이 만든 결실입니다. (성명은 알파벳 이름 순으로 기입되었으며, 핵심 기여자는 'Core'로 표기했습니다.)

Model: Aiden Lee, Cooper Han, Flynn Jang (core), Jae Lee, Jay Yi (core), Jeff Kim, Jeremy Kim, Kyle Park, Lucas Lee, Mars Ha, Minjoon Seo, Ray Jung (core), William Go (core)

Data: Daniel Kim (core), Jay Suh (core)

Deployment: Abraham Jo, Ed Park, Hassan Kianinejad,  SJ Kim, Tony Moon, Wade Jeong

Product: Andrei Popescu,  Esther Kim,  EK Yoon,  Genie Heo, Henry Choi, Jenna  Kang, Kevin Han, Noah Seo, Sunny Nguyen, Ryan Won, Yeonhoo Park

Business & Operations: Anthony Giuliani, Dave Chung, Hans Yoon, James Le, Jenny Ahn, June Lee, Maninder Saini,  Meredith Sanders  Soyoung Lee, Sue Kim, Travis Couture

관련 자원 및 리소스:

  1. API 계정 생성 및 데모 플레이 바로 가기

  2. 정식 API 기능 가이드 문서 바로 가기

  3. 글로벌 개발자 소통용 Discord 커뮤니티 바로 가기

연구나 실무 작업에 본 모델이나 결과를 직간접적으로 이용하시는 파트너와 리서처 분들은 아래 BibTeX 가이드라인 포맷을 적용하여 Twelve Labs 명의로 정식 인용 문구를 삽입해 주시기를 바랍니다.

@misc{pegasus-1-beta,  author = {Twelve Labs Team},  title = {Pegasus-1 Open Beta: Setting New Standards in Video-Language Modeling},  url = {https://www.twelvelabs.io/blog/pegasus-1-beta},  year = {2024}}

arXiVHuggingFace에서 Pegasus-1 기술 보고서를 확인해 보세요!

1 - 소개 (Introduction)

Twelve Labs의 목표는 혁신적인 멀티모달 AI 모델을 개발하여 비디오 이해 기술을 한 단계 더 진보시키는 것입니다. 이전 포스트인 "Video-to-Text 및 Pegasus-1 (80B) 소개"에서 Pegasus-1 알파 버전을 처음 공개해 드린 바 있습니다. 이 파운데이션 모델은 비디오 입력을 통해 상세한 설명 텍스트를 생성할 수 있습니다. 그리고 오늘, 드디어 Pegasus-1의 오픈 베타 출시 소식을 전해드리게 되어 매우 기쁩니다.

Pegasus-1은 복잡한 비디오 콘텐츠를 이해하고 이를 명확하게 표현하도록 설계되어, 우리가 멀티미디어와 상호작용하고 분석하는 방식을 혁신적으로 변화시킵니다. 약 170억 개의 매개변수(parameter)를 갖춘 이 모델은 멀티모달 AI 분야의 중요한 진전을 의미하며, 독보적인 정확도와 디테일로 비디오 입력으로부터 언어를 처리하고 생성해 냅니다.

이번 업데이트에서는 알파 출시 이후 Pegasus-1에 적용된 다양한 개선 사항을 살펴봅니다. 여기에는 데이터 품질, 비디오 처리 및 학습 방법의 개선이 포함됩니다. 또한 비디오 요약, 질의응답 및 대화 모델링 전반에서 Pegasus-1의 독보적인 성능을 입증하는 주요 상용 및 오픈소스 모델과의 벤치마크 결과도 공유합니다. 정량적 지표를 넘어, Pegasus-1은 한층 강화된 글로벌 상식 지식(world knowledge)과 상세한 시각적 정보를 정교하게 포착하는 능력을 통해 한 차원 높은 정성적 향상을 보여줍니다.

2 - 모델 개요 (Model Overview)

__wf_reserved_inherit

짧게 요약하자면, Pegasus-1은 비디오 콘텐츠와 언어 사이의 간극을 좁혀 기계가 비디오 입력을 바탕으로 텍스트를 해석하고 생성할 수 있도록 설계된 멀티모달 파운데이션 모델입니다. Pegasus-1의 아키텍처는 크게 세 가지 핵심 컴포넌트로 구성됩니다.

  1. 비디오 인코더 모델 (Video encoder model)은 비디오 입력을 처리하여 비디오 프레임과 오디오 음성 인식(ASR) 데이터 모두로부터 풍부한 임베딩을 생성합니다. 이 임베딩은 비디오 콘텐츠의 시각적 및 청각적 속성을 압축하여 담아낸 고밀도 표현입니다.

  2. 비디오-언어 정렬 모델 (Video-language alignment model)은 비디오 임베딩을 그에 대응하는 언어 임베딩에 매핑하여, 비디오와 텍스트 표현이 일치하는 공유 공간을 생성합니다. 이 정렬 프로세스는 모델이 비디오 속 시각 파일과 이를 설명하는 언어 간의 연관성을 파악하는 데 매우 중요합니다.

  3. 대규모 언어 모델 (LLM) 디코더는 이 정렬된 임베딩과 사용자 프롬프트를 입력받아 맥락에 맞춰 자연스럽고 정교한 텍스트 출력을 생성합니다. 이 출력은 설명 위주의 요약부터 비디오 내용에 대한 특정 질문의 답변까지 다양하게 구현됩니다.

알파 버전과 비교했을 때, Pegasus-1 오픈 베타 버전은 약 170억 개의 매개변수를 자랑하며, 비디오 데이터 기반의 텍스트 해석 및 생성 분야에서 가볍고도 강력한 성능을 보여줍니다.

3 - 주요 개선 사항 (Major Improvements)

알파 단계에서 오픈 베타 단계로 진화하면서, 저희는 모델을 지속적으로 정제하고 강화하여 한층 더 정확하고 고도화된 비디오-언어 이해를 제공해 왔습니다. 이러한 개선은 고품질 데이터, 최적화된 비디오 처리, 그리고 정교화된 학습 기법이라는 세 가지 핵심 요소를 통해 이루어졌습니다.

3.1 - 데이터 개선 (Data Improvement)

기존 연구 결과들과 마찬가지로, 저희 역시 단순히 데이터의 절대적인 양을 늘리는 것보다 캡션의 품질과 상세함(granularity)이 모델 성능에 훨씬 더 결정적인 영향을 미친다는 점을 확인했습니다. 일례로, 10만 개의 고품질 비디오-텍스트 쌍(pair)으로 학습된 Pegasus-1은 낮은 품질의 캡션을 가진 대규모 데이터셋(1,000만 개 이상)으로 학습된 동일한 아키텍처의 성능을 한참 능가합니다.

이러한 실험적 근거를 바탕으로, 저희는 앞서 언급한 1,000만 개 이상의 비디오에 대해 고품질 비디오 캡션을 실시간으로 생성할 수 있는 효율적인 데이터 어노테이션 파이프라인을 구축했습니다. 이처럼 방대한 양의 고품질 비디오-텍스트 쌍을 통해 학습을 마친 Pegasus는 타 모델에서는 찾아볼 수 없는 독보적이고 강력한 비디오 이해 성능을 갖추게 되었습니다.

3.2 - 비디오 처리 개선 (Video Processing Improvement)

저희는 공간적 및 시간적 해상도를 모두 최적화하기 위해 비디오 처리 파이프라인에 대대적인 변화를 주었습니다. 프레임당 패치 수(공간적 해상도)를 10배 늘리고 프레임 수(시간적 해상도)를 1.5배 늘려, 결과적으로 비디오당 총 패치 수를 15배나 증가시켰습니다. 이러한 개선 덕분에 Pegasus-1은 프레임당 훨씬 더 풍부한 정보를 포착해 표현할 수 있습니다.

또한, 정성적 및 정량적 분석(특히 질의응답 데이터셋 결과)을 통해 확인된 것처럼 이제 Pegasus-1은 비디오 전체의 내러티브와 맥락을 훨씬 더 명확하고 일관성 있게 파악할 수 있습니다.

3.3 - 학습 기법 개선 (Training Improvement)

멀티모달 파운데이션 모델인 Pegasus-1은 여러 단계에 걸쳐 대규모 멀티모달 데이터셋으로 학습됩니다. 그러나 다단계 학습은 보통 파괴적 망각(catastrophic forgetting)이라 불리는 한계에 부딪히기 쉽습니다. 모델이 새로운 정보를 학습하는 과정에서 이전에 학습했던 기존 정보를 쉽게 잊어버리는 현상입니다. 이러한 현상은 모달리티 간의 순차적 학습 과정을 거치는 멀티모달 모델에서 특히 더 두드러집니다.

이를 해결하기 위해, 저희는 새로운 지식 습득과 기존 정보 보존 사이의 정교한 균형을 유지할 수 있도록 특별히 설계된 전략적 학습 체계(strategic training regimen)를 도입했습니다. 이 접근법의 핵심은 학습 프로세스 전반에 걸쳐 모델 매개변수를 선택적으로 업데이트(unfreezing)하고 학습률(learning rates)을 세밀하게 제어하는 데 있습니다.

Pegasus-1 오픈 베타 버전은 알파 버전과 비교하여 세밀한 시간적 모멘트 포착 기능이 크게 향상되었으며, 환각(hallucination) 현상이 크게 감소하여 다양한 비디오 도메인에 걸쳐 높은 신뢰성과 일관성을 확보했습니다. 또한 확장된 월드 지식을 보여주고, 특정 단일 장면에만 집중하기보다 시간 순서대로 다양한 모멘트를 나열하는 능력이 크게 향상되었습니다.

4 - 정량적 벤치마크 결과

__wf_reserved_inherit

철저히 검증된 당사의 벤치마크 평가를 통해, Pegasus-1은 상용 및 오픈소스 모델 모두를 아우르는 다양한 모델군과 비교 분석되었습니다. 이 섹션에서는 여러 비디오-언어 모델링 태스크에서 타 모델들과 비교한 Pegasus-1의 구체적인 성능 수치를 명확히 제시합니다.

4.1 - 베이스라인 모델 (Baseline Models)

Pegasus-1의 벤치마크 평가에 사용된 베이스라인 모델 목록은 다음과 같습니다.

  • Gemini Pro (1.5): 2023년 11월에 처음 공개되고 가장 최근인 2024년 2월에 업데이트된 Google DeepMind의 상용 멀티모달 모델로, 뛰어난 비디오-언어 이해 성능으로 잘 알려져 있습니다. 본 비교에는 최신 버전인 Gemini Pro 1.5가 사용되었습니다.

  • Whisper + ChatGPT-3.5 (OpenAI): 이 조합은 업계에서 흔히 비디오 요약에 사용하는 접근법 중 하나입니다. 최고 수준의 음성 인식 모델(STT)과 LLM을 결합하여 가동되며, 요약은 주로 비디오의 음성 대화 내용을 바탕으로 처리됩니다. 비디오 내의 귀중한 '시각적 정보'를 인지하지 못한다는 치명적인 한계가 있습니다.

  • Vendor A’s Summary API: 오디오 및 비디오 요약 생성에 널리 사용되는 시중의 상용 제품입니다. Vendor A의 요약 API는 오직 텍스트 트랜스크립션 데이터와 구어체 언어 모델(ASR+ChatGPT3.5와 유사)에 기인하여 결과물을 도출하는 것으로 파악됩니다.

  • Video-ChatGPT: Maaz 등이 개발한 모델(2023년 6월 출시)로 채팅 인터페이스를 탑재한 비디오 언어 모델입니다. 비디오 프레임을 처리하여 비디오 서사 내의 시각적 이벤트를 파악합니다. 단, 비디오 내의 다이얼로그나 음성 정보는 활용하지 못한다는 점이 피력됩니다.

  • VideoChat2: Li 등이 개발한 모델(2023년 11월 출시)로, 다양한 지시어 튜닝(instruction-tuning) 데이터를 탑재하여 프로그레시브 멀티모달 학습을 설계한 최고 수준의 오픈소스 멀티모달 LLM입니다.

시각 기반의 이미지-언어 모델인 LLaVAGPT-4V 등은 우리의 비교 대상에서 제외되었습니다. 이 모델들은 당사가 평가하려는 태스크의 핵심 요건인 네이티브 비디오 처리 기능이 결여되어 있기 때문입니다. 구체적인 한계는 아래와 같습니다.

  • 해당 모델들의 상당수는 오직 완벽한 단일 이미지만 인식 가능하여, 대부분의 비디오 벤치마크 데이터셋에서 매우 저조한 성능을 보입니다.

  • 일부 모델(예: GPT-4V)은 여러 이미지를 한 번에 처리할 수 있으나, 한 번에 처리할 수 있는 비디오 프레임 수가 극히 소량(10프레임 이하)에 불과하여 1분이 넘어가는 대부분의 실무 비디오 처리에 한계가 있습니다.

  • 이미지 기반 모델은 비디오 콘텐츠 특유의 유기적이고 역동적인 내러티브 맥락을 온전히 처리하는 데 태생적 한계를 보입니다. 입력을 유기적인 비디오가 아닌 정적인 이미지의 나열로만 학습하기 때문입니다.

  • 또한, 이러한 이미지 기반 모델들이 전체 비디오를 구동 및 처리하기 위해 요구되는 실행 시간은 실제 서비스 및 프로덕션 환경에 적용하기에 지나치게 깁니다. 비디오 속 내러티브의 흐름과 액션을 직관적으로 파악하는 데 필수적인 시간 축(temporal dimension)을 효율적으로 다루는 기술적 설계가 부족하기 때문입니다.

4.2 - 비디오 질의응답 결과 (Video QA)

__wf_reserved_inherit

비디오 질의응답(Video QA) 분야에서, Pegasus-1은 별도의 파인튜닝 프로세스 없이도 ActivityNet-QANExT-QA 벤치마크 모두에서 뛰어난 제로샷(zero-shot) 성능을 달성했습니다. 특정 태스크 전용 학습 없이도, 다양한 도메인의 비디오 내용을 유연하게 일반화하여 핵심 질문에 아주 높은 신뢰도로 올바른 답을 도출합니다.

4.3 - 비디오 대화 결과 (Video Conversations)

__wf_reserved_inherit

Video-ChatGPT 벤치마크(QEFVC라고도 불림) 결과는 비디오 대화를 처리하는 데 있어서 Pegasus-1의 월등한 성능을 여과 없이 표현합니다. 정확성(Correctness), 디테일(Detail), 컨텍스트(Context), 시간 정보 이해(Temporal understanding), 일관성(Consistency) 수치 모두에서 시장 타 모델들을 크게 앞질렀습니다. 특히 Pegasus-1은 정확성에서 3.79, 설명 디테일에서 4.29를 획득하여, 인물 간의 정교한 대화 맥락과 상황적 context를 능숙하게 파악함을 스스로 입증했습니다.

4.4 - 비디오 요약 결과 (Video Summarization)

__wf_reserved_inherit

마지막으로, Pegasus-1은 비디오를 요약하는 영역에서도 압도적인 역량을 증명해 보였습니다. MSR-VTT 데이터셋을 대상으로 VideoChatGPT의 상세 평가 지표 시스템을 적용하여 요약 성능 빅매치를 진행했습니다 (요약 태스크 특성상 시간 정보 이해 및 일관성 지표는 제외). 상기 데이터 결과가 증명하듯 Pegasus-1은 모든 정량적 평가에서 경쟁 베이스라인 모델들을 큰 격차로 따돌렸습니다.

이 종합적인 벤치마크 결과를 통해 Pegasus-1은 비디오-언어 처리 모델링 분야의 선두 주자로 우뚝 섰으며, 제로샷 요약 성능과 뛰어난 범용 비디오 태스크 수행 능력에 있어 새로운 글로벌 표준을 정립했습니다.

5 - 구체적인 정성적 사용 예시 (Qualitative Examples)

다양한 도메인에서 엄선되고 무작위로 추출된 실제 케이스를 통해 Pegasus-1의 실제 작동 형태를 직관적으로 체험해 보세요.

이러닝 비디오 (E-Learning Video)

생성된 타이틀 (Generated Title)

텐트 설치하기: 캐나다 국립공원 관리청과 함께하는 캠핑 초보자 가이드

생성된 토픽 (Generated Topic)

캠핑: 캐나다 국립공원에서 안전하게 텐트 치고 고정하기

생성된 해시태그 (Generated Hashtags)

#캠핑, #텐트, #설치하기, #화로대, #안전, #초보캠핑, #캐나다국립공원

생성된 비디오 챕터 (Generated Chapters)

1단계: 사이트 선정 00:00:00 - 00:00:08

적절한 캠핑 사이트를 선택하고 텐트 설치 준비하기.

2단계: 화로 구축 00:00:09 - 00:00:36

조리 및 보온을 위한 안전한 모닥불 화로 만들기.

3단계: 텐트 펼치기 00:00:37 - 00:01:14

텐트를 바닥에 펼쳐놓고 위치 조절하기.

4단계: 지면 고정 00:01:14 - 00:01:48

텐트가 바람에 날아가지 않도록 팩을 사용해 단단히 지면에 고정하기.

5단계: 플라이 시트 장착 00:01:49 - 00:01:54

비와 이슬을 막기 위해 텐트 상단에 레인플라이 씌우기.

6단계: 내부 세팅 00:01:55 - 00:02:16

텐트 내부에 매트와 침구 등 장비를 배치해 편안한 보금자리 만들기.

7단계: 텐트 철수 00:02:17 - 00:02:30

설치된 텐트의 장비를 치우고 안전하게 해체하기.

8단계: 패킹하기 00:02:31 - 00:02:58

텐트를 잘 접어서 전용 가방에 깔끔하게 보관하기.

9단계: 교육 프로그램 알아보기 00:03:00 - 00:03:06

캐나다 국립공원 관리청의 교육 캠페인 소개 안내.



광고 비디오 (Ad Video)

맞춤형 프롬프트를 통한 지능형 답변 생성 예시

프롬프트: 이 광고가 브랜드의 메시지를 전달하기 위해 인물들의 표정을 어떻게 활용하고 있는지 분석해 줘.

답변(Output): 본 광고는 브랜드 특유의 우아함과 기쁨, 럭셔리한 정취를 전달하기 위해 인물들의 표정을 고도로 기획하여 배치하고 있습니다. 광고 속 모델들은 당당하면서도 따뜻한 미소를 짓고 있는데, 이는 불가리(Bvlgari) 주얼리가 선사하는 내면의 행복감과 착용자의 아름다움을 한층 극대화해 준다는 인상을 심어 줍니다. 이 미소 띤 표정들은 시청자에게 긍정적인 감정을 전달하며 타겟 오디언스와 브랜드 간의 감정적 교감을 즉각적으로 형성합니다.

나아가, 모델들의 차분하고 기품 있는 표정은 브랜드의 클래식하고 정제된 가치를 잘 대변합니다. 주얼리를 클로즈업 사진처럼 다각도로 조명하며 모델의 얼굴과 표정을 함께 교차하여 비춰줌으로써, 디바이스 표면 위에 감도는 긍정적이고 경이로운 무드를 독자에게 은밀히 주입합니다. 이를 통해 시청자의 소망과 욕구를 자극하여 주얼리를 고급스러운 동경의 대상으로서 확고하게 포지셔닝합니다.

비디오의 기본적인 전개에 비추어 볼 때, 이 광고는 다양한 배경 속에서 다채로운 불가리 컬렉션을 선보이는 여성 모델의 시선을 따라 흘러갑니다. 도입부에서는 주얼리와 귀걸이를 착용한 고혹적인 여성의 자태로 시작하는데, 그녀 옆 고목 나무 기둥 부근에 불가리 브랜드 로고가 웅장하게 안착되어 있습니다. 이어 다른 세련된 드레스를 매칭하였으나 동일한 네크리스 컬렉션을 갖춘 채 나무가 늘어선 우아한 저택 도로를 향해 걸어나가는 시퀀스로 자연스럽게 전환됩니다. 이후 화려한 인테리어 속 내부 공간으로 신(scene)이 연결되며, 섬세한 펜던트가 입혀진 목걸이부터 시그니처 링 반지를 감상하는 명확한 스포트라이트를 지속 도출합니다.

동시에 고전적인 럭셔리와 신비로움을 상징하는 공작새 및 깃털 모티브가 장면 곳곳에 은유적으로 개입됩니다. 후반부에 접어들면서 주인공 모델 곁에 매혹적인 보조 인물이 함께 가세하여 컬렉션의 깊이를 입체화합니다. 광고의 대미는 불가리 고유의 인장 로고와 함께 'Wonderful Extravaganza' 및 'Bvlgari Rome'이라는 텍스트가 강렬하게 부각되며 세련되고 웅장한 여운에 마침표를 찍습니다.

요약하자면, 본 광고는 환희와 세련미가 넘치는 미소 표현 기법을 적확하게 사용하고 있습니다. 럭셔리한 인프라와 공작 요소를 매혹적으로 레이어링하여 궁극의 브랜드 헤리티지와 압도적인 수작업 미학을 강력하게 각인시킵니다.



영화 예고편 비디오 (Movie Trailer Video)

맞춤형 프롬프트를 통한 지능형 답변 생성 예시

프롬프트: 이 비디오를 어린아이들에게 추천해도 괜찮을까?

답변(Output): 비디오 콘텐츠의 입체적인 시각 분석 결과에 근거해 판단할 때, 이 영상을 어린 자녀에게 시청하게 하는 것은 권장되지 않습니다. 영상 전반에 하드보일드 성격의 거친 액션 시퀀스와 무기류 위주의 시각적 긴장 요소, 그리고 성숙한 타겟층을 위한 긴박하고 어두운 무드의 테마가 빈번하게 노출되기 때문입니다. 트레일러의 흐름상 미스터리하고 스릴 있는 범죄 느와르 성향의 영화 혹은 드라마 장르에 속하는 작품으로 강력하게 유추됩니다.

비디오는 타오르는 듯한 주황색 톤의 강렬한 타이틀 카드 디자인으로 문을 열며, 이어 촛불들이 은빛 배경에 매달려 엄숙하고 우스스한 분위기를 내뿜는 성당 내부를 비춥니다. 수트를 단정히 입은 남성이 제단을 지나 위풍당당하게 걸어가고 있고, 그 뒤를 동일한 피트의 신사가 따릅니다. 직후 미스터리한 음모감을 자극하듯 여인과 남성의 밀도 높은 포옹 장면이 조명되어 성인용 멜로 혹은 서스펜스 드라마 서사를 강력하게 암시합니다.

예고편이 진전되면서 가파르고 손에 땀을 쥐게 하는 시퀀스들이 연이어 몰아칩니다. 적대 세력인 두 남성 간의 단호한 신경전 대치 상태, 조심스럽게 포켓 시계를 응시하는 고독한 침묵의 순간, 인물 간의 차갑고 의미심장한 설전, 그리고 어두운 심야 도심의 도로 위를 돌파하는 타이트한 자동차 체이싱 카레이스 트랙 장면 등이 대표적입니다. 도망치는 배후와 더불어 강박적으로 흔들리는 사막 오지 풍경, 폭발의 화마를 유연하게 뚫고 뒤돌아 유유히 걸어나오는 요원들의 백뷰 샷 역시 성인 지향적인 하드 보일드 무비를 완벽하게 가리킵니다.

구체적으로 살상력을 품은 소형 권총 장비를 클로즈업해 유심히 응시하는 빌런의 모습이 수차례 포함되어 심각한 물리적 타격을 암시합니다. 영상의 마무리 연출 역시 강렬합니다. 붉게 타오르는 석양 아래 고독하게 서 있는 에펠탑 주변을 비춘 다음, 제목 텍스트인 "IN MARC A DANCER"와 개봉 예고일 "MARCH 24"가 부상하며 짙은 잔상을 배출하고 마무리됩니다.

즉, 성인 지향적인 타격신과 폭발 등의 위협 수위가 결부된 자극이 포진된 미디어이므로 미취학 및 소아 연령층의 시청에는 적합지 않습니다.



6 - 한계점 (Limitations)

안전성 및 편향 (Safety & Biases): Pegasus-1은 철저한 안전 장치와 필터 프로세스를 바탕으로 정밀 설계되었습니다. 하지만 오픈 필드의 거센 시나리오 하에 구동되는 대형 신경망 특성상, 일정한 통제 범위를 벗어날 경우 부적절한 설명 결과물이 표출될 여지는 소수 존재할 수 있습니다. 당사는 비디오 파운데이션 모델에 대한 완벽한 윤리 검증과 방어망 성장을 위한 안전 연구를 다각도로 고수하고 있습니다. 추후 내부 테스트와 학계 데이터 피드백 분석들이 일단락되는 시점에 보다 입체성 있는 윤리 백서를 대외 공개할 예정입니다.

지원 비디오 제한 (Video Duration): 현재 당사 정식 API는 최소 4초에서 최대 20분 내외 분량의 비디오 스트림 처리를 안정 영역으로 확보하고 있습니다. 비디오의 대규모 로 변형 및 토큰 분석 시 부하를 막기 위해 연산 하드웨어 용량을 감안해 설계한 스펙 라인업입니다. 대규모 영화 및 롱폼 영상의 완벽한 핸들링을 도모하려면 사용자가 프레임 영역을 일정 분절로 분배해 업로드해야 합니다. 향후 업데이트 플랜을 고려하여 초대용량 장기 비디오 포맷도 네이티브하게 온전히 커버 가능한 업데이트가 곧 구축될 예정입니다.

환각 현상 (Hallucinations): Pegasus-1 모델 역시 일반적인 생성 AI처럼 드물게 실시간 오정답 데이터를 정교한 어조로 생성해 내는 환각 문제를 겪을 확률이 존재합니다. 알파 버전에 비해 이 확률을 강력히 낮춘 상태이지만, 매우 섬세하고 정확한 증명이 핵심인 산업 및 연구 도메인 전반에 사용 시 오답 교차 체크 장치를 늘 수반해 실행하시기를 거듭 강조드립니다.

7 - 맺음말 (Closing Remarks)

Pegasus-1이 초기 알파 버전에서 마침내 세련된 오픈 베타 시스템으로 고도화될 수 있었던 핵심 여정 뒤에는 집념 어린 공학적 탐구와 엔지니어링의 정수가 있었습니다. 학습에 개입되는 캡션 데이터를 수동 어노테이션 기법으로 고점까지 정제했고, 비디오 내 시간 축의 거동을 15배 더 압축 처리하는 프레임워크를 이식하여, 과거 기계적 언어가 도달하지 못했던 맥락과 미학적 서사의 이해를 완벽히 구현해 냈습니다.

벤치마크 점수 역시 이를 명료히 증명합니다. 당사의 혁신적 시도는 업계를 압도하는 수준 높은 결과를 실현해 냈으며, 글로벌 테크 대기업들의 생성형 AI 프레임워크 등과 직접 겨뤄 정량적 스코어 상 우위를 점하는 등 화려한 기록을 다수 갈아치웠습니다. Pegasus-1의 이러한 성취는 곧 비디오 AI 기술 패러다임이 맞이할 차세대 도약을 예견하고 있습니다.

완전한 통제를 위한 향후 롱폼 영상 지원 로드맵, 환각 현상 극복 연구, 완벽한 세이프티 수립 등의 남겨진 세밀한 퍼즐 조각들조차 당사 연구진에게는 강력한 성장의 도약대로 작용하고 있습니다. Twelve Labs는 진보된 비디오 인터페이스 기술의 미래 지평을 여러분과 가장 먼저 열기 위해 쉬지 않고 더 거세게 시동을 걸겠습니다.

Twelve Labs 팀

이 놀라운 성과는 모델 및 데이터 연구, 엔지니어링, 프로덕트, 사업 개발에 걸친 수많은 크루들의 유기적인 시너지와 땀방울이 만든 결실입니다. (성명은 알파벳 이름 순으로 기입되었으며, 핵심 기여자는 'Core'로 표기했습니다.)

Model: Aiden Lee, Cooper Han, Flynn Jang (core), Jae Lee, Jay Yi (core), Jeff Kim, Jeremy Kim, Kyle Park, Lucas Lee, Mars Ha, Minjoon Seo, Ray Jung (core), William Go (core)

Data: Daniel Kim (core), Jay Suh (core)

Deployment: Abraham Jo, Ed Park, Hassan Kianinejad,  SJ Kim, Tony Moon, Wade Jeong

Product: Andrei Popescu,  Esther Kim,  EK Yoon,  Genie Heo, Henry Choi, Jenna  Kang, Kevin Han, Noah Seo, Sunny Nguyen, Ryan Won, Yeonhoo Park

Business & Operations: Anthony Giuliani, Dave Chung, Hans Yoon, James Le, Jenny Ahn, June Lee, Maninder Saini,  Meredith Sanders  Soyoung Lee, Sue Kim, Travis Couture

관련 자원 및 리소스:

  1. API 계정 생성 및 데모 플레이 바로 가기

  2. 정식 API 기능 가이드 문서 바로 가기

  3. 글로벌 개발자 소통용 Discord 커뮤니티 바로 가기

연구나 실무 작업에 본 모델이나 결과를 직간접적으로 이용하시는 파트너와 리서처 분들은 아래 BibTeX 가이드라인 포맷을 적용하여 Twelve Labs 명의로 정식 인용 문구를 삽입해 주시기를 바랍니다.

@misc{pegasus-1-beta,  author = {Twelve Labs Team},  title = {Pegasus-1 Open Beta: Setting New Standards in Video-Language Modeling},  url = {https://www.twelvelabs.io/blog/pegasus-1-beta},  year = {2024}}

arXiVHuggingFace에서 Pegasus-1 기술 보고서를 확인해 보세요!

1 - 소개 (Introduction)

Twelve Labs의 목표는 혁신적인 멀티모달 AI 모델을 개발하여 비디오 이해 기술을 한 단계 더 진보시키는 것입니다. 이전 포스트인 "Video-to-Text 및 Pegasus-1 (80B) 소개"에서 Pegasus-1 알파 버전을 처음 공개해 드린 바 있습니다. 이 파운데이션 모델은 비디오 입력을 통해 상세한 설명 텍스트를 생성할 수 있습니다. 그리고 오늘, 드디어 Pegasus-1의 오픈 베타 출시 소식을 전해드리게 되어 매우 기쁩니다.

Pegasus-1은 복잡한 비디오 콘텐츠를 이해하고 이를 명확하게 표현하도록 설계되어, 우리가 멀티미디어와 상호작용하고 분석하는 방식을 혁신적으로 변화시킵니다. 약 170억 개의 매개변수(parameter)를 갖춘 이 모델은 멀티모달 AI 분야의 중요한 진전을 의미하며, 독보적인 정확도와 디테일로 비디오 입력으로부터 언어를 처리하고 생성해 냅니다.

이번 업데이트에서는 알파 출시 이후 Pegasus-1에 적용된 다양한 개선 사항을 살펴봅니다. 여기에는 데이터 품질, 비디오 처리 및 학습 방법의 개선이 포함됩니다. 또한 비디오 요약, 질의응답 및 대화 모델링 전반에서 Pegasus-1의 독보적인 성능을 입증하는 주요 상용 및 오픈소스 모델과의 벤치마크 결과도 공유합니다. 정량적 지표를 넘어, Pegasus-1은 한층 강화된 글로벌 상식 지식(world knowledge)과 상세한 시각적 정보를 정교하게 포착하는 능력을 통해 한 차원 높은 정성적 향상을 보여줍니다.

2 - 모델 개요 (Model Overview)

__wf_reserved_inherit

짧게 요약하자면, Pegasus-1은 비디오 콘텐츠와 언어 사이의 간극을 좁혀 기계가 비디오 입력을 바탕으로 텍스트를 해석하고 생성할 수 있도록 설계된 멀티모달 파운데이션 모델입니다. Pegasus-1의 아키텍처는 크게 세 가지 핵심 컴포넌트로 구성됩니다.

  1. 비디오 인코더 모델 (Video encoder model)은 비디오 입력을 처리하여 비디오 프레임과 오디오 음성 인식(ASR) 데이터 모두로부터 풍부한 임베딩을 생성합니다. 이 임베딩은 비디오 콘텐츠의 시각적 및 청각적 속성을 압축하여 담아낸 고밀도 표현입니다.

  2. 비디오-언어 정렬 모델 (Video-language alignment model)은 비디오 임베딩을 그에 대응하는 언어 임베딩에 매핑하여, 비디오와 텍스트 표현이 일치하는 공유 공간을 생성합니다. 이 정렬 프로세스는 모델이 비디오 속 시각 파일과 이를 설명하는 언어 간의 연관성을 파악하는 데 매우 중요합니다.

  3. 대규모 언어 모델 (LLM) 디코더는 이 정렬된 임베딩과 사용자 프롬프트를 입력받아 맥락에 맞춰 자연스럽고 정교한 텍스트 출력을 생성합니다. 이 출력은 설명 위주의 요약부터 비디오 내용에 대한 특정 질문의 답변까지 다양하게 구현됩니다.

알파 버전과 비교했을 때, Pegasus-1 오픈 베타 버전은 약 170억 개의 매개변수를 자랑하며, 비디오 데이터 기반의 텍스트 해석 및 생성 분야에서 가볍고도 강력한 성능을 보여줍니다.

3 - 주요 개선 사항 (Major Improvements)

알파 단계에서 오픈 베타 단계로 진화하면서, 저희는 모델을 지속적으로 정제하고 강화하여 한층 더 정확하고 고도화된 비디오-언어 이해를 제공해 왔습니다. 이러한 개선은 고품질 데이터, 최적화된 비디오 처리, 그리고 정교화된 학습 기법이라는 세 가지 핵심 요소를 통해 이루어졌습니다.

3.1 - 데이터 개선 (Data Improvement)

기존 연구 결과들과 마찬가지로, 저희 역시 단순히 데이터의 절대적인 양을 늘리는 것보다 캡션의 품질과 상세함(granularity)이 모델 성능에 훨씬 더 결정적인 영향을 미친다는 점을 확인했습니다. 일례로, 10만 개의 고품질 비디오-텍스트 쌍(pair)으로 학습된 Pegasus-1은 낮은 품질의 캡션을 가진 대규모 데이터셋(1,000만 개 이상)으로 학습된 동일한 아키텍처의 성능을 한참 능가합니다.

이러한 실험적 근거를 바탕으로, 저희는 앞서 언급한 1,000만 개 이상의 비디오에 대해 고품질 비디오 캡션을 실시간으로 생성할 수 있는 효율적인 데이터 어노테이션 파이프라인을 구축했습니다. 이처럼 방대한 양의 고품질 비디오-텍스트 쌍을 통해 학습을 마친 Pegasus는 타 모델에서는 찾아볼 수 없는 독보적이고 강력한 비디오 이해 성능을 갖추게 되었습니다.

3.2 - 비디오 처리 개선 (Video Processing Improvement)

저희는 공간적 및 시간적 해상도를 모두 최적화하기 위해 비디오 처리 파이프라인에 대대적인 변화를 주었습니다. 프레임당 패치 수(공간적 해상도)를 10배 늘리고 프레임 수(시간적 해상도)를 1.5배 늘려, 결과적으로 비디오당 총 패치 수를 15배나 증가시켰습니다. 이러한 개선 덕분에 Pegasus-1은 프레임당 훨씬 더 풍부한 정보를 포착해 표현할 수 있습니다.

또한, 정성적 및 정량적 분석(특히 질의응답 데이터셋 결과)을 통해 확인된 것처럼 이제 Pegasus-1은 비디오 전체의 내러티브와 맥락을 훨씬 더 명확하고 일관성 있게 파악할 수 있습니다.

3.3 - 학습 기법 개선 (Training Improvement)

멀티모달 파운데이션 모델인 Pegasus-1은 여러 단계에 걸쳐 대규모 멀티모달 데이터셋으로 학습됩니다. 그러나 다단계 학습은 보통 파괴적 망각(catastrophic forgetting)이라 불리는 한계에 부딪히기 쉽습니다. 모델이 새로운 정보를 학습하는 과정에서 이전에 학습했던 기존 정보를 쉽게 잊어버리는 현상입니다. 이러한 현상은 모달리티 간의 순차적 학습 과정을 거치는 멀티모달 모델에서 특히 더 두드러집니다.

이를 해결하기 위해, 저희는 새로운 지식 습득과 기존 정보 보존 사이의 정교한 균형을 유지할 수 있도록 특별히 설계된 전략적 학습 체계(strategic training regimen)를 도입했습니다. 이 접근법의 핵심은 학습 프로세스 전반에 걸쳐 모델 매개변수를 선택적으로 업데이트(unfreezing)하고 학습률(learning rates)을 세밀하게 제어하는 데 있습니다.

Pegasus-1 오픈 베타 버전은 알파 버전과 비교하여 세밀한 시간적 모멘트 포착 기능이 크게 향상되었으며, 환각(hallucination) 현상이 크게 감소하여 다양한 비디오 도메인에 걸쳐 높은 신뢰성과 일관성을 확보했습니다. 또한 확장된 월드 지식을 보여주고, 특정 단일 장면에만 집중하기보다 시간 순서대로 다양한 모멘트를 나열하는 능력이 크게 향상되었습니다.

4 - 정량적 벤치마크 결과

__wf_reserved_inherit

철저히 검증된 당사의 벤치마크 평가를 통해, Pegasus-1은 상용 및 오픈소스 모델 모두를 아우르는 다양한 모델군과 비교 분석되었습니다. 이 섹션에서는 여러 비디오-언어 모델링 태스크에서 타 모델들과 비교한 Pegasus-1의 구체적인 성능 수치를 명확히 제시합니다.

4.1 - 베이스라인 모델 (Baseline Models)

Pegasus-1의 벤치마크 평가에 사용된 베이스라인 모델 목록은 다음과 같습니다.

  • Gemini Pro (1.5): 2023년 11월에 처음 공개되고 가장 최근인 2024년 2월에 업데이트된 Google DeepMind의 상용 멀티모달 모델로, 뛰어난 비디오-언어 이해 성능으로 잘 알려져 있습니다. 본 비교에는 최신 버전인 Gemini Pro 1.5가 사용되었습니다.

  • Whisper + ChatGPT-3.5 (OpenAI): 이 조합은 업계에서 흔히 비디오 요약에 사용하는 접근법 중 하나입니다. 최고 수준의 음성 인식 모델(STT)과 LLM을 결합하여 가동되며, 요약은 주로 비디오의 음성 대화 내용을 바탕으로 처리됩니다. 비디오 내의 귀중한 '시각적 정보'를 인지하지 못한다는 치명적인 한계가 있습니다.

  • Vendor A’s Summary API: 오디오 및 비디오 요약 생성에 널리 사용되는 시중의 상용 제품입니다. Vendor A의 요약 API는 오직 텍스트 트랜스크립션 데이터와 구어체 언어 모델(ASR+ChatGPT3.5와 유사)에 기인하여 결과물을 도출하는 것으로 파악됩니다.

  • Video-ChatGPT: Maaz 등이 개발한 모델(2023년 6월 출시)로 채팅 인터페이스를 탑재한 비디오 언어 모델입니다. 비디오 프레임을 처리하여 비디오 서사 내의 시각적 이벤트를 파악합니다. 단, 비디오 내의 다이얼로그나 음성 정보는 활용하지 못한다는 점이 피력됩니다.

  • VideoChat2: Li 등이 개발한 모델(2023년 11월 출시)로, 다양한 지시어 튜닝(instruction-tuning) 데이터를 탑재하여 프로그레시브 멀티모달 학습을 설계한 최고 수준의 오픈소스 멀티모달 LLM입니다.

시각 기반의 이미지-언어 모델인 LLaVAGPT-4V 등은 우리의 비교 대상에서 제외되었습니다. 이 모델들은 당사가 평가하려는 태스크의 핵심 요건인 네이티브 비디오 처리 기능이 결여되어 있기 때문입니다. 구체적인 한계는 아래와 같습니다.

  • 해당 모델들의 상당수는 오직 완벽한 단일 이미지만 인식 가능하여, 대부분의 비디오 벤치마크 데이터셋에서 매우 저조한 성능을 보입니다.

  • 일부 모델(예: GPT-4V)은 여러 이미지를 한 번에 처리할 수 있으나, 한 번에 처리할 수 있는 비디오 프레임 수가 극히 소량(10프레임 이하)에 불과하여 1분이 넘어가는 대부분의 실무 비디오 처리에 한계가 있습니다.

  • 이미지 기반 모델은 비디오 콘텐츠 특유의 유기적이고 역동적인 내러티브 맥락을 온전히 처리하는 데 태생적 한계를 보입니다. 입력을 유기적인 비디오가 아닌 정적인 이미지의 나열로만 학습하기 때문입니다.

  • 또한, 이러한 이미지 기반 모델들이 전체 비디오를 구동 및 처리하기 위해 요구되는 실행 시간은 실제 서비스 및 프로덕션 환경에 적용하기에 지나치게 깁니다. 비디오 속 내러티브의 흐름과 액션을 직관적으로 파악하는 데 필수적인 시간 축(temporal dimension)을 효율적으로 다루는 기술적 설계가 부족하기 때문입니다.

4.2 - 비디오 질의응답 결과 (Video QA)

__wf_reserved_inherit

비디오 질의응답(Video QA) 분야에서, Pegasus-1은 별도의 파인튜닝 프로세스 없이도 ActivityNet-QANExT-QA 벤치마크 모두에서 뛰어난 제로샷(zero-shot) 성능을 달성했습니다. 특정 태스크 전용 학습 없이도, 다양한 도메인의 비디오 내용을 유연하게 일반화하여 핵심 질문에 아주 높은 신뢰도로 올바른 답을 도출합니다.

4.3 - 비디오 대화 결과 (Video Conversations)

__wf_reserved_inherit

Video-ChatGPT 벤치마크(QEFVC라고도 불림) 결과는 비디오 대화를 처리하는 데 있어서 Pegasus-1의 월등한 성능을 여과 없이 표현합니다. 정확성(Correctness), 디테일(Detail), 컨텍스트(Context), 시간 정보 이해(Temporal understanding), 일관성(Consistency) 수치 모두에서 시장 타 모델들을 크게 앞질렀습니다. 특히 Pegasus-1은 정확성에서 3.79, 설명 디테일에서 4.29를 획득하여, 인물 간의 정교한 대화 맥락과 상황적 context를 능숙하게 파악함을 스스로 입증했습니다.

4.4 - 비디오 요약 결과 (Video Summarization)

__wf_reserved_inherit

마지막으로, Pegasus-1은 비디오를 요약하는 영역에서도 압도적인 역량을 증명해 보였습니다. MSR-VTT 데이터셋을 대상으로 VideoChatGPT의 상세 평가 지표 시스템을 적용하여 요약 성능 빅매치를 진행했습니다 (요약 태스크 특성상 시간 정보 이해 및 일관성 지표는 제외). 상기 데이터 결과가 증명하듯 Pegasus-1은 모든 정량적 평가에서 경쟁 베이스라인 모델들을 큰 격차로 따돌렸습니다.

이 종합적인 벤치마크 결과를 통해 Pegasus-1은 비디오-언어 처리 모델링 분야의 선두 주자로 우뚝 섰으며, 제로샷 요약 성능과 뛰어난 범용 비디오 태스크 수행 능력에 있어 새로운 글로벌 표준을 정립했습니다.

5 - 구체적인 정성적 사용 예시 (Qualitative Examples)

다양한 도메인에서 엄선되고 무작위로 추출된 실제 케이스를 통해 Pegasus-1의 실제 작동 형태를 직관적으로 체험해 보세요.

이러닝 비디오 (E-Learning Video)

생성된 타이틀 (Generated Title)

텐트 설치하기: 캐나다 국립공원 관리청과 함께하는 캠핑 초보자 가이드

생성된 토픽 (Generated Topic)

캠핑: 캐나다 국립공원에서 안전하게 텐트 치고 고정하기

생성된 해시태그 (Generated Hashtags)

#캠핑, #텐트, #설치하기, #화로대, #안전, #초보캠핑, #캐나다국립공원

생성된 비디오 챕터 (Generated Chapters)

1단계: 사이트 선정 00:00:00 - 00:00:08

적절한 캠핑 사이트를 선택하고 텐트 설치 준비하기.

2단계: 화로 구축 00:00:09 - 00:00:36

조리 및 보온을 위한 안전한 모닥불 화로 만들기.

3단계: 텐트 펼치기 00:00:37 - 00:01:14

텐트를 바닥에 펼쳐놓고 위치 조절하기.

4단계: 지면 고정 00:01:14 - 00:01:48

텐트가 바람에 날아가지 않도록 팩을 사용해 단단히 지면에 고정하기.

5단계: 플라이 시트 장착 00:01:49 - 00:01:54

비와 이슬을 막기 위해 텐트 상단에 레인플라이 씌우기.

6단계: 내부 세팅 00:01:55 - 00:02:16

텐트 내부에 매트와 침구 등 장비를 배치해 편안한 보금자리 만들기.

7단계: 텐트 철수 00:02:17 - 00:02:30

설치된 텐트의 장비를 치우고 안전하게 해체하기.

8단계: 패킹하기 00:02:31 - 00:02:58

텐트를 잘 접어서 전용 가방에 깔끔하게 보관하기.

9단계: 교육 프로그램 알아보기 00:03:00 - 00:03:06

캐나다 국립공원 관리청의 교육 캠페인 소개 안내.



광고 비디오 (Ad Video)

맞춤형 프롬프트를 통한 지능형 답변 생성 예시

프롬프트: 이 광고가 브랜드의 메시지를 전달하기 위해 인물들의 표정을 어떻게 활용하고 있는지 분석해 줘.

답변(Output): 본 광고는 브랜드 특유의 우아함과 기쁨, 럭셔리한 정취를 전달하기 위해 인물들의 표정을 고도로 기획하여 배치하고 있습니다. 광고 속 모델들은 당당하면서도 따뜻한 미소를 짓고 있는데, 이는 불가리(Bvlgari) 주얼리가 선사하는 내면의 행복감과 착용자의 아름다움을 한층 극대화해 준다는 인상을 심어 줍니다. 이 미소 띤 표정들은 시청자에게 긍정적인 감정을 전달하며 타겟 오디언스와 브랜드 간의 감정적 교감을 즉각적으로 형성합니다.

나아가, 모델들의 차분하고 기품 있는 표정은 브랜드의 클래식하고 정제된 가치를 잘 대변합니다. 주얼리를 클로즈업 사진처럼 다각도로 조명하며 모델의 얼굴과 표정을 함께 교차하여 비춰줌으로써, 디바이스 표면 위에 감도는 긍정적이고 경이로운 무드를 독자에게 은밀히 주입합니다. 이를 통해 시청자의 소망과 욕구를 자극하여 주얼리를 고급스러운 동경의 대상으로서 확고하게 포지셔닝합니다.

비디오의 기본적인 전개에 비추어 볼 때, 이 광고는 다양한 배경 속에서 다채로운 불가리 컬렉션을 선보이는 여성 모델의 시선을 따라 흘러갑니다. 도입부에서는 주얼리와 귀걸이를 착용한 고혹적인 여성의 자태로 시작하는데, 그녀 옆 고목 나무 기둥 부근에 불가리 브랜드 로고가 웅장하게 안착되어 있습니다. 이어 다른 세련된 드레스를 매칭하였으나 동일한 네크리스 컬렉션을 갖춘 채 나무가 늘어선 우아한 저택 도로를 향해 걸어나가는 시퀀스로 자연스럽게 전환됩니다. 이후 화려한 인테리어 속 내부 공간으로 신(scene)이 연결되며, 섬세한 펜던트가 입혀진 목걸이부터 시그니처 링 반지를 감상하는 명확한 스포트라이트를 지속 도출합니다.

동시에 고전적인 럭셔리와 신비로움을 상징하는 공작새 및 깃털 모티브가 장면 곳곳에 은유적으로 개입됩니다. 후반부에 접어들면서 주인공 모델 곁에 매혹적인 보조 인물이 함께 가세하여 컬렉션의 깊이를 입체화합니다. 광고의 대미는 불가리 고유의 인장 로고와 함께 'Wonderful Extravaganza' 및 'Bvlgari Rome'이라는 텍스트가 강렬하게 부각되며 세련되고 웅장한 여운에 마침표를 찍습니다.

요약하자면, 본 광고는 환희와 세련미가 넘치는 미소 표현 기법을 적확하게 사용하고 있습니다. 럭셔리한 인프라와 공작 요소를 매혹적으로 레이어링하여 궁극의 브랜드 헤리티지와 압도적인 수작업 미학을 강력하게 각인시킵니다.



영화 예고편 비디오 (Movie Trailer Video)

맞춤형 프롬프트를 통한 지능형 답변 생성 예시

프롬프트: 이 비디오를 어린아이들에게 추천해도 괜찮을까?

답변(Output): 비디오 콘텐츠의 입체적인 시각 분석 결과에 근거해 판단할 때, 이 영상을 어린 자녀에게 시청하게 하는 것은 권장되지 않습니다. 영상 전반에 하드보일드 성격의 거친 액션 시퀀스와 무기류 위주의 시각적 긴장 요소, 그리고 성숙한 타겟층을 위한 긴박하고 어두운 무드의 테마가 빈번하게 노출되기 때문입니다. 트레일러의 흐름상 미스터리하고 스릴 있는 범죄 느와르 성향의 영화 혹은 드라마 장르에 속하는 작품으로 강력하게 유추됩니다.

비디오는 타오르는 듯한 주황색 톤의 강렬한 타이틀 카드 디자인으로 문을 열며, 이어 촛불들이 은빛 배경에 매달려 엄숙하고 우스스한 분위기를 내뿜는 성당 내부를 비춥니다. 수트를 단정히 입은 남성이 제단을 지나 위풍당당하게 걸어가고 있고, 그 뒤를 동일한 피트의 신사가 따릅니다. 직후 미스터리한 음모감을 자극하듯 여인과 남성의 밀도 높은 포옹 장면이 조명되어 성인용 멜로 혹은 서스펜스 드라마 서사를 강력하게 암시합니다.

예고편이 진전되면서 가파르고 손에 땀을 쥐게 하는 시퀀스들이 연이어 몰아칩니다. 적대 세력인 두 남성 간의 단호한 신경전 대치 상태, 조심스럽게 포켓 시계를 응시하는 고독한 침묵의 순간, 인물 간의 차갑고 의미심장한 설전, 그리고 어두운 심야 도심의 도로 위를 돌파하는 타이트한 자동차 체이싱 카레이스 트랙 장면 등이 대표적입니다. 도망치는 배후와 더불어 강박적으로 흔들리는 사막 오지 풍경, 폭발의 화마를 유연하게 뚫고 뒤돌아 유유히 걸어나오는 요원들의 백뷰 샷 역시 성인 지향적인 하드 보일드 무비를 완벽하게 가리킵니다.

구체적으로 살상력을 품은 소형 권총 장비를 클로즈업해 유심히 응시하는 빌런의 모습이 수차례 포함되어 심각한 물리적 타격을 암시합니다. 영상의 마무리 연출 역시 강렬합니다. 붉게 타오르는 석양 아래 고독하게 서 있는 에펠탑 주변을 비춘 다음, 제목 텍스트인 "IN MARC A DANCER"와 개봉 예고일 "MARCH 24"가 부상하며 짙은 잔상을 배출하고 마무리됩니다.

즉, 성인 지향적인 타격신과 폭발 등의 위협 수위가 결부된 자극이 포진된 미디어이므로 미취학 및 소아 연령층의 시청에는 적합지 않습니다.



6 - 한계점 (Limitations)

안전성 및 편향 (Safety & Biases): Pegasus-1은 철저한 안전 장치와 필터 프로세스를 바탕으로 정밀 설계되었습니다. 하지만 오픈 필드의 거센 시나리오 하에 구동되는 대형 신경망 특성상, 일정한 통제 범위를 벗어날 경우 부적절한 설명 결과물이 표출될 여지는 소수 존재할 수 있습니다. 당사는 비디오 파운데이션 모델에 대한 완벽한 윤리 검증과 방어망 성장을 위한 안전 연구를 다각도로 고수하고 있습니다. 추후 내부 테스트와 학계 데이터 피드백 분석들이 일단락되는 시점에 보다 입체성 있는 윤리 백서를 대외 공개할 예정입니다.

지원 비디오 제한 (Video Duration): 현재 당사 정식 API는 최소 4초에서 최대 20분 내외 분량의 비디오 스트림 처리를 안정 영역으로 확보하고 있습니다. 비디오의 대규모 로 변형 및 토큰 분석 시 부하를 막기 위해 연산 하드웨어 용량을 감안해 설계한 스펙 라인업입니다. 대규모 영화 및 롱폼 영상의 완벽한 핸들링을 도모하려면 사용자가 프레임 영역을 일정 분절로 분배해 업로드해야 합니다. 향후 업데이트 플랜을 고려하여 초대용량 장기 비디오 포맷도 네이티브하게 온전히 커버 가능한 업데이트가 곧 구축될 예정입니다.

환각 현상 (Hallucinations): Pegasus-1 모델 역시 일반적인 생성 AI처럼 드물게 실시간 오정답 데이터를 정교한 어조로 생성해 내는 환각 문제를 겪을 확률이 존재합니다. 알파 버전에 비해 이 확률을 강력히 낮춘 상태이지만, 매우 섬세하고 정확한 증명이 핵심인 산업 및 연구 도메인 전반에 사용 시 오답 교차 체크 장치를 늘 수반해 실행하시기를 거듭 강조드립니다.

7 - 맺음말 (Closing Remarks)

Pegasus-1이 초기 알파 버전에서 마침내 세련된 오픈 베타 시스템으로 고도화될 수 있었던 핵심 여정 뒤에는 집념 어린 공학적 탐구와 엔지니어링의 정수가 있었습니다. 학습에 개입되는 캡션 데이터를 수동 어노테이션 기법으로 고점까지 정제했고, 비디오 내 시간 축의 거동을 15배 더 압축 처리하는 프레임워크를 이식하여, 과거 기계적 언어가 도달하지 못했던 맥락과 미학적 서사의 이해를 완벽히 구현해 냈습니다.

벤치마크 점수 역시 이를 명료히 증명합니다. 당사의 혁신적 시도는 업계를 압도하는 수준 높은 결과를 실현해 냈으며, 글로벌 테크 대기업들의 생성형 AI 프레임워크 등과 직접 겨뤄 정량적 스코어 상 우위를 점하는 등 화려한 기록을 다수 갈아치웠습니다. Pegasus-1의 이러한 성취는 곧 비디오 AI 기술 패러다임이 맞이할 차세대 도약을 예견하고 있습니다.

완전한 통제를 위한 향후 롱폼 영상 지원 로드맵, 환각 현상 극복 연구, 완벽한 세이프티 수립 등의 남겨진 세밀한 퍼즐 조각들조차 당사 연구진에게는 강력한 성장의 도약대로 작용하고 있습니다. Twelve Labs는 진보된 비디오 인터페이스 기술의 미래 지평을 여러분과 가장 먼저 열기 위해 쉬지 않고 더 거세게 시동을 걸겠습니다.

Twelve Labs 팀

이 놀라운 성과는 모델 및 데이터 연구, 엔지니어링, 프로덕트, 사업 개발에 걸친 수많은 크루들의 유기적인 시너지와 땀방울이 만든 결실입니다. (성명은 알파벳 이름 순으로 기입되었으며, 핵심 기여자는 'Core'로 표기했습니다.)

Model: Aiden Lee, Cooper Han, Flynn Jang (core), Jae Lee, Jay Yi (core), Jeff Kim, Jeremy Kim, Kyle Park, Lucas Lee, Mars Ha, Minjoon Seo, Ray Jung (core), William Go (core)

Data: Daniel Kim (core), Jay Suh (core)

Deployment: Abraham Jo, Ed Park, Hassan Kianinejad,  SJ Kim, Tony Moon, Wade Jeong

Product: Andrei Popescu,  Esther Kim,  EK Yoon,  Genie Heo, Henry Choi, Jenna  Kang, Kevin Han, Noah Seo, Sunny Nguyen, Ryan Won, Yeonhoo Park

Business & Operations: Anthony Giuliani, Dave Chung, Hans Yoon, James Le, Jenny Ahn, June Lee, Maninder Saini,  Meredith Sanders  Soyoung Lee, Sue Kim, Travis Couture

관련 자원 및 리소스:

  1. API 계정 생성 및 데모 플레이 바로 가기

  2. 정식 API 기능 가이드 문서 바로 가기

  3. 글로벌 개발자 소통용 Discord 커뮤니티 바로 가기

연구나 실무 작업에 본 모델이나 결과를 직간접적으로 이용하시는 파트너와 리서처 분들은 아래 BibTeX 가이드라인 포맷을 적용하여 Twelve Labs 명의로 정식 인용 문구를 삽입해 주시기를 바랍니다.

@misc{pegasus-1-beta,  author = {Twelve Labs Team},  title = {Pegasus-1 Open Beta: Setting New Standards in Video-Language Modeling},  url = {https://www.twelvelabs.io/blog/pegasus-1-beta},  year = {2024}}