제품
Marengo 2.6: Any-to-Any 검색을 위한 최첨단 비디오 기반 모델
에이든 리, 제임스 리
트웰브랩스(Twelve Labs)가 비디오, 이미지, 오디오 전반에 걸친 '애니 투 애니(any-to-any)' 검색을 위해 구축된 멀티모달 파운데이션 모델인 Marengo 2.6을 출시합니다. 이 모델은 단일 임베딩 모델로 세 가지 모든 모달리티에 걸쳐 제로샷 검색에서 새로운 SOTA(state-of-the-art) 벤치마크를 기록했습니다.
트웰브랩스(Twelve Labs)가 비디오, 이미지, 오디오 전반에 걸친 '애니 투 애니(any-to-any)' 검색을 위해 구축된 멀티모달 파운데이션 모델인 Marengo 2.6을 출시합니다. 이 모델은 단일 임베딩 모델로 세 가지 모든 모달리티에 걸쳐 제로샷 검색에서 새로운 SOTA(state-of-the-art) 벤치마크를 기록했습니다.

목차
뉴스레터 구독하기
뉴스레터 구독하기
영상 이해 분야의 최신 기술 업데이트, 튜토리얼 및 인사이트를 받아보세요.
영상 이해 분야의 최신 기술 업데이트, 튜토리얼 및 인사이트를 받아보세요.
AI로 영상을 검색하고, 분석하고, 탐색하세요.
2024. 3. 1.
5분
링크 복사하기
1 - 핵심 요약
Marengo-2.6 소개: 텍스트-비디오, 텍스트-이미지, 텍스트-오디오, 오디오-비디오, 이미지-비디오 등을 포함한 모든 유형 간(any-to-any) 검색 작업을 수행할 수 있는 새로운 최첨단(SOTA) 멀티모달 파운데이션 모델입니다. 이 모델은 비디오 이해 기술의 비약적인 도약을 나타내며, 다양한 미디어 유형 전반에서 더 직관적이고 포괄적인 검색 기능을 지원합니다.
새로운 최첨단 성능: Marengo-2.6은 단일 임베딩 모델로 제로샷 텍스트-비디오, 텍스트-이미지, 텍스트-오디오 검색 작업에서 새로운 벤치마크를 정립했습니다. MSR-VTT 데이터셋에서는 구글의 VideoPrism-G 모델보다 +10%, ActivityNet 데이터셋에서는 +3% 앞선 성능을 보여줍니다. 또한, 제로샷 텍스트-이미지 검색 작업에서도 기존 최첨단 이미지 파운데이션 모델을 뛰어넘으며 시각적 콘텐츠를 이해하고 처리하는 탁월한 능력을 입증했습니다. 이 결과는 당사의 비디오 중심(video-first) 연구 철학의 유효성을 뒷받침합니다. 비디오를 통해 학습하는 AI 시스템은 여러 모달리티 전반에서 매우 인상적인 지각적 추론 능력을 보여줄 수 있습니다.
확장된 멀티모달 기능: 모델의 확장된 능력은 모든 유형 간(크로스 모달리티) 검색 작업을 가능하게 하여, 다양한 애플리케이션에 다재다능하게 활용될 수 있는 도구로 만들어 줍니다. 여기에는 서로 다른 미디어 유형을 연결하는 텍스트-비디오, 텍스트-이미지, 텍스트-오디오, 오디오-비디오, 이미지-비디오 작업이 포함됩니다.
강화된 시간적 로컬라이제이션: 더 나은 시간적 로컬라이제이션(temporal localization)을 위해 리랭커(Reranker) 모델을 도입했습니다. 이 개선 사항을 통해 한층 더 정밀한 검색 결과를 제공합니다.
2 - 비디오 파운데이션 모델의 부상

비디오 데이터는 본질적으로 중복성이 높고 고차원적이며 시간적으로 구조화되어 있어, 인간의 감각 데이터와 매우 유사하지만 파싱하고 해석하기는 까다롭습니다. 기존 모델들은 프레임 간의 미묘한 상호작용을 포착하는 데 종종 한계를 보이며, 비디오에 의미를 부여하는 풍부한 맥락적 단서를 놓치곤 합니다.
효과적인 비디오 이해를 향한 여정은 멀티모달 임베딩 모델의 눈부신 발전과 함께해 왔습니다. 인간의 지각이 본질적으로 멀티모달이라는 점에 착안하여, 다양한 유형의 데이터를 동시에 처리하고 통합할 수 있는 모델들이 개발되었습니다.
시각, 텍스트, 청각 정보를 통합함으로써 멀티모달 임베딩 모델은 세상에 대해 훨씬 더 견고한 표현을 학습합니다. Marengo-2.6은 이러한 노력의 결정체로, 비디오 이해 및 모든 유형 간 검색 작업에서 비교할 수 없는 독보적인 성능을 제공합니다.
3 - Marengo 2.6 모델 개요
3.1 - 아키텍처: 게이티드 모달리티 엑스퍼트 (Gated Modality Experts)

위 그림에서 볼 수 있듯이, Marengo-2.6의 아키텍처는 '게이티드 모달리티 엑스퍼트(Gated Modality Experts)'라는 개념을 기반으로 합니다. 이를 통해 멀티모달 입력을 전문화된 인코더로 먼저 처리한 후, 이를 종합적인 멀티모달 표현으로 결합합니다.
이 아키텍처는 다음과 같은 핵심 요소들로 구성됩니다:
Visual Expert(시각 전문 엑스퍼트)는 비디오 내의 외형, 움직임 및 시간적 변화를 포착하기 위해 시각 정보를 처리합니다.
Audio Expert(오디오 전문 엑스퍼트)는 비디오와 관련된 언어적 및 비언어적 오디오 신호를 모두 포착하기 위해 청각 정보를 처리합니다.
Gated Fusion Module(게이티드 퓨전 모듈)은 비디오에 대한 각 엑스퍼트의 기여도를 평가하고, 이를 모든 유형 간 검색 작업을 위한 하나의 통합된 멀티모달 표현으로 병합합니다.
3.2 - 학습 및 데이터
Marengo-2.6의 학습은 종합적인 멀티모달 데이터셋에서 대조 학습 손실(contrastive loss)을 활용한 자기지도 학습(self-supervised learning)에 중점을 둡니다. 이전 블로그에서 언급했듯이, 저희는 모델 학습에 필수적인 데이터셋을 직접 큐레이션하고 보강했습니다. 해당 데이터셋 구성은 다음과 같습니다:
비디오 데이터: 시각 및 청각 정보가 모두 추출된 6,000만 개의 비디오
이미지 데이터: 5억 개의 이미지
오디오 데이터: 일반적인 비언어적 소리와 음악을 포함한 50만 개의 사운드
이러한 대규모의 다양한 데이터셋 덕분에 Marengo-2.6은 다양한 모달리티에 대한 깊은 이해를 얻을 수 있었으며, 폭넓은 범위의 검색 작업을 처리할 수 있는 역량을 갖추게 되었습니다.
4 - 평가 및 결과
4.1 - 정량적 결과

Marengo-2.6 모델은 다양한 모달리티를 제공하는 업계 최고 수준의 여러 파운데이션 모델들과 비교 평가되었습니다. 정량적 결과는 다양한 텍스트-유형 간 검색 작업에서 최고 수준의 성능을 입증합니다.
본 모델은 모든 텍스트-유형 간 검색 데이터셋에서 새로운 최첨단 성능 기록을 세우며, 기존 모델들을 상당한 격차로 따돌렸습니다. 조만간 일반 임베딩 기반 작업에 대한 더 광범위한 벤치마크 결과를 공개할 예정입니다.
기준 모델 (Baseline Models)
Data Filtering Network-H/14-378 (Fang et al, Apple & 윈싱턴 대학교, 2023.09): CLIP 학습 목표를 기반으로 하는 오픈소스 이미지 파운데이션 모델입니다. 378x378 이미지 해상도로 50억 개의 이미지-텍스트 쌍으로 학습되었습니다.
LanguageBind-H (Zhu et al, 베이징 대학교, 2024.02): 오디오와 시각 정보를 모두 처리하는 오픈소스 비디오 파운데이션 모델로, 1,000만 개의 비디오-텍스트 쌍(VIDAL-10m 데이터셋)으로 학습된 것으로 알려져 있습니다.
VideoPrism-G (Zhao et al, Google, 2024.02): 시각 정보를 처리하는 비디오 파운데이션 모델로, 6억 1,800만 개의 비디오-텍스트 쌍으로 학습된 것으로 알려져 있습니다.
(상용) Google Gemini(GenAI) Multimodal Embedding API
제로샷 비디오 검색 (ZS-T2V):

Marengo-2.6은 MSR-VTT 및 ActivityNet 데이터셋에서 새로운 최고 성능을 기록했습니다. 이전 최고 성능 모델들과 비교해 MSR-VTT에서는 평균 리콜이 +4%, ActivityNet에서는 +2.9% 향상되었습니다. (평균 리콜은 Recall@1 및 Recall@5의 평균으로 계산됩니다.)
제로샷 이미지 검색 (ZS-T2I):

본 모델은 MS-COCO 및 Flickr30k 데이터셋에서도 새로운 최첨단 성능을 기록했습니다. 주목할 점은 이미지 데이터 코퍼스만으로 독점 학습된 기존의 최첨단 이미지 파운데이션 모델을 뛰어넘었다는 사실입니다. 이는 Marengo-2.6이 대규모 비디오 코퍼스를 통해서도 공간적인 시각 단서를 효과적으로 학습할 수 있음을 시사합니다. (평균 리콜은 Recall@1 및 Recall@5의 평균으로 계산됩니다.)
제로샷 오디오 검색 (ZS-T2A):

마지막으로, 본 모델은 비디오에서 청각적 단서를 학습함으로써 Clotho 및 AudioCaps 데이터셋에서 새로운 최첨단 성능을 세웠습니다. 다만, 시각 검색 벤치마크에 비해 절대적인 성능은 다소 낮게 나타났습니다. 이러한 격차는 향후 모델 업데이트에서 개선해 나갈 영역으로 보고 연구를 지속할 예정입니다. (평균 리콜은 Recall@1 및 Recall@10의 평균으로 계산됩니다.)
이러한 결과는 저희 모델 아키텍처와 학습의 효과를 입증할 뿐만 아니라, 멀티모달 데이터 검색 및 이해 분야의 발전을 앞당길 수 있는 잠재력을 보여줍니다.
4.2 - 정성적 검색 결과
텍스트-비디오 (T2V)
쿼리: Number 3 Seattle Seahawks avoids sack, throws to Number 83 David Moore in end zone for touchdown. (시애틀 시호크스 3번 선수가 태클을 피하고 엔드존에 있는 83번 데이비드 무어에게 패스하여 터치다운을 성공시킵니다.)
상위 3개 결과:
텍스트-이미지 (T2I)
쿼리: A child holding a flowered umbrella and petting a yak. (꽃무늬 우산을 들고 야크를 쓰다듬고 있는 아이.)
상위 3개 결과:



쿼리: Two giraffe standing next to each other on a grassy field. (풀밭 위에 서로 나란히 서 있는 두 마리의 기린.)
상위 3개 결과:



텍스트-오디오 (T2A)
쿼리: After blustering loudly, the wind eventually dies down. (크게 휘몰아치던 바람이 마침내 점차 사그라듭니다.)
상위 3개 결과:
쿼리: A group of kids are playing together and cheer. (한 무리의 아이들이 함께 놀며 환호성을 지릅니다.)
상위 3개 결과:
오디오-비디오 (A2V)
쿼리 (지하철 소리)
상위 3개 결과 (오디오는 사용되지 않음):
쿼리 (양 소리)
상위 3개 결과 (오디오는 사용되지 않음):
이미지-비디오 (I2V)
쿼리 (이미지):

상위 3개 결과:
쿼리 (이미지):

상위 3개 결과:
비디오-비디오 (V2V)
쿼리:
상위 3개 결과:
쿼리:
상위 3개 결과:
맺음말
Twelve Labs는 자랑스럽게 Marengo-2.6을 선보입니다. 당사의 비디오 파운데이션 모델은 비디오뿐만 아니라 이미지와 오디오에 이르기까지 멀티모달 표현 작업에 선도적인 접근 방식을 제안합니다. 이는 비디오를 텍스트만큼 쉽게 다루는 세상을 만들겠다는 저희의 미션을 달성하기 위한 유의미하고 뜻깊은 첫걸음입니다.
다가오는 2024년 3월 셋째 주 중으로 플레이그라운드(Playground) 및 API 환경에 Marengo-2.6이 정식 지원될 예정입니다. 사용자는 독보적 성능을 자랑하는 최첨단 모델을 실시간으로 직접 연동하여, 뛰어난 고성능 엔진을 본인만의 다양한 서비스 및 워크플로우에 최적화하여 손쉽게 탑재할 수 있습니다.
저희 팀은 모델 성능의 지속적인 개선과 투명성을 지향합니다. 그 일환으로, 머지않아 Marengo-2.6과 다른 임베딩 작업을 다각도로 면밀히 비교한 더 포괄적인 벤치마크 데이터를 공개할 예정입니다. 이를 통해 모델의 성능 수준과 업계 내 위상을 더욱 투명하고 확실하게 보여드리겠습니다.
우리는 인류의 지속 가능한 미래와 번영을 위해 기술적 특이점을 선도한다는 비전 아래, 각 분야에서 모인 밝고 열정적이며 지적 호기심 가득한 인재들이 모인 팀입니다.
더 흥미로운 소식들로 곧 다시 찾아뵙겠습니다.
감사의 글 - Twelve Labs 팀:
본 결과물은 모델 및 데이터(”core”는 핵심 기여자 표시), 엔지니어링, 프로덕트, 비즈니스 개발 등 여러 유관 그룹이 협력하여 일궈낸 공동의 성과입니다. (이름 알파벳 순)
Model: Aiden Lee, Cooper Han, Flynn Jang, Jae Lee, Jay Yi, Jeff Kim (core), Jeremy Kim, Kyle Park, Lucas Lee, Mars Ha (core), Minjoon Seo, Ray Jung, William Go
Data: Daniel Kim (core), Jay Suh (core)
Deployment: Abraham Jo, Ed Park, Hassan Kianinejad, SJ Kim, Tony Moon, Wade Jeong
Product: Andrei Popescu, Esther Kim, EK Yoon, Genie Heo, Henry Choi, Jenna Kang, Kevin Han, Noah Seo, Sunny Nguyen, Ryan Won, Yeonhoo Park
Business & Operations: Anthony Giuliani, Dave Chung, Hans Yoon, James Le, Jenny Ahn, June Lee, Maninder Saini, Meredith Sanders, Soyoung Lee, Sue Kim, Travis Couture
리소스:
가입 후 API를 직접 사용해 보고 경험해 볼 수 있는 링크 (Marengo-2.6은 다가오는 3월 셋째 주부터 플레이그라운드에서 만나보실 수 있습니다.)
API 개발 문서 바로 가기 링크
다른 사용자 및 개발자들과 소통할 수 있는 Discord 커뮤니티 링크
만약 연구나 업무 프로세스 중 본 모델을 사용하신다면, 아래의 BibTeX 인용 양식을 작성하고 저자를 Twelve Labs로 표기해 주시길 바랍니다.
1 - 핵심 요약
Marengo-2.6 소개: 텍스트-비디오, 텍스트-이미지, 텍스트-오디오, 오디오-비디오, 이미지-비디오 등을 포함한 모든 유형 간(any-to-any) 검색 작업을 수행할 수 있는 새로운 최첨단(SOTA) 멀티모달 파운데이션 모델입니다. 이 모델은 비디오 이해 기술의 비약적인 도약을 나타내며, 다양한 미디어 유형 전반에서 더 직관적이고 포괄적인 검색 기능을 지원합니다.
새로운 최첨단 성능: Marengo-2.6은 단일 임베딩 모델로 제로샷 텍스트-비디오, 텍스트-이미지, 텍스트-오디오 검색 작업에서 새로운 벤치마크를 정립했습니다. MSR-VTT 데이터셋에서는 구글의 VideoPrism-G 모델보다 +10%, ActivityNet 데이터셋에서는 +3% 앞선 성능을 보여줍니다. 또한, 제로샷 텍스트-이미지 검색 작업에서도 기존 최첨단 이미지 파운데이션 모델을 뛰어넘으며 시각적 콘텐츠를 이해하고 처리하는 탁월한 능력을 입증했습니다. 이 결과는 당사의 비디오 중심(video-first) 연구 철학의 유효성을 뒷받침합니다. 비디오를 통해 학습하는 AI 시스템은 여러 모달리티 전반에서 매우 인상적인 지각적 추론 능력을 보여줄 수 있습니다.
확장된 멀티모달 기능: 모델의 확장된 능력은 모든 유형 간(크로스 모달리티) 검색 작업을 가능하게 하여, 다양한 애플리케이션에 다재다능하게 활용될 수 있는 도구로 만들어 줍니다. 여기에는 서로 다른 미디어 유형을 연결하는 텍스트-비디오, 텍스트-이미지, 텍스트-오디오, 오디오-비디오, 이미지-비디오 작업이 포함됩니다.
강화된 시간적 로컬라이제이션: 더 나은 시간적 로컬라이제이션(temporal localization)을 위해 리랭커(Reranker) 모델을 도입했습니다. 이 개선 사항을 통해 한층 더 정밀한 검색 결과를 제공합니다.
2 - 비디오 파운데이션 모델의 부상

비디오 데이터는 본질적으로 중복성이 높고 고차원적이며 시간적으로 구조화되어 있어, 인간의 감각 데이터와 매우 유사하지만 파싱하고 해석하기는 까다롭습니다. 기존 모델들은 프레임 간의 미묘한 상호작용을 포착하는 데 종종 한계를 보이며, 비디오에 의미를 부여하는 풍부한 맥락적 단서를 놓치곤 합니다.
효과적인 비디오 이해를 향한 여정은 멀티모달 임베딩 모델의 눈부신 발전과 함께해 왔습니다. 인간의 지각이 본질적으로 멀티모달이라는 점에 착안하여, 다양한 유형의 데이터를 동시에 처리하고 통합할 수 있는 모델들이 개발되었습니다.
시각, 텍스트, 청각 정보를 통합함으로써 멀티모달 임베딩 모델은 세상에 대해 훨씬 더 견고한 표현을 학습합니다. Marengo-2.6은 이러한 노력의 결정체로, 비디오 이해 및 모든 유형 간 검색 작업에서 비교할 수 없는 독보적인 성능을 제공합니다.
3 - Marengo 2.6 모델 개요
3.1 - 아키텍처: 게이티드 모달리티 엑스퍼트 (Gated Modality Experts)

위 그림에서 볼 수 있듯이, Marengo-2.6의 아키텍처는 '게이티드 모달리티 엑스퍼트(Gated Modality Experts)'라는 개념을 기반으로 합니다. 이를 통해 멀티모달 입력을 전문화된 인코더로 먼저 처리한 후, 이를 종합적인 멀티모달 표현으로 결합합니다.
이 아키텍처는 다음과 같은 핵심 요소들로 구성됩니다:
Visual Expert(시각 전문 엑스퍼트)는 비디오 내의 외형, 움직임 및 시간적 변화를 포착하기 위해 시각 정보를 처리합니다.
Audio Expert(오디오 전문 엑스퍼트)는 비디오와 관련된 언어적 및 비언어적 오디오 신호를 모두 포착하기 위해 청각 정보를 처리합니다.
Gated Fusion Module(게이티드 퓨전 모듈)은 비디오에 대한 각 엑스퍼트의 기여도를 평가하고, 이를 모든 유형 간 검색 작업을 위한 하나의 통합된 멀티모달 표현으로 병합합니다.
3.2 - 학습 및 데이터
Marengo-2.6의 학습은 종합적인 멀티모달 데이터셋에서 대조 학습 손실(contrastive loss)을 활용한 자기지도 학습(self-supervised learning)에 중점을 둡니다. 이전 블로그에서 언급했듯이, 저희는 모델 학습에 필수적인 데이터셋을 직접 큐레이션하고 보강했습니다. 해당 데이터셋 구성은 다음과 같습니다:
비디오 데이터: 시각 및 청각 정보가 모두 추출된 6,000만 개의 비디오
이미지 데이터: 5억 개의 이미지
오디오 데이터: 일반적인 비언어적 소리와 음악을 포함한 50만 개의 사운드
이러한 대규모의 다양한 데이터셋 덕분에 Marengo-2.6은 다양한 모달리티에 대한 깊은 이해를 얻을 수 있었으며, 폭넓은 범위의 검색 작업을 처리할 수 있는 역량을 갖추게 되었습니다.
4 - 평가 및 결과
4.1 - 정량적 결과

Marengo-2.6 모델은 다양한 모달리티를 제공하는 업계 최고 수준의 여러 파운데이션 모델들과 비교 평가되었습니다. 정량적 결과는 다양한 텍스트-유형 간 검색 작업에서 최고 수준의 성능을 입증합니다.
본 모델은 모든 텍스트-유형 간 검색 데이터셋에서 새로운 최첨단 성능 기록을 세우며, 기존 모델들을 상당한 격차로 따돌렸습니다. 조만간 일반 임베딩 기반 작업에 대한 더 광범위한 벤치마크 결과를 공개할 예정입니다.
기준 모델 (Baseline Models)
Data Filtering Network-H/14-378 (Fang et al, Apple & 윈싱턴 대학교, 2023.09): CLIP 학습 목표를 기반으로 하는 오픈소스 이미지 파운데이션 모델입니다. 378x378 이미지 해상도로 50억 개의 이미지-텍스트 쌍으로 학습되었습니다.
LanguageBind-H (Zhu et al, 베이징 대학교, 2024.02): 오디오와 시각 정보를 모두 처리하는 오픈소스 비디오 파운데이션 모델로, 1,000만 개의 비디오-텍스트 쌍(VIDAL-10m 데이터셋)으로 학습된 것으로 알려져 있습니다.
VideoPrism-G (Zhao et al, Google, 2024.02): 시각 정보를 처리하는 비디오 파운데이션 모델로, 6억 1,800만 개의 비디오-텍스트 쌍으로 학습된 것으로 알려져 있습니다.
(상용) Google Gemini(GenAI) Multimodal Embedding API
제로샷 비디오 검색 (ZS-T2V):

Marengo-2.6은 MSR-VTT 및 ActivityNet 데이터셋에서 새로운 최고 성능을 기록했습니다. 이전 최고 성능 모델들과 비교해 MSR-VTT에서는 평균 리콜이 +4%, ActivityNet에서는 +2.9% 향상되었습니다. (평균 리콜은 Recall@1 및 Recall@5의 평균으로 계산됩니다.)
제로샷 이미지 검색 (ZS-T2I):

본 모델은 MS-COCO 및 Flickr30k 데이터셋에서도 새로운 최첨단 성능을 기록했습니다. 주목할 점은 이미지 데이터 코퍼스만으로 독점 학습된 기존의 최첨단 이미지 파운데이션 모델을 뛰어넘었다는 사실입니다. 이는 Marengo-2.6이 대규모 비디오 코퍼스를 통해서도 공간적인 시각 단서를 효과적으로 학습할 수 있음을 시사합니다. (평균 리콜은 Recall@1 및 Recall@5의 평균으로 계산됩니다.)
제로샷 오디오 검색 (ZS-T2A):

마지막으로, 본 모델은 비디오에서 청각적 단서를 학습함으로써 Clotho 및 AudioCaps 데이터셋에서 새로운 최첨단 성능을 세웠습니다. 다만, 시각 검색 벤치마크에 비해 절대적인 성능은 다소 낮게 나타났습니다. 이러한 격차는 향후 모델 업데이트에서 개선해 나갈 영역으로 보고 연구를 지속할 예정입니다. (평균 리콜은 Recall@1 및 Recall@10의 평균으로 계산됩니다.)
이러한 결과는 저희 모델 아키텍처와 학습의 효과를 입증할 뿐만 아니라, 멀티모달 데이터 검색 및 이해 분야의 발전을 앞당길 수 있는 잠재력을 보여줍니다.
4.2 - 정성적 검색 결과
텍스트-비디오 (T2V)
쿼리: Number 3 Seattle Seahawks avoids sack, throws to Number 83 David Moore in end zone for touchdown. (시애틀 시호크스 3번 선수가 태클을 피하고 엔드존에 있는 83번 데이비드 무어에게 패스하여 터치다운을 성공시킵니다.)
상위 3개 결과:
텍스트-이미지 (T2I)
쿼리: A child holding a flowered umbrella and petting a yak. (꽃무늬 우산을 들고 야크를 쓰다듬고 있는 아이.)
상위 3개 결과:



쿼리: Two giraffe standing next to each other on a grassy field. (풀밭 위에 서로 나란히 서 있는 두 마리의 기린.)
상위 3개 결과:



텍스트-오디오 (T2A)
쿼리: After blustering loudly, the wind eventually dies down. (크게 휘몰아치던 바람이 마침내 점차 사그라듭니다.)
상위 3개 결과:
쿼리: A group of kids are playing together and cheer. (한 무리의 아이들이 함께 놀며 환호성을 지릅니다.)
상위 3개 결과:
오디오-비디오 (A2V)
쿼리 (지하철 소리)
상위 3개 결과 (오디오는 사용되지 않음):
쿼리 (양 소리)
상위 3개 결과 (오디오는 사용되지 않음):
이미지-비디오 (I2V)
쿼리 (이미지):

상위 3개 결과:
쿼리 (이미지):

상위 3개 결과:
비디오-비디오 (V2V)
쿼리:
상위 3개 결과:
쿼리:
상위 3개 결과:
맺음말
Twelve Labs는 자랑스럽게 Marengo-2.6을 선보입니다. 당사의 비디오 파운데이션 모델은 비디오뿐만 아니라 이미지와 오디오에 이르기까지 멀티모달 표현 작업에 선도적인 접근 방식을 제안합니다. 이는 비디오를 텍스트만큼 쉽게 다루는 세상을 만들겠다는 저희의 미션을 달성하기 위한 유의미하고 뜻깊은 첫걸음입니다.
다가오는 2024년 3월 셋째 주 중으로 플레이그라운드(Playground) 및 API 환경에 Marengo-2.6이 정식 지원될 예정입니다. 사용자는 독보적 성능을 자랑하는 최첨단 모델을 실시간으로 직접 연동하여, 뛰어난 고성능 엔진을 본인만의 다양한 서비스 및 워크플로우에 최적화하여 손쉽게 탑재할 수 있습니다.
저희 팀은 모델 성능의 지속적인 개선과 투명성을 지향합니다. 그 일환으로, 머지않아 Marengo-2.6과 다른 임베딩 작업을 다각도로 면밀히 비교한 더 포괄적인 벤치마크 데이터를 공개할 예정입니다. 이를 통해 모델의 성능 수준과 업계 내 위상을 더욱 투명하고 확실하게 보여드리겠습니다.
우리는 인류의 지속 가능한 미래와 번영을 위해 기술적 특이점을 선도한다는 비전 아래, 각 분야에서 모인 밝고 열정적이며 지적 호기심 가득한 인재들이 모인 팀입니다.
더 흥미로운 소식들로 곧 다시 찾아뵙겠습니다.
감사의 글 - Twelve Labs 팀:
본 결과물은 모델 및 데이터(”core”는 핵심 기여자 표시), 엔지니어링, 프로덕트, 비즈니스 개발 등 여러 유관 그룹이 협력하여 일궈낸 공동의 성과입니다. (이름 알파벳 순)
Model: Aiden Lee, Cooper Han, Flynn Jang, Jae Lee, Jay Yi, Jeff Kim (core), Jeremy Kim, Kyle Park, Lucas Lee, Mars Ha (core), Minjoon Seo, Ray Jung, William Go
Data: Daniel Kim (core), Jay Suh (core)
Deployment: Abraham Jo, Ed Park, Hassan Kianinejad, SJ Kim, Tony Moon, Wade Jeong
Product: Andrei Popescu, Esther Kim, EK Yoon, Genie Heo, Henry Choi, Jenna Kang, Kevin Han, Noah Seo, Sunny Nguyen, Ryan Won, Yeonhoo Park
Business & Operations: Anthony Giuliani, Dave Chung, Hans Yoon, James Le, Jenny Ahn, June Lee, Maninder Saini, Meredith Sanders, Soyoung Lee, Sue Kim, Travis Couture
리소스:
가입 후 API를 직접 사용해 보고 경험해 볼 수 있는 링크 (Marengo-2.6은 다가오는 3월 셋째 주부터 플레이그라운드에서 만나보실 수 있습니다.)
API 개발 문서 바로 가기 링크
다른 사용자 및 개발자들과 소통할 수 있는 Discord 커뮤니티 링크
만약 연구나 업무 프로세스 중 본 모델을 사용하신다면, 아래의 BibTeX 인용 양식을 작성하고 저자를 Twelve Labs로 표기해 주시길 바랍니다.
1 - 핵심 요약
Marengo-2.6 소개: 텍스트-비디오, 텍스트-이미지, 텍스트-오디오, 오디오-비디오, 이미지-비디오 등을 포함한 모든 유형 간(any-to-any) 검색 작업을 수행할 수 있는 새로운 최첨단(SOTA) 멀티모달 파운데이션 모델입니다. 이 모델은 비디오 이해 기술의 비약적인 도약을 나타내며, 다양한 미디어 유형 전반에서 더 직관적이고 포괄적인 검색 기능을 지원합니다.
새로운 최첨단 성능: Marengo-2.6은 단일 임베딩 모델로 제로샷 텍스트-비디오, 텍스트-이미지, 텍스트-오디오 검색 작업에서 새로운 벤치마크를 정립했습니다. MSR-VTT 데이터셋에서는 구글의 VideoPrism-G 모델보다 +10%, ActivityNet 데이터셋에서는 +3% 앞선 성능을 보여줍니다. 또한, 제로샷 텍스트-이미지 검색 작업에서도 기존 최첨단 이미지 파운데이션 모델을 뛰어넘으며 시각적 콘텐츠를 이해하고 처리하는 탁월한 능력을 입증했습니다. 이 결과는 당사의 비디오 중심(video-first) 연구 철학의 유효성을 뒷받침합니다. 비디오를 통해 학습하는 AI 시스템은 여러 모달리티 전반에서 매우 인상적인 지각적 추론 능력을 보여줄 수 있습니다.
확장된 멀티모달 기능: 모델의 확장된 능력은 모든 유형 간(크로스 모달리티) 검색 작업을 가능하게 하여, 다양한 애플리케이션에 다재다능하게 활용될 수 있는 도구로 만들어 줍니다. 여기에는 서로 다른 미디어 유형을 연결하는 텍스트-비디오, 텍스트-이미지, 텍스트-오디오, 오디오-비디오, 이미지-비디오 작업이 포함됩니다.
강화된 시간적 로컬라이제이션: 더 나은 시간적 로컬라이제이션(temporal localization)을 위해 리랭커(Reranker) 모델을 도입했습니다. 이 개선 사항을 통해 한층 더 정밀한 검색 결과를 제공합니다.
2 - 비디오 파운데이션 모델의 부상

비디오 데이터는 본질적으로 중복성이 높고 고차원적이며 시간적으로 구조화되어 있어, 인간의 감각 데이터와 매우 유사하지만 파싱하고 해석하기는 까다롭습니다. 기존 모델들은 프레임 간의 미묘한 상호작용을 포착하는 데 종종 한계를 보이며, 비디오에 의미를 부여하는 풍부한 맥락적 단서를 놓치곤 합니다.
효과적인 비디오 이해를 향한 여정은 멀티모달 임베딩 모델의 눈부신 발전과 함께해 왔습니다. 인간의 지각이 본질적으로 멀티모달이라는 점에 착안하여, 다양한 유형의 데이터를 동시에 처리하고 통합할 수 있는 모델들이 개발되었습니다.
시각, 텍스트, 청각 정보를 통합함으로써 멀티모달 임베딩 모델은 세상에 대해 훨씬 더 견고한 표현을 학습합니다. Marengo-2.6은 이러한 노력의 결정체로, 비디오 이해 및 모든 유형 간 검색 작업에서 비교할 수 없는 독보적인 성능을 제공합니다.
3 - Marengo 2.6 모델 개요
3.1 - 아키텍처: 게이티드 모달리티 엑스퍼트 (Gated Modality Experts)

위 그림에서 볼 수 있듯이, Marengo-2.6의 아키텍처는 '게이티드 모달리티 엑스퍼트(Gated Modality Experts)'라는 개념을 기반으로 합니다. 이를 통해 멀티모달 입력을 전문화된 인코더로 먼저 처리한 후, 이를 종합적인 멀티모달 표현으로 결합합니다.
이 아키텍처는 다음과 같은 핵심 요소들로 구성됩니다:
Visual Expert(시각 전문 엑스퍼트)는 비디오 내의 외형, 움직임 및 시간적 변화를 포착하기 위해 시각 정보를 처리합니다.
Audio Expert(오디오 전문 엑스퍼트)는 비디오와 관련된 언어적 및 비언어적 오디오 신호를 모두 포착하기 위해 청각 정보를 처리합니다.
Gated Fusion Module(게이티드 퓨전 모듈)은 비디오에 대한 각 엑스퍼트의 기여도를 평가하고, 이를 모든 유형 간 검색 작업을 위한 하나의 통합된 멀티모달 표현으로 병합합니다.
3.2 - 학습 및 데이터
Marengo-2.6의 학습은 종합적인 멀티모달 데이터셋에서 대조 학습 손실(contrastive loss)을 활용한 자기지도 학습(self-supervised learning)에 중점을 둡니다. 이전 블로그에서 언급했듯이, 저희는 모델 학습에 필수적인 데이터셋을 직접 큐레이션하고 보강했습니다. 해당 데이터셋 구성은 다음과 같습니다:
비디오 데이터: 시각 및 청각 정보가 모두 추출된 6,000만 개의 비디오
이미지 데이터: 5억 개의 이미지
오디오 데이터: 일반적인 비언어적 소리와 음악을 포함한 50만 개의 사운드
이러한 대규모의 다양한 데이터셋 덕분에 Marengo-2.6은 다양한 모달리티에 대한 깊은 이해를 얻을 수 있었으며, 폭넓은 범위의 검색 작업을 처리할 수 있는 역량을 갖추게 되었습니다.
4 - 평가 및 결과
4.1 - 정량적 결과

Marengo-2.6 모델은 다양한 모달리티를 제공하는 업계 최고 수준의 여러 파운데이션 모델들과 비교 평가되었습니다. 정량적 결과는 다양한 텍스트-유형 간 검색 작업에서 최고 수준의 성능을 입증합니다.
본 모델은 모든 텍스트-유형 간 검색 데이터셋에서 새로운 최첨단 성능 기록을 세우며, 기존 모델들을 상당한 격차로 따돌렸습니다. 조만간 일반 임베딩 기반 작업에 대한 더 광범위한 벤치마크 결과를 공개할 예정입니다.
기준 모델 (Baseline Models)
Data Filtering Network-H/14-378 (Fang et al, Apple & 윈싱턴 대학교, 2023.09): CLIP 학습 목표를 기반으로 하는 오픈소스 이미지 파운데이션 모델입니다. 378x378 이미지 해상도로 50억 개의 이미지-텍스트 쌍으로 학습되었습니다.
LanguageBind-H (Zhu et al, 베이징 대학교, 2024.02): 오디오와 시각 정보를 모두 처리하는 오픈소스 비디오 파운데이션 모델로, 1,000만 개의 비디오-텍스트 쌍(VIDAL-10m 데이터셋)으로 학습된 것으로 알려져 있습니다.
VideoPrism-G (Zhao et al, Google, 2024.02): 시각 정보를 처리하는 비디오 파운데이션 모델로, 6억 1,800만 개의 비디오-텍스트 쌍으로 학습된 것으로 알려져 있습니다.
(상용) Google Gemini(GenAI) Multimodal Embedding API
제로샷 비디오 검색 (ZS-T2V):

Marengo-2.6은 MSR-VTT 및 ActivityNet 데이터셋에서 새로운 최고 성능을 기록했습니다. 이전 최고 성능 모델들과 비교해 MSR-VTT에서는 평균 리콜이 +4%, ActivityNet에서는 +2.9% 향상되었습니다. (평균 리콜은 Recall@1 및 Recall@5의 평균으로 계산됩니다.)
제로샷 이미지 검색 (ZS-T2I):

본 모델은 MS-COCO 및 Flickr30k 데이터셋에서도 새로운 최첨단 성능을 기록했습니다. 주목할 점은 이미지 데이터 코퍼스만으로 독점 학습된 기존의 최첨단 이미지 파운데이션 모델을 뛰어넘었다는 사실입니다. 이는 Marengo-2.6이 대규모 비디오 코퍼스를 통해서도 공간적인 시각 단서를 효과적으로 학습할 수 있음을 시사합니다. (평균 리콜은 Recall@1 및 Recall@5의 평균으로 계산됩니다.)
제로샷 오디오 검색 (ZS-T2A):

마지막으로, 본 모델은 비디오에서 청각적 단서를 학습함으로써 Clotho 및 AudioCaps 데이터셋에서 새로운 최첨단 성능을 세웠습니다. 다만, 시각 검색 벤치마크에 비해 절대적인 성능은 다소 낮게 나타났습니다. 이러한 격차는 향후 모델 업데이트에서 개선해 나갈 영역으로 보고 연구를 지속할 예정입니다. (평균 리콜은 Recall@1 및 Recall@10의 평균으로 계산됩니다.)
이러한 결과는 저희 모델 아키텍처와 학습의 효과를 입증할 뿐만 아니라, 멀티모달 데이터 검색 및 이해 분야의 발전을 앞당길 수 있는 잠재력을 보여줍니다.
4.2 - 정성적 검색 결과
텍스트-비디오 (T2V)
쿼리: Number 3 Seattle Seahawks avoids sack, throws to Number 83 David Moore in end zone for touchdown. (시애틀 시호크스 3번 선수가 태클을 피하고 엔드존에 있는 83번 데이비드 무어에게 패스하여 터치다운을 성공시킵니다.)
상위 3개 결과:
텍스트-이미지 (T2I)
쿼리: A child holding a flowered umbrella and petting a yak. (꽃무늬 우산을 들고 야크를 쓰다듬고 있는 아이.)
상위 3개 결과:



쿼리: Two giraffe standing next to each other on a grassy field. (풀밭 위에 서로 나란히 서 있는 두 마리의 기린.)
상위 3개 결과:



텍스트-오디오 (T2A)
쿼리: After blustering loudly, the wind eventually dies down. (크게 휘몰아치던 바람이 마침내 점차 사그라듭니다.)
상위 3개 결과:
쿼리: A group of kids are playing together and cheer. (한 무리의 아이들이 함께 놀며 환호성을 지릅니다.)
상위 3개 결과:
오디오-비디오 (A2V)
쿼리 (지하철 소리)
상위 3개 결과 (오디오는 사용되지 않음):
쿼리 (양 소리)
상위 3개 결과 (오디오는 사용되지 않음):
이미지-비디오 (I2V)
쿼리 (이미지):

상위 3개 결과:
쿼리 (이미지):

상위 3개 결과:
비디오-비디오 (V2V)
쿼리:
상위 3개 결과:
쿼리:
상위 3개 결과:
맺음말
Twelve Labs는 자랑스럽게 Marengo-2.6을 선보입니다. 당사의 비디오 파운데이션 모델은 비디오뿐만 아니라 이미지와 오디오에 이르기까지 멀티모달 표현 작업에 선도적인 접근 방식을 제안합니다. 이는 비디오를 텍스트만큼 쉽게 다루는 세상을 만들겠다는 저희의 미션을 달성하기 위한 유의미하고 뜻깊은 첫걸음입니다.
다가오는 2024년 3월 셋째 주 중으로 플레이그라운드(Playground) 및 API 환경에 Marengo-2.6이 정식 지원될 예정입니다. 사용자는 독보적 성능을 자랑하는 최첨단 모델을 실시간으로 직접 연동하여, 뛰어난 고성능 엔진을 본인만의 다양한 서비스 및 워크플로우에 최적화하여 손쉽게 탑재할 수 있습니다.
저희 팀은 모델 성능의 지속적인 개선과 투명성을 지향합니다. 그 일환으로, 머지않아 Marengo-2.6과 다른 임베딩 작업을 다각도로 면밀히 비교한 더 포괄적인 벤치마크 데이터를 공개할 예정입니다. 이를 통해 모델의 성능 수준과 업계 내 위상을 더욱 투명하고 확실하게 보여드리겠습니다.
우리는 인류의 지속 가능한 미래와 번영을 위해 기술적 특이점을 선도한다는 비전 아래, 각 분야에서 모인 밝고 열정적이며 지적 호기심 가득한 인재들이 모인 팀입니다.
더 흥미로운 소식들로 곧 다시 찾아뵙겠습니다.
감사의 글 - Twelve Labs 팀:
본 결과물은 모델 및 데이터(”core”는 핵심 기여자 표시), 엔지니어링, 프로덕트, 비즈니스 개발 등 여러 유관 그룹이 협력하여 일궈낸 공동의 성과입니다. (이름 알파벳 순)
Model: Aiden Lee, Cooper Han, Flynn Jang, Jae Lee, Jay Yi, Jeff Kim (core), Jeremy Kim, Kyle Park, Lucas Lee, Mars Ha (core), Minjoon Seo, Ray Jung, William Go
Data: Daniel Kim (core), Jay Suh (core)
Deployment: Abraham Jo, Ed Park, Hassan Kianinejad, SJ Kim, Tony Moon, Wade Jeong
Product: Andrei Popescu, Esther Kim, EK Yoon, Genie Heo, Henry Choi, Jenna Kang, Kevin Han, Noah Seo, Sunny Nguyen, Ryan Won, Yeonhoo Park
Business & Operations: Anthony Giuliani, Dave Chung, Hans Yoon, James Le, Jenny Ahn, June Lee, Maninder Saini, Meredith Sanders, Soyoung Lee, Sue Kim, Travis Couture
리소스:
가입 후 API를 직접 사용해 보고 경험해 볼 수 있는 링크 (Marengo-2.6은 다가오는 3월 셋째 주부터 플레이그라운드에서 만나보실 수 있습니다.)
API 개발 문서 바로 가기 링크
다른 사용자 및 개발자들과 소통할 수 있는 Discord 커뮤니티 링크
만약 연구나 업무 프로세스 중 본 모델을 사용하신다면, 아래의 BibTeX 인용 양식을 작성하고 저자를 Twelve Labs로 표기해 주시길 바랍니다.




