
파트너십
멀티모달 AI와 비디오 이해 기술이 미디어를 혁신하는 방법

제임스 러
Twelve Labs와 MASV가 멀티모달 비디오 이해 기술이 미디어 및 엔터테인먼트 워크플로우를 어떻게 혁신하고 있는지 알아봅니다. 비디오 검색, 분류, 묘사 분야에서의 실질적인 활용 사례를 알아보고, 두 플랫폼이 어떻게 협업하여 클라우드 상에서 콘텐츠 수집과 AI 비디오 처리를 자동화하는지 설명합니다.
Twelve Labs와 MASV가 멀티모달 비디오 이해 기술이 미디어 및 엔터테인먼트 워크플로우를 어떻게 혁신하고 있는지 알아봅니다. 비디오 검색, 분류, 묘사 분야에서의 실질적인 활용 사례를 알아보고, 두 플랫폼이 어떻게 협업하여 클라우드 상에서 콘텐츠 수집과 AI 비디오 처리를 자동화하는지 설명합니다.

목차
No headings found on page
뉴스레터 구독하기
뉴스레터 구독하기
영상 이해 분야의 최신 기술 업데이트, 튜토리얼 및 인사이트를 받아보세요.
영상 이해 분야의 최신 기술 업데이트, 튜토리얼 및 인사이트를 받아보세요.
AI로 영상을 검색하고, 분석하고, 탐색하세요.
2024. 4. 22.
10분
링크 복사하기
이 블로그 포스트는 멋진 MASV 팀의 Ankit Verma(제품 마케팅 매니저) 및 Jim Donnelly(편집 책임자)와 공동으로 집필했습니다!
이제 인공지능(AI)이 어디에나 존재한다는 말은 과장이 아닙니다. 요즘에는 어디를 둘러보아도 AI의 새로운 형태나 애플리케이션을 마주하게 됩니다. 비디오 및 영화 제작 분야만큼 이 사실이 잘 드러나는 곳도 없습니다.
사전 제작 단계의 시나리오 작성과 로케이션 탐색부터 사후 제작 단계의 오브젝트 제거와 장면 안정화에 이르기까지, AI와 머신러닝(ML)의 도입은 거스를 수 없는 현실입니다. 그리고 이는 긍정적인 변화입니다. 지루하고 반복적인 작업에 소요되는 시간을 줄임으로써 M&E 전문가는 비용을 절감하고 더 가치 있는 작업에 소중한 시간을 쏟을 수 있습니다.
하지만 AI가 비디오 세상을 혁신하는 가장 혁신적이고 파워풀한 방법 중 하나는 바로 비디오 이해(Video Understanding) 기술일 것입니다.
비디오 이해(Video Understanding)란 무엇인가요?
비디오 이해 모델은 비디오 콘텐츠를 분석, 해석, 이해하여 비디오의 전체 맥락을 파악할 수 있는 방식으로 정보를 추출합니다.

단순히 프레임별로 객체를 식별하거나 오디오 요소를 파싱하는 것에 그치지 않습니다. AI 기반의 비디오 이해 기술은 자연어를 비디오 내의 행동과 매핑합니다. 이를 위해 행동 인식, 객체 감지 등 다양한 비디오 이해 태스크를 수행하여 비디오의 시각적, 청각적 및 음성 요소를 처리하고 이해함으로써, 가장 유동적인 매체인 비디오를 통해 전달되는 미묘한 뉘앙스까지 파악합니다.
또한, 비디오 데이터를 전문적으로 이해하도록 훈련되지 않은 ChatGPT와 같은 대규모 언어 모델(LLM)과도 차별화됩니다.
간단히 말해, AI 비디오 이해 모델은 인간이 비디오를 이해하는 것과 동일한 방식으로 비디오를 인지합니다.
이는 매우 까다로운 도전이지만, Twelve Labs가 열정적으로 해결해 나가고 있는 과제이기도 합니다.
M&E 분야에서의 비디오 이해 기술 활용 사례
딥 비디오 이해 기술의 이면에 있는 기술력을 살펴보기 전에, 비디오 이해가 M&E 전문가와 비디오 콘텐츠 크리에이터의 작업을 어떻게 간소화할 수 있는지 구체적으로 알아보겠습니다.
비디오 검색
수 페타바이트에 달하는 방대한 데이터 속에서 단순히 시각적 요소를 자연어로 묘사하는 것만으로 특정 비디오를 찾을 수 있다고 상상해 보세요. 또는 스포츠 리그나 구단으로서, AI 비디오 이해 모델에 단 몇 초 만에 특정 선수의 모든 골 장면이 담긴 하이라이트 릴을 만들어 달라고 요청하는 상황을 떠올려 보십시오.
AI 비디오 이해 기술을 사용하면 이 모든 것이 가능해집니다.
반면, 기존의 비디오 검색 방식은 접근법과 실행 측면에서 명확한 한계를 가지고 있습니다. 주로 키워드 매칭에 의존하여 비디오를 인덱싱하고 검색하기 때문에, 시각적 및 청각적 단서를 통해 비디오를 더 깊이 이해할 수 있게 해주는 멀티모달 AI 기술을 활용하지 못합니다.
이미지, 사운드, 음성, 화면 텍스트 등 사용 가능한 모든 데이터 유형을 동시에 통합함으로써, 현대적인 비디오 이해 모델은 이러한 요소들 간의 복잡한 관계를 포착하여 인간처럼 미묘하고 정교한 해석을 제공합니다.
그 결과, 클라우드 오브젝트 스토리지에서 훨씬 빠르고 정확한 비디오 검색 및 회수가 가능해집니다. 비디오 편집자는 시간이 오래 걸리고 비효율적인 수동 태깅 작업 대신, 자연어를 사용해 방대한 미디어 아카이브를 빠르고 정확하게 검색하여 자칫 지나칠 뻔한 비디오의 순간과 숨겨진 보석 같은 장면들을 찾아낼 수 있습니다.
Twelve Labs의 Search API는 1시간 분량의 비디오를 인덱싱하는 데 약 15분이 소요되며, 인덱싱된 비디오는 100개 이상의 언어로 시맨틱 검색이 가능해집니다.

비디오 분류
AI 기반 비디오 이해 기술을 사용하면 비디오를 미리 정의된 카테고리나 주제로 자동 분류할 수 있습니다. Twelve Labs의 Classify API를 사용하면 콘텐츠의 의미론적 특징, 객체, 행동 및 기타 요소들을 분석하여 비디오를 스포츠, 뉴스, 엔터테인먼트, 다큐멘터리 등으로 분류 및 정리할 수 있습니다.
저희 모델은 특정 장면을 분류할 수도 있어, 광고나 콘텐츠 모더레이션 관련 실무 애플리케이션에 강력한 힘을 실어줍니다. 예를 들어 이 기술은 맥락을 기반으로 무기가 등장하는 장면을 교육용, 드라마틱한 장면, 혹은 폭력적인 장면으로 구분해 낼 수 있습니다.
이는 크리에이터와 비디오 플랫폼 모두에게 유용하며, 사용자의 관심사와 선호도에 따른 보다 정확한 추천을 제공하여 사용자 경험을 향상시킵니다. 또한 편집, 아카이빙 등을 위해 아이템을 빠르게 찾고 기록해야 하는 포스트 프로덕션 전문가들에게도 큰 도움이 됩니다.
Twelve Labs 기술 내에서 사용되는 모든 비디오에는 표준 메타데이터가 포함되어 있지만, 사용자는 비디오에 맞춤형 메타데이터를 추가하여 더 상세하거나 특정 맥락에 맞는 정보를 제공할 수도 있습니다.
감시 및 보안부터 스포츠 분석, 콘텐츠 모더레이션에서 컨텍스트 기반 광고에 이르기까지, 비디오 이해 기술은 비디오 분류 시장의 판도를 완전히 뒤흔들 수 있는 역량을 가지고 있습니다.
비디오 묘사 (Video Description)

비디오 이해 기술을 활용하면 단 몇 초 만에 생성되는 상세한 묘사를 통해 비디오 데이터세트를 자동으로 요약할 수 있습니다. 기술을 통해 긴 비디오를 가장 중요한 콘텐츠만 담은 간결한 표현으로 응축함으로써 이해도와 인게이지먼트를 높입니다.
이처럼 빠르고 상세한 요약은 묘사적 메타데이터와 요약본을 통해 미디어를 풍부하게 구성할 때 큰 도움이 됩니다. 특히 비디오를 시청하기에 다소 불편함이 있는 신체적 장애나 인지적 제약이 있는 분들에게 유용합니다.
미디어 및 엔터테인먼트 산업에서 비디오 묘사 및 요약 기술은 영화, TV 쇼 및 기타 비디오 콘텐츠의 예고편이나 트레일러를 제작하는 데 활용될 수 있습니다. 이러한 예고편은 콘텐츠에 대한 간결한 개요를 제공하여 시청자가 전체 비디오를 시청할지 결정하는 데 도움을 줍니다. 사용자 경험을 개선하는 모든 시도는 언제나 긍정적인 결과를 가져옵니다.
Twelve Labs의 Generate API suite는 비디오 내용을 기반으로 텍스트를 생성합니다. 다양한 요구사항을 충족하기 위해 맞춤 설계된 세 가지 고유한 엔드포인트를 제공하며, 각 엔드포인트는 다양한 니즈를 서포트할 수 있도록 유연성과 커스텀 옵션을 최적화하여 설계되었습니다.
Gist API는 제목, 주제, 관련 해시태그 목록과 같이 간결한 텍스트 아웃풋을 생성할 수 있습니다.
Summary API는 비디오 요약, 챕터 구분 및 하이라이트를 생성하도록 설계되었습니다.
맞춤형 아웃풋을 원한다면, Generate API를 통해 글머리 기호부터 보고서, 심지어 비디오 콘텐츠를 기반으로 한 창의적인 작사에 이르기까지 구체적인 형식과 스타일의 프롬프트를 입력할 수 있습니다.
비디오 이해 기술의 이면
Twelve Labs의 CEO 이재성은 MASV와의 인터뷰에서 “전 세계 데이터의 80%가 비디오 콘텐츠에 갇혀 있기 때문에 AI가 이를 이해하지 못하고 있다”며, “우리는 그것을 열 수 있는 열쇠를 만들고 있다”고 설명했습니다.
실제로, 신경망과 머신러닝을 사용하여 디지털 이미지를 이해하는 기존의 컴퓨터 비전(CV) 모델은 비디오 내의 맥락(Context)을 이해하는 데 늘 어려움을 겪었습니다. CV 모델은 객체와 행동을 식별하는 데는 탁월하지만, 그들 사이의 관계는 파악하지 못합니다. 이는 최근까지 AI를 사용해 비디오 콘텐츠를 정확하게 분석하는 능력을 제한했던 공백이었습니다.
Twelve Labs의 창립 솔루션 아키텍트인 Travis Couture는 이 문제를 콘텐츠 대 맥락의 프레임으로 설명했습니다.
“기존의 방식은 비디오 콘텐츠를 해결하기 더 쉬운 하위 과제로 쪼개는 것이었습니다. 보통 개별 이미지로서 프레임별 분석을 수행하고, 오디오 채널을 별도로 분리하여 텍스트로 변환(Transcription)하는 방식이었죠. 이 두 프로세스가 완료되면 분석 결과를 다시 하나로 합쳐 종합하는 방식이었습니다.
“콘텐츠를 분해했다가 다시 합치게 되면, 콘텐츠 자체는 확보할 수 있지만 맥락(Context)은 유실될 수 있습니다. 그리고 비디오에서는 맥락이 핵심입니다.”
“Twelve Labs의 목표는 이러한 전통적인 컴퓨터 비전 접근 방식에서 벗어나 진정한 비디오 이해 영역으로 나아가는 것이며, 이는 사람이 비디오를 받아들이는 것과 마찬가지로 모든 요소를 한 번에 동시에 처리하는 것을 의미합니다.”
멀티모달 비디오 이해 (Multimodal Video Understanding)

비디오는 동적이고, 레이어가 나누어져 있으며, 유동적입니다. 개별적으로 분해해서 분석하는 방식으로는 전체를 온전히 파악해 낼 수 없습니다. 이것이 바로 Twelve Labs가 해결한 과제입니다. 어떻게 이를 실현했을까요?
바로 멀티모달(Multimodal) AI를 적용하는 것입니다.
여기서 '모달리티(Modality)'라는 단어는 이벤트가 경험되는 방식을 의미합니다. 현실 세계에서와 마찬가지로 비디오에서도 청각, 시각, 시간, 언어 등 다양한 모달리티가 존재합니다.
Twelve Labs의 공동 창업자이자 사업 개발 총괄인 이소영은 “이러한 모달리티를 개별적으로 분석한 다음 다시 짜 맞추려고 하면, 총체적인 이해와 맥락을 결코 달성할 수 없습니다”라고 설명했습니다.
Twelve Labs의 멀티모달 접근 방식은 인간이 비디오를 해석하는 방식을 모델링할 수 있게 해주었습니다. “저희 비디오 파운데이션 모델인 Marengo는 지각 정보, 의미 정보, 맥락 정보를 저희의 생성형 모델인 Pegasus에 전달하여, 인간이 인지에서 처리 및 추론으로 나아가는 방식을 모방합니다.”라고 설명했습니다.
인간의 뇌가 방대한 양의 정보를 끊임없이 수신하고 해석하여 정리하는 것처럼, Twelve Labs의 멀티모달 AI 또한 다양한 자극을 일관된 이해로 종합하는 데 초점을 맞추고 있습니다. 비디오 내의 시간, 객체, 음성, 텍스트, 사람, 행동 등 다양한 변수에서 데이터를 추출한 뒤 이를 벡터(수학적 표현)로 합성해 냅니다.
이를 구현하기 위해 행동 인식(Action Recognition), 패턴 인식, 객체 감지, 장면 이해와 같은 태스크들을 적용합니다.
총체적인 비디오 이해를 위한 애플리케이션은 M&E를 포함해 아주 광범위한 영역에 걸쳐 활용되기 때문에, Twelve Labs는 사용자가 비디오 이해 기술을 자유롭게 탐색하고 테스트할 수 있는 샌드박스 환경인 Playground를 제공합니다. 또한 개발 장벽을 낮추기 위해 탄탄한 문서(Documentation)와 강력한 API를 바탕으로, 단 몇 줄의 API 호출만으로 비디오 이해 기능을 자사 플랫폼에 손쉽게 임베드할 수 있도록 서포트합니다.
MASV와 Twelve Labs로 클라우드에서 AI 비디오 워크플로우 지원하기
2023년 12월 기준, 전 세계적으로 매일 약 3억 2,877만 테라바이트의 데이터가 생성되고 있으며, 비디오는 이 중 53.27%를 차지하며 그 비중은 계속 증가하고 있습니다. 비디오가 중심이 되는 이러한 급진적인 변화 속에서 Twelve Labs의 비디오 이해 기술은 매우 중요해지고 있습니다.
MASV 역시 비디오의 엄청나고 지속적인 잠재력을 잘 알고 있습니다. 원활하고 신속한 대용량 파일 전송 서비스를 제공하는 이들은 자동화되고 안전한 파일 업로더를 통해 대규모 데이터세트를 AI 처리를 위한 대표적인 클라우드 환경인 Amazon S3 등으로 쉽게 수집할 수 있도록 지원합니다. 이는 비디오 및 데이터세트를 수반하는 AI 워크플로우를 간소화하는 데 기여합니다.
MASV는 이미 대중적인 미디어 자산 관리(MAM) 시스템 및 클라우드 스토리지와의 원활한 통합을 지원하며, 손을 쓰지 않고도 콘텐츠를 수집할 수 있는 노코드(No-code) 기반 파일 전송 자동화 기능을 제공하고 있습니다.
사용자는 전송된 파일을 자동으로 사용자 S3 인스턴스에 업로드하도록 MASV를 구성할 수 있으며, 이후 Twelve Labs를 사용하여 아카이브/콘텐츠 검색이나 비디오 요약과 같은 AI 비디오 이해 작업을 신속하게 처리할 수 있습니다.

MASV와 Twelve Labs를 직접 테스트해보고 싶으신가요? 지금 바로 MASV에 무료로 가입하고 20GB의 무료 전송 데이터를 받아 워크플로우를 테스트해 보세요. 이와 더불어, Twelve Labs의 Playground 환경에 가입하시면 10시간의 무료 비디오 크레딧을 통해 비디오 이해 기술의 강력한 혁신을 직관적으로 경험해 볼 수 있습니다.
이 블로그 포스트는 멋진 MASV 팀의 Ankit Verma(제품 마케팅 매니저) 및 Jim Donnelly(편집 책임자)와 공동으로 집필했습니다!
이제 인공지능(AI)이 어디에나 존재한다는 말은 과장이 아닙니다. 요즘에는 어디를 둘러보아도 AI의 새로운 형태나 애플리케이션을 마주하게 됩니다. 비디오 및 영화 제작 분야만큼 이 사실이 잘 드러나는 곳도 없습니다.
사전 제작 단계의 시나리오 작성과 로케이션 탐색부터 사후 제작 단계의 오브젝트 제거와 장면 안정화에 이르기까지, AI와 머신러닝(ML)의 도입은 거스를 수 없는 현실입니다. 그리고 이는 긍정적인 변화입니다. 지루하고 반복적인 작업에 소요되는 시간을 줄임으로써 M&E 전문가는 비용을 절감하고 더 가치 있는 작업에 소중한 시간을 쏟을 수 있습니다.
하지만 AI가 비디오 세상을 혁신하는 가장 혁신적이고 파워풀한 방법 중 하나는 바로 비디오 이해(Video Understanding) 기술일 것입니다.
비디오 이해(Video Understanding)란 무엇인가요?
비디오 이해 모델은 비디오 콘텐츠를 분석, 해석, 이해하여 비디오의 전체 맥락을 파악할 수 있는 방식으로 정보를 추출합니다.

단순히 프레임별로 객체를 식별하거나 오디오 요소를 파싱하는 것에 그치지 않습니다. AI 기반의 비디오 이해 기술은 자연어를 비디오 내의 행동과 매핑합니다. 이를 위해 행동 인식, 객체 감지 등 다양한 비디오 이해 태스크를 수행하여 비디오의 시각적, 청각적 및 음성 요소를 처리하고 이해함으로써, 가장 유동적인 매체인 비디오를 통해 전달되는 미묘한 뉘앙스까지 파악합니다.
또한, 비디오 데이터를 전문적으로 이해하도록 훈련되지 않은 ChatGPT와 같은 대규모 언어 모델(LLM)과도 차별화됩니다.
간단히 말해, AI 비디오 이해 모델은 인간이 비디오를 이해하는 것과 동일한 방식으로 비디오를 인지합니다.
이는 매우 까다로운 도전이지만, Twelve Labs가 열정적으로 해결해 나가고 있는 과제이기도 합니다.
M&E 분야에서의 비디오 이해 기술 활용 사례
딥 비디오 이해 기술의 이면에 있는 기술력을 살펴보기 전에, 비디오 이해가 M&E 전문가와 비디오 콘텐츠 크리에이터의 작업을 어떻게 간소화할 수 있는지 구체적으로 알아보겠습니다.
비디오 검색
수 페타바이트에 달하는 방대한 데이터 속에서 단순히 시각적 요소를 자연어로 묘사하는 것만으로 특정 비디오를 찾을 수 있다고 상상해 보세요. 또는 스포츠 리그나 구단으로서, AI 비디오 이해 모델에 단 몇 초 만에 특정 선수의 모든 골 장면이 담긴 하이라이트 릴을 만들어 달라고 요청하는 상황을 떠올려 보십시오.
AI 비디오 이해 기술을 사용하면 이 모든 것이 가능해집니다.
반면, 기존의 비디오 검색 방식은 접근법과 실행 측면에서 명확한 한계를 가지고 있습니다. 주로 키워드 매칭에 의존하여 비디오를 인덱싱하고 검색하기 때문에, 시각적 및 청각적 단서를 통해 비디오를 더 깊이 이해할 수 있게 해주는 멀티모달 AI 기술을 활용하지 못합니다.
이미지, 사운드, 음성, 화면 텍스트 등 사용 가능한 모든 데이터 유형을 동시에 통합함으로써, 현대적인 비디오 이해 모델은 이러한 요소들 간의 복잡한 관계를 포착하여 인간처럼 미묘하고 정교한 해석을 제공합니다.
그 결과, 클라우드 오브젝트 스토리지에서 훨씬 빠르고 정확한 비디오 검색 및 회수가 가능해집니다. 비디오 편집자는 시간이 오래 걸리고 비효율적인 수동 태깅 작업 대신, 자연어를 사용해 방대한 미디어 아카이브를 빠르고 정확하게 검색하여 자칫 지나칠 뻔한 비디오의 순간과 숨겨진 보석 같은 장면들을 찾아낼 수 있습니다.
Twelve Labs의 Search API는 1시간 분량의 비디오를 인덱싱하는 데 약 15분이 소요되며, 인덱싱된 비디오는 100개 이상의 언어로 시맨틱 검색이 가능해집니다.

비디오 분류
AI 기반 비디오 이해 기술을 사용하면 비디오를 미리 정의된 카테고리나 주제로 자동 분류할 수 있습니다. Twelve Labs의 Classify API를 사용하면 콘텐츠의 의미론적 특징, 객체, 행동 및 기타 요소들을 분석하여 비디오를 스포츠, 뉴스, 엔터테인먼트, 다큐멘터리 등으로 분류 및 정리할 수 있습니다.
저희 모델은 특정 장면을 분류할 수도 있어, 광고나 콘텐츠 모더레이션 관련 실무 애플리케이션에 강력한 힘을 실어줍니다. 예를 들어 이 기술은 맥락을 기반으로 무기가 등장하는 장면을 교육용, 드라마틱한 장면, 혹은 폭력적인 장면으로 구분해 낼 수 있습니다.
이는 크리에이터와 비디오 플랫폼 모두에게 유용하며, 사용자의 관심사와 선호도에 따른 보다 정확한 추천을 제공하여 사용자 경험을 향상시킵니다. 또한 편집, 아카이빙 등을 위해 아이템을 빠르게 찾고 기록해야 하는 포스트 프로덕션 전문가들에게도 큰 도움이 됩니다.
Twelve Labs 기술 내에서 사용되는 모든 비디오에는 표준 메타데이터가 포함되어 있지만, 사용자는 비디오에 맞춤형 메타데이터를 추가하여 더 상세하거나 특정 맥락에 맞는 정보를 제공할 수도 있습니다.
감시 및 보안부터 스포츠 분석, 콘텐츠 모더레이션에서 컨텍스트 기반 광고에 이르기까지, 비디오 이해 기술은 비디오 분류 시장의 판도를 완전히 뒤흔들 수 있는 역량을 가지고 있습니다.
비디오 묘사 (Video Description)

비디오 이해 기술을 활용하면 단 몇 초 만에 생성되는 상세한 묘사를 통해 비디오 데이터세트를 자동으로 요약할 수 있습니다. 기술을 통해 긴 비디오를 가장 중요한 콘텐츠만 담은 간결한 표현으로 응축함으로써 이해도와 인게이지먼트를 높입니다.
이처럼 빠르고 상세한 요약은 묘사적 메타데이터와 요약본을 통해 미디어를 풍부하게 구성할 때 큰 도움이 됩니다. 특히 비디오를 시청하기에 다소 불편함이 있는 신체적 장애나 인지적 제약이 있는 분들에게 유용합니다.
미디어 및 엔터테인먼트 산업에서 비디오 묘사 및 요약 기술은 영화, TV 쇼 및 기타 비디오 콘텐츠의 예고편이나 트레일러를 제작하는 데 활용될 수 있습니다. 이러한 예고편은 콘텐츠에 대한 간결한 개요를 제공하여 시청자가 전체 비디오를 시청할지 결정하는 데 도움을 줍니다. 사용자 경험을 개선하는 모든 시도는 언제나 긍정적인 결과를 가져옵니다.
Twelve Labs의 Generate API suite는 비디오 내용을 기반으로 텍스트를 생성합니다. 다양한 요구사항을 충족하기 위해 맞춤 설계된 세 가지 고유한 엔드포인트를 제공하며, 각 엔드포인트는 다양한 니즈를 서포트할 수 있도록 유연성과 커스텀 옵션을 최적화하여 설계되었습니다.
Gist API는 제목, 주제, 관련 해시태그 목록과 같이 간결한 텍스트 아웃풋을 생성할 수 있습니다.
Summary API는 비디오 요약, 챕터 구분 및 하이라이트를 생성하도록 설계되었습니다.
맞춤형 아웃풋을 원한다면, Generate API를 통해 글머리 기호부터 보고서, 심지어 비디오 콘텐츠를 기반으로 한 창의적인 작사에 이르기까지 구체적인 형식과 스타일의 프롬프트를 입력할 수 있습니다.
비디오 이해 기술의 이면
Twelve Labs의 CEO 이재성은 MASV와의 인터뷰에서 “전 세계 데이터의 80%가 비디오 콘텐츠에 갇혀 있기 때문에 AI가 이를 이해하지 못하고 있다”며, “우리는 그것을 열 수 있는 열쇠를 만들고 있다”고 설명했습니다.
실제로, 신경망과 머신러닝을 사용하여 디지털 이미지를 이해하는 기존의 컴퓨터 비전(CV) 모델은 비디오 내의 맥락(Context)을 이해하는 데 늘 어려움을 겪었습니다. CV 모델은 객체와 행동을 식별하는 데는 탁월하지만, 그들 사이의 관계는 파악하지 못합니다. 이는 최근까지 AI를 사용해 비디오 콘텐츠를 정확하게 분석하는 능력을 제한했던 공백이었습니다.
Twelve Labs의 창립 솔루션 아키텍트인 Travis Couture는 이 문제를 콘텐츠 대 맥락의 프레임으로 설명했습니다.
“기존의 방식은 비디오 콘텐츠를 해결하기 더 쉬운 하위 과제로 쪼개는 것이었습니다. 보통 개별 이미지로서 프레임별 분석을 수행하고, 오디오 채널을 별도로 분리하여 텍스트로 변환(Transcription)하는 방식이었죠. 이 두 프로세스가 완료되면 분석 결과를 다시 하나로 합쳐 종합하는 방식이었습니다.
“콘텐츠를 분해했다가 다시 합치게 되면, 콘텐츠 자체는 확보할 수 있지만 맥락(Context)은 유실될 수 있습니다. 그리고 비디오에서는 맥락이 핵심입니다.”
“Twelve Labs의 목표는 이러한 전통적인 컴퓨터 비전 접근 방식에서 벗어나 진정한 비디오 이해 영역으로 나아가는 것이며, 이는 사람이 비디오를 받아들이는 것과 마찬가지로 모든 요소를 한 번에 동시에 처리하는 것을 의미합니다.”
멀티모달 비디오 이해 (Multimodal Video Understanding)

비디오는 동적이고, 레이어가 나누어져 있으며, 유동적입니다. 개별적으로 분해해서 분석하는 방식으로는 전체를 온전히 파악해 낼 수 없습니다. 이것이 바로 Twelve Labs가 해결한 과제입니다. 어떻게 이를 실현했을까요?
바로 멀티모달(Multimodal) AI를 적용하는 것입니다.
여기서 '모달리티(Modality)'라는 단어는 이벤트가 경험되는 방식을 의미합니다. 현실 세계에서와 마찬가지로 비디오에서도 청각, 시각, 시간, 언어 등 다양한 모달리티가 존재합니다.
Twelve Labs의 공동 창업자이자 사업 개발 총괄인 이소영은 “이러한 모달리티를 개별적으로 분석한 다음 다시 짜 맞추려고 하면, 총체적인 이해와 맥락을 결코 달성할 수 없습니다”라고 설명했습니다.
Twelve Labs의 멀티모달 접근 방식은 인간이 비디오를 해석하는 방식을 모델링할 수 있게 해주었습니다. “저희 비디오 파운데이션 모델인 Marengo는 지각 정보, 의미 정보, 맥락 정보를 저희의 생성형 모델인 Pegasus에 전달하여, 인간이 인지에서 처리 및 추론으로 나아가는 방식을 모방합니다.”라고 설명했습니다.
인간의 뇌가 방대한 양의 정보를 끊임없이 수신하고 해석하여 정리하는 것처럼, Twelve Labs의 멀티모달 AI 또한 다양한 자극을 일관된 이해로 종합하는 데 초점을 맞추고 있습니다. 비디오 내의 시간, 객체, 음성, 텍스트, 사람, 행동 등 다양한 변수에서 데이터를 추출한 뒤 이를 벡터(수학적 표현)로 합성해 냅니다.
이를 구현하기 위해 행동 인식(Action Recognition), 패턴 인식, 객체 감지, 장면 이해와 같은 태스크들을 적용합니다.
총체적인 비디오 이해를 위한 애플리케이션은 M&E를 포함해 아주 광범위한 영역에 걸쳐 활용되기 때문에, Twelve Labs는 사용자가 비디오 이해 기술을 자유롭게 탐색하고 테스트할 수 있는 샌드박스 환경인 Playground를 제공합니다. 또한 개발 장벽을 낮추기 위해 탄탄한 문서(Documentation)와 강력한 API를 바탕으로, 단 몇 줄의 API 호출만으로 비디오 이해 기능을 자사 플랫폼에 손쉽게 임베드할 수 있도록 서포트합니다.
MASV와 Twelve Labs로 클라우드에서 AI 비디오 워크플로우 지원하기
2023년 12월 기준, 전 세계적으로 매일 약 3억 2,877만 테라바이트의 데이터가 생성되고 있으며, 비디오는 이 중 53.27%를 차지하며 그 비중은 계속 증가하고 있습니다. 비디오가 중심이 되는 이러한 급진적인 변화 속에서 Twelve Labs의 비디오 이해 기술은 매우 중요해지고 있습니다.
MASV 역시 비디오의 엄청나고 지속적인 잠재력을 잘 알고 있습니다. 원활하고 신속한 대용량 파일 전송 서비스를 제공하는 이들은 자동화되고 안전한 파일 업로더를 통해 대규모 데이터세트를 AI 처리를 위한 대표적인 클라우드 환경인 Amazon S3 등으로 쉽게 수집할 수 있도록 지원합니다. 이는 비디오 및 데이터세트를 수반하는 AI 워크플로우를 간소화하는 데 기여합니다.
MASV는 이미 대중적인 미디어 자산 관리(MAM) 시스템 및 클라우드 스토리지와의 원활한 통합을 지원하며, 손을 쓰지 않고도 콘텐츠를 수집할 수 있는 노코드(No-code) 기반 파일 전송 자동화 기능을 제공하고 있습니다.
사용자는 전송된 파일을 자동으로 사용자 S3 인스턴스에 업로드하도록 MASV를 구성할 수 있으며, 이후 Twelve Labs를 사용하여 아카이브/콘텐츠 검색이나 비디오 요약과 같은 AI 비디오 이해 작업을 신속하게 처리할 수 있습니다.

MASV와 Twelve Labs를 직접 테스트해보고 싶으신가요? 지금 바로 MASV에 무료로 가입하고 20GB의 무료 전송 데이터를 받아 워크플로우를 테스트해 보세요. 이와 더불어, Twelve Labs의 Playground 환경에 가입하시면 10시간의 무료 비디오 크레딧을 통해 비디오 이해 기술의 강력한 혁신을 직관적으로 경험해 볼 수 있습니다.




