🎉 TwelveLabs Raises $100M Series B to build the future of video superintelligence. Read more.

Platform

Pricing

Solutions

Build

Resources

Company

Select Language

Playground

Talk to Sales

🎉 TwelveLabs Raises $100M Series B to build the future of video superintelligence. Read more.

트웰브랩스

Video Superintelligence를 위한 1500억 원 규모 시리즈B 투자 유치

Jae Lee

트웰브랩스는 영상 초지능의 토대인 영상 인지 시스템(Video Cognition System)을 확장하기 위해 1억 달러 (약 1500억 원)를 유치했습니다. NEA와 네이버벤처스가 공동으로 투자를 리드했습니다.

In this article

No headings found on page

Join our newsletter

Receive the latest advancements, tutorials, and industry insights in video understanding

Search, analyze, and explore your videos with AI.

Try the Playground

Jul 1, 2026

6 Minutes

Copy link to article

베팅

5년 전 저희는 한 가지 사실에 주목했습니다.

세상은 텍스트가 아니라 동작(motion)으로 구성되어 있다는 단순한 관점입니다.

언어는 인간이 겪은 현실을 나중에 압축해 둔 것입니다. 강력하고 유용하지만, 중간에 많은 부분이 소실되곤 합니다. 물론 문장 하나로 강아지나 골 장면, 차량 충돌, 외과 수술, 공정 라인의 결함, 범죄 현장 등을 묘사할 수는 있습니다. 하지만 인간은 언어로 무언가를 묘사하기 전에 감각을 통해 여러 단서를 인지합니다. 눈, 코, 입, 귀로 형태, 동작, 소리, 시간에 따른 변화 등의 신호를 받아들이죠.

오늘날 대부분의 AI는 ‘압축된 세상’인 언어로 학습했습니다.

저희는 감각 신호를 택했습니다.

저희의 가설은 당시 산학계의 통념과는 맞지 않았습니다. 하지만 AI가 물리 세계를 이해하려면 영상을 그 자체로 담아내는 표현(representation)이 있어야 한다고 믿었습니다. 영상 속 프레임 몇 컷을 처리하는 과정이나 영상에 덧씌운 메타데이터를 말하는 것이 아닙니다. 영상을 이해하는 척하는 캡션은 더더욱 아닙니다. 저희가 바란 것은 영상에 담긴 실제 세상을 인식하거나 색인하고, 검색과 추론이 가능하며, 더 나아가 행동(action)까지 하는 시스템이었습니다.

영상은 그저 또 하나의 모달리티가 아닙니다. 현실이 펼쳐지는 그 순간과 가장 가까운 디지털 기록입니다. 그 안에는 시간과 공간, 사물과 사람, 의도와 맥락, 그리고 결과까지 고스란히 담겨 있습니다.

영상 속 한 줄 캡션은 "유리잔이 깨졌다"고 적고 맙니다. 하지만 영상은 그 앞뒤 몇 초를 온전히 붙잡아 둡니다. 손을 뻗고, 잔이 떨어지고, 부딪치는 소리가 울리고, 곧이어 반응이 뒤따르는 그 모든 순간이 영상 속에 차례대로 담겨 있습니다. 즉 영상에는 시공간의 흐름과 순서(sequence)가 깃들어 있고, 그 속에서 우리는 인과(causality)를 밝혀낼 수 있습니다.

트웰브랩스는 이 소신을 토대로 5년간 베팅을 이어왔습니다.

영상 인지 시스템

저희는 세 가지 축으로 시스템을 만들었습니다.

첫째, 인식입니다. 기계는 원본 영상을 섣불리 텍스트로 납작하게 뭉개버리는 것이 아니라, 그 자체에서 의미를 뽑아낼 수 있어야 합니다. 트웰브랩스의 임베딩 모델인 마렝고(Marengo)는 시각 정보와 소리, 음성, 화면 속 텍스트를 하나의 검색 가능한 표현으로 엮어냅니다. 영상-언어 모델인 페가수스(Pegasus)는 그렇게 만들어진 표현을 영상에 기반한 설명과 답변, 요약으로 풀어냅니다.

둘째, 기억입니다. 질문(query)을 받는 순간에야 비로소 영상을 들춰보는 모델은 그 방대한 영상 자료를 진정으로 이해한다고 할 수 없습니다. 그저 한 번 슥 훑어보고 마는 것이죠. 저희는 정반대의 아키텍처를 구축했습니다. 새 영상이 시스템에 들어오면 그 자리에서 한 번에 이해한 뒤, 사라지지 않는 표현으로 변환되어 어느 파일의 어느 장면이든 초 단위로 정확히 짚어낼 수 있는 상태로 보관됩니다. 이제 아카이브는 가만히 쌓여만 있는 창고가 아니라 기계가 읽을 수 있는 기억이 됩니다.

셋째, 추론입니다. 정작 중요한 질문일수록, 그에 대한 답은 한 장면에만 들어 있지 않습니다. 영상 속 여러 시점에 걸쳐 흩어져 있죠. 이번 시즌 동안 무엇이 달라졌는지, 고장이 나기 전에 어떤 징후가 있었는지, 한 사건에 대한 보도가 수백 번의 방송을 통해 어떻게 변해갔는지, 어떤 팀이 달라붙어도 다 보지 못할 방대한 영상 속에서 정작 중요한 순간은 어디에 있는지. 이 질문들에 답하기 위해서는 검색을 하거나 단서를 그러모으고, 여러 사건을 비교한 뒤 원본 영상에 근거한 결론을 내놓는 시스템이 필요합니다.

인식과 기억, 추론이 하나의 순환을 이루는 이 시스템을 트웰브랩스는 영상 인지 시스템(Video Cognition System)이라고 명명했습니다. 한 번 보여 주고 마는 모델 시연이 아닙니다. 영상을 비로소 연산의 대상으로 끌어올리는 아키텍처입니다.

왜 지금인가

지난 10년 동안 AI는 텍스트를 프로그래밍하듯 다루게 됐습니다.

이게 왜 중요한지는 지난 10년간 AI가 걸어온 길을 보면 분명합니다. AI는 텍스트를 코드처럼 다룰 수 있게 만들었습니다. 언어 모델이 말을 토큰 단위로 잘게 나누면서, 토큰은 에이전트가 부리는 '의미의 단위'가 되었죠. 문서는 맥락으로, 대화는 일의 흐름으로, 코드는 실행 가능한 지식이 되었습니다.

텍스트는 그 순간을 누렸습니다.

하지만 영상은 아직입니다.

기계에게 이 세상에 존재하는 영상은 여전히 암흑물질이나 다름없습니다. 아카이브, CCTV, 방송과 영화, 회의실과 공장, 병원과 경기장, 드론과 위성 등 곳곳에 잠들어 있습니다. 그 안에는 인간과 물리 세계에 관한 방대한 정보가 담겨 있습니다. 하지만 그 정보를 꺼내 보는 방법은 여전히 파일명, 폴더, 캡션, 자막, 그리고 사람의 기억이 고작입니다.

현실을 가장 생생하게 담은 기록이 정작 오늘날 AI가 활용하는 의미 계층(semantic layer)에서는 비켜나 있는 것입니다.

저희는 이걸 바꾸고자 합니다. 방대한 영상 속 모든 순간을 에이전트가 곧바로 짚어내고 검색하고 활용할 수 있게 만드는 것이 목표입니다.

영상 이해를 넘어 영상 초지능으로. 이것이 저희가 가고자 하는 길입니다.

시리즈B 라운드

이번에 유치한 1억 달러(약 1500억 원)의 투자금은 이 여정에 속도를 붙이기 위한 것입니다. 마렝고와 페가수스를 한 단계 더 끌어올리고, 세계 곳곳의 가장 중요한 영상 아카이브에 저희의 영상 인지 시스템을 도입하는 데에도 쓰일 것입니다. 영상에 기록된 현실 세계를 AI가 자라날 토양으로 만들 여러 인재를 영입하기 위해서이기도 합니다.

이번 라운드는 NEA와 네이버벤처스가 공동 주도했고, 아마존을 비롯해 래디컬벤처스, 한국투자파트너스, 인덱스벤처스, 쿼드릴캐피탈, 레드불벤처스가 참여했습니다. 상당수의 투자자들은 저희의 가설이 비현실적으로 들리던 시절부터 트웰브랩스와 함께했습니다. 그 가설이 현실에서 증명되고 있는 지금, 이들은 다시 한번 저희에게 베팅했습니다.