제품
가치 있는 모든 문제가 벤치마크에 부합하는 것은 아닙니다.

댄 김 (Dan Kim)
학술적 벤치마크는 편집된 영상을 기준으로 테스트합니다. 하지만 실제 제작 현장에는 세분화하고 검색하며 대규모로 분석해야 하는 정제되지 않은 미편집 원본 영상이 가득합니다. 트웰브랩스는 바로 그 간극을 메우는 기술을 디자인합니다.
학술적 벤치마크는 편집된 영상을 기준으로 테스트합니다. 하지만 실제 제작 현장에는 세분화하고 검색하며 대규모로 분석해야 하는 정제되지 않은 미편집 원본 영상이 가득합니다. 트웰브랩스는 바로 그 간극을 메우는 기술을 디자인합니다.

목차
뉴스레터 구독하기
뉴스레터 구독하기
영상 이해 분야의 최신 기술 업데이트, 튜토리얼 및 인사이트를 받아보세요.
영상 이해 분야의 최신 기술 업데이트, 튜토리얼 및 인사이트를 받아보세요.
AI로 영상을 검색하고, 분석하고, 탐색하세요.
2026. 5. 12.
5분
링크 복사하기
저는 졸업을 앞둔 연구원들과 종종 커피를 마시며 이야기를 나눕니다. 대화는 대개 다음과 같은 질문으로 돌아옵니다. "TwelveLabs가 실제로 무엇을 하는지에 대해 대중적으로 알려진 정보가 거의 없네요. 관련 논문도 없고, 미디어 보도도 없고요."
충분히 가질 수 있는 질문입니다. 학술 연구 발표나 미디어 노출은 저희가 핵심적으로 에너지를 쏟는 분야가 아닙니다. B2B 기업의 경우 대개 그러하며, 현재 저희의 무게 중심 역시 B2B에 있습니다.
여기에는 구조적인 이유도 있습니다. 저희가 해결하고자 하는 수많은 실제 문제들은 학술적인 벤치마크가 측정하도록 설계된 기준들과 명확하게 일치하지 않기 때문입니다.
편집된 영상을 넘어선 세상
대부분의 사람들은 "비디오"라고 하면 깔끔하게 편집되고 모든 컷에 의도가 담긴 YouTube 클립을 떠올립니다. 학계의 비디오 벤치마크도 같은 방식으로 작동합니다. 영화 클립, 뮤직비디오, 뉴스 방송 등 이미 편집된 콘텐츠를 소스 데이터로 사용합니다. 30초짜리 릴스나 쇼츠부터 2시간짜리 장편 영화까지, 최종 컷의 모든 프레임에는 제작자의 의도가 담겨 있습니다. 이러한 장면을 이해하고 이에 대한 질문에 답하는 것은 어렵지만, 명확하게 정의된 문제입니다.
하지만 30초짜리 클립이든 2시간짜리 영화든, 이를 만들기 위해서는 수십 배에서 수백 배에 달하는 원본(raw) 푸티지 촬영이 먼저 이루어집니다. 업계에서는 이를 '촬영 비율(shooting ratio)'이라고 부릅니다. 이는 제작 환경에 따라 크게 다릅니다. 일반적인 디지털 제작은 10:1에서 30:1, 다큐멘터리는 20:1에서 80:1, 대작 액션 영화의 경우 200:1을 넘는 경우도 있습니다. 편집자들은 며칠 분량의 멀티캠 푸티지를 샅샅이 뒤져 쓸 만한 부분을 골라내고, 자르고, 배열하여 최종 결과물을 만들어냅니다.

웹상의 비디오 배포와 이를 기반으로 구축된 학술 벤치마크는 저 작은 라벤더색 상자만 봅니다. 하지만 영상 제작의 현실은 편집 전 단계인 회색 상자에 자리 잡고 있습니다.
그리고 이러한 원본 푸티지는 웹에 배포되는 일반적인 비디오 범주에 속하지 않습니다. 학술 벤치마크가 사용하는 푸티지는 이미 편집이 완료된 결과물이며, 원본 소스 자체를 처리해야 하는 문제는 그 어떤 벤치마크에서도 다루지 않습니다.
실제 현장의 모습
방송사, 스포츠 리그, 보안 기업과 같이 비디오를 전문적으로 다루는 기업들은 매일 수천에서 수만 시간의 푸티지를 생성합니다. 매일 여러 대의 카메라가 돌아갑니다. 이들에게 가장 필요한 것은 그 수만 시간의 영상 중 '실제로 확인해야 할 부분이 어디인가'를 아는 것입니다.
"대규모 파운데이션 모델을 사용하면 되지 않나요?" 현실적으로는 불가능합니다. 비용 문제도 있지만, 더 근본적인 문제는 구조에 있습니다. 비디오 검색에는 임베딩이 필요하지만, 현재의 범용 멀티모달 임베딩은 매우 짧은 클립 길이만 처리할 수 있습니다. 수만 시간의 영상을 임베딩하려면 모든 영상을 짧은 조각으로 쪼개고 각 조각마다 API를 호출해야 하는데, 어떻게 쪼갤지 결정하는 것 자체가 하나의 연구 과제입니다. 설령 그 문제를 해결한다 하더라도, 매일 발생하는 엄청난 비용을 감당할 수 있는 미디어 기업은 없습니다.
따라서 오늘날 실제 서비스 환경에서 실행되는 것은 이전 세대의 전문가 모델(expert models)입니다. 대규모로 저장된 "이 클립에 사람이 있음" 또는 "이 사람이 걷고 있음"과 같은 저렴하고 원초적인 태깅 방식입니다. 정교하지는 않지만, 경제적으로 실행 가능한 유일한 대안입니다.
핵심 문제로서의 세그멘테이션 (Segmentation)
저희는 바로 이 두 세계 사이의 격차에 집중합니다. 전문가 모델보다 훨씬 더 뛰어나면서도, 범용 모델처럼 비용이 폭발하지 않는 솔루션입니다. 그리고 그 중심에는 세그멘테이션이 있습니다.
긴 비디오가 주어졌을 때, 유의미한 단위로 나누기 위해 어디를 잘라야 할까요? 이는 텍스트 영역의 RAG에서 문서를 청킹(chunking)하는 것과 개념적으로 유사하지만, 비디오는 훨씬 더 복잡합니다. 비디오 콘텐츠는 시간 축을 따라 자연스러운 계층 구조(hierarchy)를 가집니다. 축구 경기를 예로 들면 전체 경기 회차가 있고, 그 안에 공격 시퀀스가 있으며, 다시 그 안에 개별 패스나 슛이 있습니다. "3점슛 찾기"와 "스루패스 찾기"를 구분하려면 먼저 이 계층 구조를 모델링해야 합니다.
학계에서는 이를 경계선 감지(boundary detection)라는 이름으로 연구해 왔으며, 최근에는 디퓨전 기반 접근 방식이 새로운 방향을 제시했습니다. 하지만 더 흥미로운 접근은 단일 레이어 프레임워크를 벗어나는 것입니다. 단 하나의 비디오 안에서도 경계선은 여러 시간 규모(time scale)로 동시에 존재합니다. 전체 경기 경계선, 볼 점유 경계선, 개별 액션 경계선 등이 그렇습니다. 이러한 레이어들을 함께 공동으로 모델링하는 것이 실제 제작 팀이 푸티지를 검색하는 방식에 훨씬 더 가깝습니다.

동일한 비디오 내에서도 반환해야 하는 세그먼트 단위는 쿼리가 어떤 레이어를 타겟으로 하는지에 따라 달라집니다. "전반전 하이라이트"는 L2에 속하고, "모든 코너킥"은 L3에 속합니다. 학계의 경계선 감지는 대개 한 번에 하나의 레이어에만 초점을 맞추지만, 실제 시나리오에서는 여러 레이어를 동시에 모델링해야 합니다.
임베딩의 효율성 문제
임베딩 모델도 비슷한 양상을 보입니다. VLM 기반 임베딩(VLM2Vec 등)이 최근 많은 주목을 받고 있습니다. 문제는 이 접근 방식이 임베딩만 필요할 때조차 비주얼 인코더 위에 전체 LLM 스택을 구동한다는 점입니다. 하드웨어를아무리 최적화하더라도 구조적으로 추론 속도가 느릴 수밖에 없습니다.
매일 수만 시간의 비디오를 처리해야 하는 고객에게는 정확도 지표만으로는 충분하지 않습니다. TwelveLabs의 자체 모델들은 학계 벤치마크에서 SOTA(최고 수준)를 기록하고 있지만, 동일한 점수를 기록하는 두 모델이라도 추론 비용 구조는 완전히 다를 수 있습니다. 실제 서비스 환경에서는 이 격차가 모델을 대규모로 배포할 수 있는지 여부를 결정합니다. 학술적인 평가는 이 측면을 포착하지 못하는 경향이 있지만, 실무에서는 이것이 결정적인 요인입니다.
선택과 집중, 그리고 트레이드오프
"그렇게 많은 비디오 데이터를 가지고 있다면 월드 모델(world models) 개발도 가능하지 않나요?"라는 질문을 자주 받습니다. 단순히 데이터의 절대적인 양만 놓고 보면 대형 플랫폼들이 훨씬 더 많이 보유하고 있으며, 그들은 매출 압박 없이 장기적인 연구에 자금을 지원할 수 있습니다. 스타트업에게 더 중요한 질문은 무언가를 '할 수 있느냐'가 아니라 '어떤 순서로 할 것인가'입니다. 월드 모델 역시 저희가 결국 도달하게 될 여정의 일부입니다. 다만 저희는 우리가 이미 가장 잘하는 분야를 먼저 더 깊게 파고들기로 결정했습니다.
스타트업의 가장 강력한 무기는 '집중'입니다. 모든 것을 다 하는 것은 빅테크의 영역입니다. 우리의 목표는 비디오 처리 파이프라인에서 대체 불가능한 위치를 차지하는 것입니다. 우리는 이미 잘하고 있는 영역에서 해자를 더욱 깊게 파는 단계에 집중하고 있습니다.
이 격차가 곧 기회입니다
격차는 단순하게 설명할 수 있습니다. 벤치마크는 이미 편집된 비디오로 모델을 평가하지만, 실제 사용자들은 원본 푸티지에서 중요한 부분만 골라내며 직접 편집해야 합니다. 우리가 차지하고자 하는 자리가 바로 이 공간에 있습니다.
이것이 바로 학계가 벤치마크로 측정하는 것과 산업계가 실제로 비용을 지불하는 것 사이의 격차입니다. 비디오 영역에서 이 격차는 유독 넓습니다. 언어 영역의 경우, 학계와 업계가 대략 비슷한 방향을 바라보고 있습니다. 반면 비디오 영역에서는 직접 부딪혀보아야만 알 수 있는, 벤치마크에는 전혀 나타나지 않는 수많은 실무적 과제들이 존재합니다.
이것이 바로 저희가 실제 제품을 출시하고 배포하는 데 수많은 역량을 집중하는 이유입니다. 이 격차 자체가 저희에게는 강력한 해자입니다.
저는 졸업을 앞둔 연구원들과 종종 커피를 마시며 이야기를 나눕니다. 대화는 대개 다음과 같은 질문으로 돌아옵니다. "TwelveLabs가 실제로 무엇을 하는지에 대해 대중적으로 알려진 정보가 거의 없네요. 관련 논문도 없고, 미디어 보도도 없고요."
충분히 가질 수 있는 질문입니다. 학술 연구 발표나 미디어 노출은 저희가 핵심적으로 에너지를 쏟는 분야가 아닙니다. B2B 기업의 경우 대개 그러하며, 현재 저희의 무게 중심 역시 B2B에 있습니다.
여기에는 구조적인 이유도 있습니다. 저희가 해결하고자 하는 수많은 실제 문제들은 학술적인 벤치마크가 측정하도록 설계된 기준들과 명확하게 일치하지 않기 때문입니다.
편집된 영상을 넘어선 세상
대부분의 사람들은 "비디오"라고 하면 깔끔하게 편집되고 모든 컷에 의도가 담긴 YouTube 클립을 떠올립니다. 학계의 비디오 벤치마크도 같은 방식으로 작동합니다. 영화 클립, 뮤직비디오, 뉴스 방송 등 이미 편집된 콘텐츠를 소스 데이터로 사용합니다. 30초짜리 릴스나 쇼츠부터 2시간짜리 장편 영화까지, 최종 컷의 모든 프레임에는 제작자의 의도가 담겨 있습니다. 이러한 장면을 이해하고 이에 대한 질문에 답하는 것은 어렵지만, 명확하게 정의된 문제입니다.
하지만 30초짜리 클립이든 2시간짜리 영화든, 이를 만들기 위해서는 수십 배에서 수백 배에 달하는 원본(raw) 푸티지 촬영이 먼저 이루어집니다. 업계에서는 이를 '촬영 비율(shooting ratio)'이라고 부릅니다. 이는 제작 환경에 따라 크게 다릅니다. 일반적인 디지털 제작은 10:1에서 30:1, 다큐멘터리는 20:1에서 80:1, 대작 액션 영화의 경우 200:1을 넘는 경우도 있습니다. 편집자들은 며칠 분량의 멀티캠 푸티지를 샅샅이 뒤져 쓸 만한 부분을 골라내고, 자르고, 배열하여 최종 결과물을 만들어냅니다.

웹상의 비디오 배포와 이를 기반으로 구축된 학술 벤치마크는 저 작은 라벤더색 상자만 봅니다. 하지만 영상 제작의 현실은 편집 전 단계인 회색 상자에 자리 잡고 있습니다.
그리고 이러한 원본 푸티지는 웹에 배포되는 일반적인 비디오 범주에 속하지 않습니다. 학술 벤치마크가 사용하는 푸티지는 이미 편집이 완료된 결과물이며, 원본 소스 자체를 처리해야 하는 문제는 그 어떤 벤치마크에서도 다루지 않습니다.
실제 현장의 모습
방송사, 스포츠 리그, 보안 기업과 같이 비디오를 전문적으로 다루는 기업들은 매일 수천에서 수만 시간의 푸티지를 생성합니다. 매일 여러 대의 카메라가 돌아갑니다. 이들에게 가장 필요한 것은 그 수만 시간의 영상 중 '실제로 확인해야 할 부분이 어디인가'를 아는 것입니다.
"대규모 파운데이션 모델을 사용하면 되지 않나요?" 현실적으로는 불가능합니다. 비용 문제도 있지만, 더 근본적인 문제는 구조에 있습니다. 비디오 검색에는 임베딩이 필요하지만, 현재의 범용 멀티모달 임베딩은 매우 짧은 클립 길이만 처리할 수 있습니다. 수만 시간의 영상을 임베딩하려면 모든 영상을 짧은 조각으로 쪼개고 각 조각마다 API를 호출해야 하는데, 어떻게 쪼갤지 결정하는 것 자체가 하나의 연구 과제입니다. 설령 그 문제를 해결한다 하더라도, 매일 발생하는 엄청난 비용을 감당할 수 있는 미디어 기업은 없습니다.
따라서 오늘날 실제 서비스 환경에서 실행되는 것은 이전 세대의 전문가 모델(expert models)입니다. 대규모로 저장된 "이 클립에 사람이 있음" 또는 "이 사람이 걷고 있음"과 같은 저렴하고 원초적인 태깅 방식입니다. 정교하지는 않지만, 경제적으로 실행 가능한 유일한 대안입니다.
핵심 문제로서의 세그멘테이션 (Segmentation)
저희는 바로 이 두 세계 사이의 격차에 집중합니다. 전문가 모델보다 훨씬 더 뛰어나면서도, 범용 모델처럼 비용이 폭발하지 않는 솔루션입니다. 그리고 그 중심에는 세그멘테이션이 있습니다.
긴 비디오가 주어졌을 때, 유의미한 단위로 나누기 위해 어디를 잘라야 할까요? 이는 텍스트 영역의 RAG에서 문서를 청킹(chunking)하는 것과 개념적으로 유사하지만, 비디오는 훨씬 더 복잡합니다. 비디오 콘텐츠는 시간 축을 따라 자연스러운 계층 구조(hierarchy)를 가집니다. 축구 경기를 예로 들면 전체 경기 회차가 있고, 그 안에 공격 시퀀스가 있으며, 다시 그 안에 개별 패스나 슛이 있습니다. "3점슛 찾기"와 "스루패스 찾기"를 구분하려면 먼저 이 계층 구조를 모델링해야 합니다.
학계에서는 이를 경계선 감지(boundary detection)라는 이름으로 연구해 왔으며, 최근에는 디퓨전 기반 접근 방식이 새로운 방향을 제시했습니다. 하지만 더 흥미로운 접근은 단일 레이어 프레임워크를 벗어나는 것입니다. 단 하나의 비디오 안에서도 경계선은 여러 시간 규모(time scale)로 동시에 존재합니다. 전체 경기 경계선, 볼 점유 경계선, 개별 액션 경계선 등이 그렇습니다. 이러한 레이어들을 함께 공동으로 모델링하는 것이 실제 제작 팀이 푸티지를 검색하는 방식에 훨씬 더 가깝습니다.

동일한 비디오 내에서도 반환해야 하는 세그먼트 단위는 쿼리가 어떤 레이어를 타겟으로 하는지에 따라 달라집니다. "전반전 하이라이트"는 L2에 속하고, "모든 코너킥"은 L3에 속합니다. 학계의 경계선 감지는 대개 한 번에 하나의 레이어에만 초점을 맞추지만, 실제 시나리오에서는 여러 레이어를 동시에 모델링해야 합니다.
임베딩의 효율성 문제
임베딩 모델도 비슷한 양상을 보입니다. VLM 기반 임베딩(VLM2Vec 등)이 최근 많은 주목을 받고 있습니다. 문제는 이 접근 방식이 임베딩만 필요할 때조차 비주얼 인코더 위에 전체 LLM 스택을 구동한다는 점입니다. 하드웨어를아무리 최적화하더라도 구조적으로 추론 속도가 느릴 수밖에 없습니다.
매일 수만 시간의 비디오를 처리해야 하는 고객에게는 정확도 지표만으로는 충분하지 않습니다. TwelveLabs의 자체 모델들은 학계 벤치마크에서 SOTA(최고 수준)를 기록하고 있지만, 동일한 점수를 기록하는 두 모델이라도 추론 비용 구조는 완전히 다를 수 있습니다. 실제 서비스 환경에서는 이 격차가 모델을 대규모로 배포할 수 있는지 여부를 결정합니다. 학술적인 평가는 이 측면을 포착하지 못하는 경향이 있지만, 실무에서는 이것이 결정적인 요인입니다.
선택과 집중, 그리고 트레이드오프
"그렇게 많은 비디오 데이터를 가지고 있다면 월드 모델(world models) 개발도 가능하지 않나요?"라는 질문을 자주 받습니다. 단순히 데이터의 절대적인 양만 놓고 보면 대형 플랫폼들이 훨씬 더 많이 보유하고 있으며, 그들은 매출 압박 없이 장기적인 연구에 자금을 지원할 수 있습니다. 스타트업에게 더 중요한 질문은 무언가를 '할 수 있느냐'가 아니라 '어떤 순서로 할 것인가'입니다. 월드 모델 역시 저희가 결국 도달하게 될 여정의 일부입니다. 다만 저희는 우리가 이미 가장 잘하는 분야를 먼저 더 깊게 파고들기로 결정했습니다.
스타트업의 가장 강력한 무기는 '집중'입니다. 모든 것을 다 하는 것은 빅테크의 영역입니다. 우리의 목표는 비디오 처리 파이프라인에서 대체 불가능한 위치를 차지하는 것입니다. 우리는 이미 잘하고 있는 영역에서 해자를 더욱 깊게 파는 단계에 집중하고 있습니다.
이 격차가 곧 기회입니다
격차는 단순하게 설명할 수 있습니다. 벤치마크는 이미 편집된 비디오로 모델을 평가하지만, 실제 사용자들은 원본 푸티지에서 중요한 부분만 골라내며 직접 편집해야 합니다. 우리가 차지하고자 하는 자리가 바로 이 공간에 있습니다.
이것이 바로 학계가 벤치마크로 측정하는 것과 산업계가 실제로 비용을 지불하는 것 사이의 격차입니다. 비디오 영역에서 이 격차는 유독 넓습니다. 언어 영역의 경우, 학계와 업계가 대략 비슷한 방향을 바라보고 있습니다. 반면 비디오 영역에서는 직접 부딪혀보아야만 알 수 있는, 벤치마크에는 전혀 나타나지 않는 수많은 실무적 과제들이 존재합니다.
이것이 바로 저희가 실제 제품을 출시하고 배포하는 데 수많은 역량을 집중하는 이유입니다. 이 격차 자체가 저희에게는 강력한 해자입니다.




