벤치마크에 없는 문제를 풀고 있습니다

졸업을 앞둔 연구자분들과 커피챗을 종종 합니다. 대화를 하다 보면 비슷한 질문이 반복돼요. "트웰브랩스가 뭘 하는 회사인지 알려진 게 거의 없는데요. 논문도 안 나오고, 미디어에도 안 뜨던데요?"

맞는 말입니다. 저희가 학술 출판이나 미디어 노출에 들이는 비중은 크지 않은 편이에요. B2B 영역의 회사들이 대체로 그런 편이고, 지금 저희 사업의 무게중심도 거기에 있고요.

거기에는 구조적인 이유도 있습니다. 저희가 실제로 풀고 있는 문제 중 상당 부분이 기존 학계 벤치마크 체계로는 측정하기도, 평가하기도 어려운 영역에 있기 때문이에요.

편집된 영상 너머의 세계

"영상"이라고 하면 보통 유튜브 클립을 떠올립니다. 깔끔하게 편집된, 의미 있는 컷들로 채워진 영상들이죠. 학계의 영상 벤치마크도 대부분 그래요. 영화 클립, 뮤직비디오, 뉴스 방송처럼 이미 편집이 끝난 콘텐츠가 소스 데이터입니다. 30초짜리 릴스나 쇼츠부터 2시간짜리 장편 영화까지, 최종 컷의 모든 프레임이 의도를 가지고 있어요. 거기서 장면을 이해하고 질문에 답하는 건 어려운 문제이지만, 잘 정의된 문제이기도 합니다.

그런데 30초 클립이든 2시간짜리 영화든, 최종 결과물을 만들려면 그 이전에 수십 배에서 수백 배에 달하는 원본 영상(raw footage)이 먼저 촬영됩니다. 업계에서 촬영 비율(shooting ratio)이라고 부르는 이 비율은 장르에 따라 천차만별이에요. 일반적인 디지털 제작은 10:1에서 30:1, 다큐멘터리는 20:1에서 80:1, 액션 대작은 200:1을 넘기기도 합니다. 카메라 여러 대로 며칠을 찍은 원본에서 편집자가 쓸 만한 장면을 골라내고, 자르고, 배열해서 최종 산출물을 만듭니다.

웹의 영상 분포, 그리고 그 위에 만든 학계 벤치마크가 보는 건 작은 lavender 박스뿐입니다. 산업 현실은 편집 이전의 회색 박스에 살아 있습니다.

그런데 이 원본 영상의 분포는 웹에서 수집하는 영상의 분포에 포함되지 않습니다. 학계가 벤치마크에 사용하는 영상은 이미 편집을 거친 산출물이고, 원본 영상을 처리하는 문제 자체가 어떤 벤치마크에도 들어 있지 않아요.

현실의 제약

실제 산업에서 영상을 다루는 사람들의 일상은 이렇습니다. 방송국이든 스포츠 리그든 보안 회사든, 매일 수천에서 수만 시간의 영상이 쏟아져요. 카메라가 여러 대니까요. 이 사람들에게 가장 절실한 건 "이 수만 시간 중에서 내가 봐야 할 부분이 어디인가"를 아는 일입니다.

"대형 범용 모델을 쓰면 되지 않느냐"는 질문을 받곤 하지만, 현실적으로 어렵습니다. 비용도 문제이지만, 더 근본적인 한계가 있죠. 영상을 검색하려면 임베딩(embedding)이 필요한데, 현재 범용 모델의 멀티모달 임베딩은 처리할 수 있는 영상 길이가 극히 짧습니다. 수만 시간의 영상을 짧은 단위로 직접 잘라서 API를 호출해야 한다는 뜻인데, 어떻게 자를지 결정하는 것 자체가 이미 연구 문제예요. 그리고 그 비용을 매일 감당할 수 있는 미디어 회사는 없습니다.

그래서 지금 실제 프로덕션 환경에서는 파운데이션 모델(foundation model) 이전 세대의 특화 모델(expert model)들이 돌아가고 있습니다. "이 영상에 사람이 등장한다", "이 사람은 걷고 있다" 같은 원초적인 태깅을 싸게 돌려서 저장하는 방식이죠. 정교하지는 않지만 비용 때문에 어쩔 수 없는 선택입니다.

세그멘테이션이라는 핵심 문제

저희가 집중하는 건 이 사이의 간극이에요. 특화 모델보다 훨씬 정교하면서, 범용 모델처럼 비용이 폭발하지 않는 지점. 그리고 그 핵심에 세그멘테이션(segmentation) 문제가 있습니다.

긴 영상이 주어졌을 때 어디서 잘라야 의미 있는 단위가 되는지 알아내는 일이에요. 텍스트 도메인의 RAG에서 문서를 청킹하는 것과 비슷한데, 영상은 차원이 다릅니다. 시간축 위에 계층 구조(hierarchy)가 있어요. 축구 경기 영상이라면 전체 경기가 있고, 그 안에 공격 시퀀스가 있고, 그 안에 개별 패스나 슛 같은 액션이 있죠. 이 계층 구조를 모델링해야 비로소 "3점슛이 나오는 장면을 찾아줘"와 "스루패스 장면을 찾아줘"를 구분할 수 있습니다.

학계에서는 경계 감지(boundary detection)라는 이름으로 이 문제를 다뤄왔고, 최근에는 디퓨전(diffusion) 기반 접근도 제안되며 새로운 방향이 열리고 있어요. 다만 더 흥미로운 지점은 단일 계층(layer) 프레이밍을 벗어나는 데 있습니다. 같은 영상 안에서도 경계는 여러 시간 스케일에 동시에 존재합니다. 경기 단위의 경계, 공격 시퀀스 단위의 경계, 개별 액션 단위의 경계처럼요. 이 계층들을 함께 모델링해야 비로소 프로덕션 환경의 실제 쿼리 패턴에 가까워집니다.

같은 영상이라도 쿼리가 어느 계층을 가리키느냐에 따라 응답해야 할 구간(segment) 단위가 달라집니다. "전반전 하이라이트"는 L2 단위, "코너킥 장면 모두"는 L3 단위 쿼리입니다. 학계 경계 감지는 주로 단일 계층을 다루지만, 실제 사용 환경은 여러 계층을 동시에 모델링해야 합니다.

임베딩의 효율성 문제

임베딩 모델에도 비슷한 맥락의 문제가 있습니다. 최근 VLM 기반 임베딩(VLM2Vec 등)이 주목받고 있는데, 이 방식은 영상을 인코딩할 때 위에 있는 LLM 레이어까지 전부 실행해야 합니다. 임베딩만 뽑으면 되는 상황에서도요. 아무리 하드웨어를 최적화해도 추론(inference)이 느릴 수밖에 없는 구조적 한계입니다.

수만 시간의 영상을 매일 처리해야 하는 고객 입장에서는 정확도 수치만으로 결정이 나지 않습니다. 저희 모델은 학계 벤치마크에서 SOTA에 자리 잡고 있지만, 같은 점수를 찍은 두 모델이라도 추론 비용 구조가 완전히 다를 수 있고, 그 차이가 그 규모에서 실제로 운용 가능한지를 가르거든요. 학술 평가가 잘 측정하지 않는 축이지만, 산업 현장에서는 그 축이 결정적입니다.

선택과 집중에 대해서

"영상 데이터가 많으니까 월드 모델(world model)도 할 수 있지 않느냐"는 질문도 자주 받습니다. 영상 자체의 양만으로는 대형 플랫폼이 압도적으로 더 많고, 그들은 수익 압박 없이 장기 연구에 투자할 여유도 있어요. 스타트업에서는 "할 거냐 말 거냐"보다 "어떤 순서로 할 거냐"가 더 절박한 질문이에요. 월드 모델도 결국 이어서 풀어가야 할 영역이지만, 지금 가장 잘하고 있는 것에 먼저 깊이를 더하기로 한 거죠.

스타트업이 할 수 있는 건 선택과 집중입니다. 모든 걸 다 하는 건 빅테크의 영역이고, 저희는 영상 파이프라인(pipeline) 안에서 대체 불가능한 한 자리를 차지하는 게 목표예요. 지금 잘하는 것에서 해자(moat)를 깊게 파는 단계에 있습니다.

이 괴리가 곧 기회다

한 줄로 정리하면 이렇습니다. 벤치마크는 평가를 위해 이미 편집된 영상을 주지만, 실제 사용자는 원본 영상에서 필요한 부분만 남기는 편집을 직접 해야 합니다. 저희가 차지하려는 자리는 바로 그 사이예요.

학계에서 벤치마크로 측정되는 능력과, 산업에서 실제로 돈을 내고 사는 능력 사이의 괴리. 영상 도메인에서는 이 괴리가 유독 심해요. 언어 도메인에서는 학계와 산업이 비교적 같은 방향을 보고 있지만, 영상에서는 벤치마크에 나오지 않는 것들이 많습니다. 써봐야 아는 것들이요.

저희가 제품으로 답을 만들어 가는 데 더 많은 무게를 싣는 이유이기도 합니다. 이 괴리 자체가 저희의 해자이니까요.

실제로 어떤 문제를 어떻게 풀고 있는지 더 보고 싶다면 → [Dan의 인터뷰]

팀과 여정을 함께할 분들을 찾고 있습니다 → [TwelveLabs Careers]

졸업을 앞둔 연구자분들과 커피챗을 종종 합니다. 대화를 하다 보면 비슷한 질문이 반복돼요. "트웰브랩스가 뭘 하는 회사인지 알려진 게 거의 없는데요. 논문도 안 나오고, 미디어에도 안 뜨던데요?"

맞는 말입니다. 저희가 학술 출판이나 미디어 노출에 들이는 비중은 크지 않은 편이에요. B2B 영역의 회사들이 대체로 그런 편이고, 지금 저희 사업의 무게중심도 거기에 있고요.

거기에는 구조적인 이유도 있습니다. 저희가 실제로 풀고 있는 문제 중 상당 부분이 기존 학계 벤치마크 체계로는 측정하기도, 평가하기도 어려운 영역에 있기 때문이에요.

편집된 영상 너머의 세계

"영상"이라고 하면 보통 유튜브 클립을 떠올립니다. 깔끔하게 편집된, 의미 있는 컷들로 채워진 영상들이죠. 학계의 영상 벤치마크도 대부분 그래요. 영화 클립, 뮤직비디오, 뉴스 방송처럼 이미 편집이 끝난 콘텐츠가 소스 데이터입니다. 30초짜리 릴스나 쇼츠부터 2시간짜리 장편 영화까지, 최종 컷의 모든 프레임이 의도를 가지고 있어요. 거기서 장면을 이해하고 질문에 답하는 건 어려운 문제이지만, 잘 정의된 문제이기도 합니다.

그런데 30초 클립이든 2시간짜리 영화든, 최종 결과물을 만들려면 그 이전에 수십 배에서 수백 배에 달하는 원본 영상(raw footage)이 먼저 촬영됩니다. 업계에서 촬영 비율(shooting ratio)이라고 부르는 이 비율은 장르에 따라 천차만별이에요. 일반적인 디지털 제작은 10:1에서 30:1, 다큐멘터리는 20:1에서 80:1, 액션 대작은 200:1을 넘기기도 합니다. 카메라 여러 대로 며칠을 찍은 원본에서 편집자가 쓸 만한 장면을 골라내고, 자르고, 배열해서 최종 산출물을 만듭니다.

웹의 영상 분포, 그리고 그 위에 만든 학계 벤치마크가 보는 건 작은 lavender 박스뿐입니다. 산업 현실은 편집 이전의 회색 박스에 살아 있습니다.

그런데 이 원본 영상의 분포는 웹에서 수집하는 영상의 분포에 포함되지 않습니다. 학계가 벤치마크에 사용하는 영상은 이미 편집을 거친 산출물이고, 원본 영상을 처리하는 문제 자체가 어떤 벤치마크에도 들어 있지 않아요.

현실의 제약

실제 산업에서 영상을 다루는 사람들의 일상은 이렇습니다. 방송국이든 스포츠 리그든 보안 회사든, 매일 수천에서 수만 시간의 영상이 쏟아져요. 카메라가 여러 대니까요. 이 사람들에게 가장 절실한 건 "이 수만 시간 중에서 내가 봐야 할 부분이 어디인가"를 아는 일입니다.

"대형 범용 모델을 쓰면 되지 않느냐"는 질문을 받곤 하지만, 현실적으로 어렵습니다. 비용도 문제이지만, 더 근본적인 한계가 있죠. 영상을 검색하려면 임베딩(embedding)이 필요한데, 현재 범용 모델의 멀티모달 임베딩은 처리할 수 있는 영상 길이가 극히 짧습니다. 수만 시간의 영상을 짧은 단위로 직접 잘라서 API를 호출해야 한다는 뜻인데, 어떻게 자를지 결정하는 것 자체가 이미 연구 문제예요. 그리고 그 비용을 매일 감당할 수 있는 미디어 회사는 없습니다.

그래서 지금 실제 프로덕션 환경에서는 파운데이션 모델(foundation model) 이전 세대의 특화 모델(expert model)들이 돌아가고 있습니다. "이 영상에 사람이 등장한다", "이 사람은 걷고 있다" 같은 원초적인 태깅을 싸게 돌려서 저장하는 방식이죠. 정교하지는 않지만 비용 때문에 어쩔 수 없는 선택입니다.

세그멘테이션이라는 핵심 문제

저희가 집중하는 건 이 사이의 간극이에요. 특화 모델보다 훨씬 정교하면서, 범용 모델처럼 비용이 폭발하지 않는 지점. 그리고 그 핵심에 세그멘테이션(segmentation) 문제가 있습니다.

긴 영상이 주어졌을 때 어디서 잘라야 의미 있는 단위가 되는지 알아내는 일이에요. 텍스트 도메인의 RAG에서 문서를 청킹하는 것과 비슷한데, 영상은 차원이 다릅니다. 시간축 위에 계층 구조(hierarchy)가 있어요. 축구 경기 영상이라면 전체 경기가 있고, 그 안에 공격 시퀀스가 있고, 그 안에 개별 패스나 슛 같은 액션이 있죠. 이 계층 구조를 모델링해야 비로소 "3점슛이 나오는 장면을 찾아줘"와 "스루패스 장면을 찾아줘"를 구분할 수 있습니다.

학계에서는 경계 감지(boundary detection)라는 이름으로 이 문제를 다뤄왔고, 최근에는 디퓨전(diffusion) 기반 접근도 제안되며 새로운 방향이 열리고 있어요. 다만 더 흥미로운 지점은 단일 계층(layer) 프레이밍을 벗어나는 데 있습니다. 같은 영상 안에서도 경계는 여러 시간 스케일에 동시에 존재합니다. 경기 단위의 경계, 공격 시퀀스 단위의 경계, 개별 액션 단위의 경계처럼요. 이 계층들을 함께 모델링해야 비로소 프로덕션 환경의 실제 쿼리 패턴에 가까워집니다.

같은 영상이라도 쿼리가 어느 계층을 가리키느냐에 따라 응답해야 할 구간(segment) 단위가 달라집니다. "전반전 하이라이트"는 L2 단위, "코너킥 장면 모두"는 L3 단위 쿼리입니다. 학계 경계 감지는 주로 단일 계층을 다루지만, 실제 사용 환경은 여러 계층을 동시에 모델링해야 합니다.

임베딩의 효율성 문제

임베딩 모델에도 비슷한 맥락의 문제가 있습니다. 최근 VLM 기반 임베딩(VLM2Vec 등)이 주목받고 있는데, 이 방식은 영상을 인코딩할 때 위에 있는 LLM 레이어까지 전부 실행해야 합니다. 임베딩만 뽑으면 되는 상황에서도요. 아무리 하드웨어를 최적화해도 추론(inference)이 느릴 수밖에 없는 구조적 한계입니다.

수만 시간의 영상을 매일 처리해야 하는 고객 입장에서는 정확도 수치만으로 결정이 나지 않습니다. 저희 모델은 학계 벤치마크에서 SOTA에 자리 잡고 있지만, 같은 점수를 찍은 두 모델이라도 추론 비용 구조가 완전히 다를 수 있고, 그 차이가 그 규모에서 실제로 운용 가능한지를 가르거든요. 학술 평가가 잘 측정하지 않는 축이지만, 산업 현장에서는 그 축이 결정적입니다.

선택과 집중에 대해서

"영상 데이터가 많으니까 월드 모델(world model)도 할 수 있지 않느냐"는 질문도 자주 받습니다. 영상 자체의 양만으로는 대형 플랫폼이 압도적으로 더 많고, 그들은 수익 압박 없이 장기 연구에 투자할 여유도 있어요. 스타트업에서는 "할 거냐 말 거냐"보다 "어떤 순서로 할 거냐"가 더 절박한 질문이에요. 월드 모델도 결국 이어서 풀어가야 할 영역이지만, 지금 가장 잘하고 있는 것에 먼저 깊이를 더하기로 한 거죠.

스타트업이 할 수 있는 건 선택과 집중입니다. 모든 걸 다 하는 건 빅테크의 영역이고, 저희는 영상 파이프라인(pipeline) 안에서 대체 불가능한 한 자리를 차지하는 게 목표예요. 지금 잘하는 것에서 해자(moat)를 깊게 파는 단계에 있습니다.

이 괴리가 곧 기회다

한 줄로 정리하면 이렇습니다. 벤치마크는 평가를 위해 이미 편집된 영상을 주지만, 실제 사용자는 원본 영상에서 필요한 부분만 남기는 편집을 직접 해야 합니다. 저희가 차지하려는 자리는 바로 그 사이예요.

학계에서 벤치마크로 측정되는 능력과, 산업에서 실제로 돈을 내고 사는 능력 사이의 괴리. 영상 도메인에서는 이 괴리가 유독 심해요. 언어 도메인에서는 학계와 산업이 비교적 같은 방향을 보고 있지만, 영상에서는 벤치마크에 나오지 않는 것들이 많습니다. 써봐야 아는 것들이요.

저희가 제품으로 답을 만들어 가는 데 더 많은 무게를 싣는 이유이기도 합니다. 이 괴리 자체가 저희의 해자이니까요.

실제로 어떤 문제를 어떻게 풀고 있는지 더 보고 싶다면 → [Dan의 인터뷰]

팀과 여정을 함께할 분들을 찾고 있습니다 → [TwelveLabs Careers]

졸업을 앞둔 연구자분들과 커피챗을 종종 합니다. 대화를 하다 보면 비슷한 질문이 반복돼요. "트웰브랩스가 뭘 하는 회사인지 알려진 게 거의 없는데요. 논문도 안 나오고, 미디어에도 안 뜨던데요?"

맞는 말입니다. 저희가 학술 출판이나 미디어 노출에 들이는 비중은 크지 않은 편이에요. B2B 영역의 회사들이 대체로 그런 편이고, 지금 저희 사업의 무게중심도 거기에 있고요.

거기에는 구조적인 이유도 있습니다. 저희가 실제로 풀고 있는 문제 중 상당 부분이 기존 학계 벤치마크 체계로는 측정하기도, 평가하기도 어려운 영역에 있기 때문이에요.

편집된 영상 너머의 세계

"영상"이라고 하면 보통 유튜브 클립을 떠올립니다. 깔끔하게 편집된, 의미 있는 컷들로 채워진 영상들이죠. 학계의 영상 벤치마크도 대부분 그래요. 영화 클립, 뮤직비디오, 뉴스 방송처럼 이미 편집이 끝난 콘텐츠가 소스 데이터입니다. 30초짜리 릴스나 쇼츠부터 2시간짜리 장편 영화까지, 최종 컷의 모든 프레임이 의도를 가지고 있어요. 거기서 장면을 이해하고 질문에 답하는 건 어려운 문제이지만, 잘 정의된 문제이기도 합니다.

그런데 30초 클립이든 2시간짜리 영화든, 최종 결과물을 만들려면 그 이전에 수십 배에서 수백 배에 달하는 원본 영상(raw footage)이 먼저 촬영됩니다. 업계에서 촬영 비율(shooting ratio)이라고 부르는 이 비율은 장르에 따라 천차만별이에요. 일반적인 디지털 제작은 10:1에서 30:1, 다큐멘터리는 20:1에서 80:1, 액션 대작은 200:1을 넘기기도 합니다. 카메라 여러 대로 며칠을 찍은 원본에서 편집자가 쓸 만한 장면을 골라내고, 자르고, 배열해서 최종 산출물을 만듭니다.

웹의 영상 분포, 그리고 그 위에 만든 학계 벤치마크가 보는 건 작은 lavender 박스뿐입니다. 산업 현실은 편집 이전의 회색 박스에 살아 있습니다.

그런데 이 원본 영상의 분포는 웹에서 수집하는 영상의 분포에 포함되지 않습니다. 학계가 벤치마크에 사용하는 영상은 이미 편집을 거친 산출물이고, 원본 영상을 처리하는 문제 자체가 어떤 벤치마크에도 들어 있지 않아요.

현실의 제약

실제 산업에서 영상을 다루는 사람들의 일상은 이렇습니다. 방송국이든 스포츠 리그든 보안 회사든, 매일 수천에서 수만 시간의 영상이 쏟아져요. 카메라가 여러 대니까요. 이 사람들에게 가장 절실한 건 "이 수만 시간 중에서 내가 봐야 할 부분이 어디인가"를 아는 일입니다.

"대형 범용 모델을 쓰면 되지 않느냐"는 질문을 받곤 하지만, 현실적으로 어렵습니다. 비용도 문제이지만, 더 근본적인 한계가 있죠. 영상을 검색하려면 임베딩(embedding)이 필요한데, 현재 범용 모델의 멀티모달 임베딩은 처리할 수 있는 영상 길이가 극히 짧습니다. 수만 시간의 영상을 짧은 단위로 직접 잘라서 API를 호출해야 한다는 뜻인데, 어떻게 자를지 결정하는 것 자체가 이미 연구 문제예요. 그리고 그 비용을 매일 감당할 수 있는 미디어 회사는 없습니다.

그래서 지금 실제 프로덕션 환경에서는 파운데이션 모델(foundation model) 이전 세대의 특화 모델(expert model)들이 돌아가고 있습니다. "이 영상에 사람이 등장한다", "이 사람은 걷고 있다" 같은 원초적인 태깅을 싸게 돌려서 저장하는 방식이죠. 정교하지는 않지만 비용 때문에 어쩔 수 없는 선택입니다.

세그멘테이션이라는 핵심 문제

저희가 집중하는 건 이 사이의 간극이에요. 특화 모델보다 훨씬 정교하면서, 범용 모델처럼 비용이 폭발하지 않는 지점. 그리고 그 핵심에 세그멘테이션(segmentation) 문제가 있습니다.

긴 영상이 주어졌을 때 어디서 잘라야 의미 있는 단위가 되는지 알아내는 일이에요. 텍스트 도메인의 RAG에서 문서를 청킹하는 것과 비슷한데, 영상은 차원이 다릅니다. 시간축 위에 계층 구조(hierarchy)가 있어요. 축구 경기 영상이라면 전체 경기가 있고, 그 안에 공격 시퀀스가 있고, 그 안에 개별 패스나 슛 같은 액션이 있죠. 이 계층 구조를 모델링해야 비로소 "3점슛이 나오는 장면을 찾아줘"와 "스루패스 장면을 찾아줘"를 구분할 수 있습니다.

학계에서는 경계 감지(boundary detection)라는 이름으로 이 문제를 다뤄왔고, 최근에는 디퓨전(diffusion) 기반 접근도 제안되며 새로운 방향이 열리고 있어요. 다만 더 흥미로운 지점은 단일 계층(layer) 프레이밍을 벗어나는 데 있습니다. 같은 영상 안에서도 경계는 여러 시간 스케일에 동시에 존재합니다. 경기 단위의 경계, 공격 시퀀스 단위의 경계, 개별 액션 단위의 경계처럼요. 이 계층들을 함께 모델링해야 비로소 프로덕션 환경의 실제 쿼리 패턴에 가까워집니다.

같은 영상이라도 쿼리가 어느 계층을 가리키느냐에 따라 응답해야 할 구간(segment) 단위가 달라집니다. "전반전 하이라이트"는 L2 단위, "코너킥 장면 모두"는 L3 단위 쿼리입니다. 학계 경계 감지는 주로 단일 계층을 다루지만, 실제 사용 환경은 여러 계층을 동시에 모델링해야 합니다.

저희가 제품으로 답을 만들어 가는 데 더 많은 무게를 싣는 이유이기도 합니다. 이 괴리 자체가 저희의 해자이니까요.

실제로 어떤 문제를 어떻게 풀고 있는지 더 보고 싶다면 → [Dan의 인터뷰]

팀과 여정을 함께할 분들을 찾고 있습니다 → [TwelveLabs Careers]

벤치마크에 없는 문제를 풀고 있습니다

Related articles