트웰브랩스

의미의 경계를 찾아서: 영상을 이해하는 임베딩을 만드는 사람

Dan Kim, Sue Kim

임베딩은 손실 압축이다. 무엇을 얼마나 잘라야 의미가 살아남는가. 트웰브랩스 Lead ML Scientist Dan이 2018년부터 쫓아온 질문과, 그 답을 영상에서 찾고 있는 이유를 이야기합니다.

임베딩은 손실 압축이다. 무엇을 얼마나 잘라야 의미가 살아남는가. 트웰브랩스 Lead ML Scientist Dan이 2018년부터 쫓아온 질문과, 그 답을 영상에서 찾고 있는 이유를 이야기합니다.

In this article

No headings found on page

Join our newsletter

Join our newsletter

Receive the latest advancements, tutorials, and industry insights in video understanding

Receive the latest advancements, tutorials, and industry insights in video understanding

Search, analyze, and explore your videos with AI.

Apr 10, 2026

7 minutes

Copy link to article

트웰브랩스에서 영상 임베딩 모델 Marengo와 영상 검색 시스템을 이끌고 있는 Dan은 2018년부터 멀티모달 임베딩을 연구해 왔다. 이미지와 텍스트에서 시작해, 지금은 영상을 의미 단위로 이해하는 문제를 풀고 있다. 그가 영상을 선택한 건 아직 아무도 제대로 답하지 못한 문제가 남아 있기 때문이다. 그리고 그 문제를 진지하게 다루는 회사가 전 세계에 여기밖에 없기 때문이다.


2018년부터 임베딩을 연구해 오셨다고요. 처음부터 영상을 하셨나요?

처음엔 이미지와 텍스트의 joint representation이었어요. 두 modality를 같은 임베딩 공간 위에 올리는 연구였는데, 그때부터 계속 따라다닌 질문이 하나 있어요.
“얼마나 atomic한 단위로 잘라야 임베딩이 의미 있는 정보를 담을 수 있을까?”

임베딩이라는 게 결국 손실 압축이거든요. 세상의 정보를 압축해서 하나의 벡터 점으로 담는 거예요. 반지의 제왕 전체를 500차원 벡터 하나로 만들면, 대부분의 정보는 사라져요. 그렇다고 너무 잘게 자르면 맥락이 사라지고. 그 경계를 어디에 그어야 하는가. 이 질문이 결국 저를 영상으로 데려왔어요.


왜 영상이었나요?

가장 연구가 덜 된 분야였어요. PDF에는 layout이 있어요. 그림이 어디 있고 텍스트가 어디 있는지, 구조가 programmatic하게 정의되어 있어요. 웹페이지도 HTML과 CSS로 각 요소의 관계가 명시돼 있고요.

그런데 영상은요? 프레임이 시간 순으로 있다는 것 말고, 그 프레임들 사이의 관계를 정의하는 markup language가 없어요. 어디서 한 장면이 끝나고 다른 장면이 시작되는지. 아카데미아에서도 아직 명확한 답이 없는 질문이에요. 영상은 데이터 규모가 너무 커서 industrial scale이 아니면 연구 자체가 불가능해요. 그래서 이 특수한 환경에서만 풀 수 있는 문제를 다루고 싶었어요.


지금은 구체적으로 어떤 걸 만들고 계신가요?

크게 두 축이에요. 하나는 영상 검색의 정밀도를 끌어올리는 것, 다른 하나는 임베딩 모델 자체의 진화예요.

검색 쪽에서 지금 집중하고 있는 건 reranking이에요. 기존에 Marengo가 하는 건 임베딩 간의 유사도로 결과를 정렬하는 거예요. 그런데 이 방식에서는 1위와 5위가 서로를 못 봐요. 각자 쿼리와만 비교하고 끝나는 거죠. Reranker는 top-K 결과를 전부 한 자리에 모아서 “쿼리 기준으로 다시 한번 생각해봐” 하는 모델이에요. 1위가 5위를 보고 “사실 얘가 더 맞는 것 같은데?” 하면 순서가 바뀌는 거예요. 같은 쿼리여도 검색 결과의 선명도가 완전히 달라져요.


영상을 ‘어떻게 자르냐’는 게 실제로 얼마나 중요한 문제인가요?

총을 쏘는 장면을 생각해봐요. 그 장면이 길어봐야 2초거든요. 그런데 단순히 10초마다 잘라버리면 그 2초짜리 총격 장면이 앞뒤의 전혀 다른 장면과 한 덩어리가 돼요. 임베딩에 그 앞뒤 의미 정보가 전부 섞여 들어가는 거죠. 그 임베딩으로 “총격 장면 찾아줘” 했을 때 검색 결과가 흐릿해지는 건 당연한 거예요.

그래서 영상을 의미 단위로 자르는 모델을 따로 만들고 있어요. 이 문제에 대한 직접적인 답이죠. 고정 길이로 자르는 게 아니라, 정확한 장면 간의 경계선과 그 구조를 모델이 스스로 찾아내는 거예요. 이게 검색 정밀도뿐 아니라 영상 이해 전반의 품질을 결정하는 기반 기술이에요.


더 큰 그림에서 Marengo가 지향하는 방향은요?

계층 구조예요. 의미 단위로 자른 것들이 각각 임베딩을 가지잖아요. 그런데 이 단위들을 포괄하는 상위 임베딩을 재조합할 수 있다면 어떻게 될까요.

축구 영상이면 전반부, 후반부로 나눌 수 있겠죠. 전반부는 A팀 공세 장면, B팀 공세 장면으로 또 나눌 수 있고, 그 안에서 각각 개별 액션으로도 나눌 수 있어요. 이게 계층 구조를 이루는 거예요. 사용자가 “턴오버가 많이 일어난 전반전”이라고 물으면 broad한 상위 임베딩이 답하고, “코너킥 장면”을 물으면 가장 작은 단위로 정확히 짚어 내고. 같은 시스템이, 같은 검색 인터페이스 위에서, 질의의 범위에 따라 다른 수준으로 응답하는 구조예요.


일하면서 가장 보람 있었던 순간이 있다면요?

글로벌 빅테크에서 임베딩 모델을 담당하는 분이 Marengo를 직접 써보고 나서 성능에 놀랐다는 이야기를 전해 들은 적이 있어요. 그 회사가 임베딩을 못 만드는 게 아니거든요. 다만, 대부분의 회사에서 임베딩은 LLM의 부산물이에요. Generation 모델을 만들고, 거기서 파생된 임베딩 모델을 내놓는 구조죠. 임베딩 자체를 중심에 놓는 회사는 거의 없어요.

Marengo는 달라요. Pegasus에서 파생된 게 아니에요. Marengo가 원류예요. LLM 수준의 리소스와 진심을 임베딩에 쏟는 회사는 전 세계적으로 트웰브랩스가 유일하다고 생각해요. 영상이라는 primary modality에 집중하기 때문에 다른 회사들이 고민조차 안 하는 문제들—영상을 어떻게 자를 것인가, 실시간 스트림에서 어떻게 의미를 추출할 것인가—같은 것들을 여기선 핵심 연구 주제로 다루고 있어요.


학계 연구와 여기서 하는 연구는 어떻게 다른가요?

아카데미아는 최대한 general한 답을 찾아요. 논문이 인용이 많이 되려면 광범위한 연구자들이 자신의 연구에도 적용할 수 있어야 하니까요. Scope를 최대한 넓게 열어두고 탐구하는 게 아카데미아의 최적화 전략이에요.

산업 연구는 반대로 작동해요. 타겟 마켓이 있고, 그 유저의 니즈가 있어요. Scope를 그 안으로 좁히는 것 자체가 성능 향상이 돼요. 같은 노력으로 훨씬 더 정교한 결과를 낼 수 있는 구조죠. 그런데 이걸 학회에 내면 “general하지 않다”는 리뷰가 와요. 2020년대 중반에 와서 훌륭한 제품으로서의 모델을 가진 세계적인 AI 회사들이 전통 학회에 기여를 잘 안 하는 건 하기 싫어서가 아니라 이 구조적 간극 때문이에요.

트웰브랩스가 좋은 건, 이 연구를 고객과의 피드백 루프를 통해 설계할 수 있다는 거예요. “페타바이트의 영상 라이센스 구매 여부를 여기 10GB 샘플로 결정해줘” 같은 진짜 비즈니스 질문이 연구 방향을 만들거든요. 아카데미아에서는 존재조차 하지 않는 문제예요. 그리고 그 문제를 풀 수 있는 환경이 여기에 있어요. 수 페타바이트의 실제 영상 데이터, 실제 고객, 실제 피드백까지.


실제로 일하는 환경은 어때요?

저는 지금 이 인터뷰를 하면서도 백그라운드에 에이전트들이 돌고 있어요. 어제는 저녁을 먹다가 그중 하나가 다운됐다는 Slack 알림을 받고 안절부절했어요. 좋은 건지 나쁜 건지는 모르겠지만, 지금은 그런 방식으로 일하는 시대예요.

트웰브랩스에는 Tokens Never Sleep이라는 정책이 있어요. AI 도구 사용에 상한선을 두지 않는 거예요. 단순한 복지가 아니에요. 이 시대에 어떻게 일해야 하는지를 직접 경험하게 해주는 거거든요. 다른 회사에서는 cap이 있거나 아예 지원이 없는 경우가 많은데, 그 차이가 나중에 꽤 크게 벌어질 거라고 생각해요.

기업이라면 으레 있는 따라야 하는 틀이 없다는 것도 처음엔 당황스러웠어요. “A 프로세스의 표준이 어떻게 되나요?” 했더니 “Dan이 최적이라고 생각하시는 프로세스로 재정의하셔도 되는데요” 이런 거잖아요. 그런데 지금은 그게 장점으로 보여요. 낡은 시스템을 신성시하지 않으니까, 전에 없던 좋은 도구들과 함께 처음부터 설계할 수 있거든요.


어떤 사람이 잘 맞고, 어떤 사람에게는 안 맞을 것 같나요?

솔직하게 말하면, 정해진 틀 안에서 지시받은 걸 잘 해내는 데서 만족을 찾는 사람에게는 안 맞아요. 여기는 문제를 스스로 정의해야 하는 경우가 많거든요. 방향이 바뀌는 것도 자주 있어요. 내가 열심히 만들었어도 더 좋은 방향이 생겼다면 바꿔야 하는데, 그 매몰 비용에 대한 심리적 cost가 높은 사람이라면 힘들 거예요.

반대로, 아무도 안 풀고 있는 문제를 찾아서 풀고 싶은 사람, 그리고 그게 실제 제품과 연결되는 걸 보고 싶은 사람이라면, 여기만한 환경이 없다고 생각해요. 영상 임베딩이라는 좁은 영역에서 세계 최전선에 있는 회사가 전 세계에 몇 군데나 되겠어요.


마지막으로, 합류를 고민하는 분들에게 하고 싶은 말이 있다면요?

인류의 전통적인 일하는 방식은 머지않아 크게 바뀔 거라고 생각해요. 이 변화가 끝나기 전에, 워크플로우의 최전선을 경험할 수 있는 곳에서 일해볼 기회를 놓치지 말라고 하고 싶어요. 누구나 어떤 것이든 end-to-end로 own할 수 있는 시대가 오고 있어요. 그 준비를 할 수 있는 환경이 여기에 있어요. 권한도, 리소스도, 실제 문제도 다 있는 환경.

흥미롭다면, 여기가 맞을 거예요.


Dan은 트웰브랩스의 Lead ML Scientist로, Marengo Embedding 및 Search 시스템 개발을 이끌고 있습니다. 트웰브랩스에서 함께할 분들을 찾고 있습니다. → twelvelabs.io/careers

트웰브랩스에서 영상 임베딩 모델 Marengo와 영상 검색 시스템을 이끌고 있는 Dan은 2018년부터 멀티모달 임베딩을 연구해 왔다. 이미지와 텍스트에서 시작해, 지금은 영상을 의미 단위로 이해하는 문제를 풀고 있다. 그가 영상을 선택한 건 아직 아무도 제대로 답하지 못한 문제가 남아 있기 때문이다. 그리고 그 문제를 진지하게 다루는 회사가 전 세계에 여기밖에 없기 때문이다.


2018년부터 임베딩을 연구해 오셨다고요. 처음부터 영상을 하셨나요?

처음엔 이미지와 텍스트의 joint representation이었어요. 두 modality를 같은 임베딩 공간 위에 올리는 연구였는데, 그때부터 계속 따라다닌 질문이 하나 있어요.
“얼마나 atomic한 단위로 잘라야 임베딩이 의미 있는 정보를 담을 수 있을까?”

임베딩이라는 게 결국 손실 압축이거든요. 세상의 정보를 압축해서 하나의 벡터 점으로 담는 거예요. 반지의 제왕 전체를 500차원 벡터 하나로 만들면, 대부분의 정보는 사라져요. 그렇다고 너무 잘게 자르면 맥락이 사라지고. 그 경계를 어디에 그어야 하는가. 이 질문이 결국 저를 영상으로 데려왔어요.


왜 영상이었나요?

가장 연구가 덜 된 분야였어요. PDF에는 layout이 있어요. 그림이 어디 있고 텍스트가 어디 있는지, 구조가 programmatic하게 정의되어 있어요. 웹페이지도 HTML과 CSS로 각 요소의 관계가 명시돼 있고요.

그런데 영상은요? 프레임이 시간 순으로 있다는 것 말고, 그 프레임들 사이의 관계를 정의하는 markup language가 없어요. 어디서 한 장면이 끝나고 다른 장면이 시작되는지. 아카데미아에서도 아직 명확한 답이 없는 질문이에요. 영상은 데이터 규모가 너무 커서 industrial scale이 아니면 연구 자체가 불가능해요. 그래서 이 특수한 환경에서만 풀 수 있는 문제를 다루고 싶었어요.


지금은 구체적으로 어떤 걸 만들고 계신가요?

크게 두 축이에요. 하나는 영상 검색의 정밀도를 끌어올리는 것, 다른 하나는 임베딩 모델 자체의 진화예요.

검색 쪽에서 지금 집중하고 있는 건 reranking이에요. 기존에 Marengo가 하는 건 임베딩 간의 유사도로 결과를 정렬하는 거예요. 그런데 이 방식에서는 1위와 5위가 서로를 못 봐요. 각자 쿼리와만 비교하고 끝나는 거죠. Reranker는 top-K 결과를 전부 한 자리에 모아서 “쿼리 기준으로 다시 한번 생각해봐” 하는 모델이에요. 1위가 5위를 보고 “사실 얘가 더 맞는 것 같은데?” 하면 순서가 바뀌는 거예요. 같은 쿼리여도 검색 결과의 선명도가 완전히 달라져요.


영상을 ‘어떻게 자르냐’는 게 실제로 얼마나 중요한 문제인가요?

총을 쏘는 장면을 생각해봐요. 그 장면이 길어봐야 2초거든요. 그런데 단순히 10초마다 잘라버리면 그 2초짜리 총격 장면이 앞뒤의 전혀 다른 장면과 한 덩어리가 돼요. 임베딩에 그 앞뒤 의미 정보가 전부 섞여 들어가는 거죠. 그 임베딩으로 “총격 장면 찾아줘” 했을 때 검색 결과가 흐릿해지는 건 당연한 거예요.

그래서 영상을 의미 단위로 자르는 모델을 따로 만들고 있어요. 이 문제에 대한 직접적인 답이죠. 고정 길이로 자르는 게 아니라, 정확한 장면 간의 경계선과 그 구조를 모델이 스스로 찾아내는 거예요. 이게 검색 정밀도뿐 아니라 영상 이해 전반의 품질을 결정하는 기반 기술이에요.


더 큰 그림에서 Marengo가 지향하는 방향은요?

계층 구조예요. 의미 단위로 자른 것들이 각각 임베딩을 가지잖아요. 그런데 이 단위들을 포괄하는 상위 임베딩을 재조합할 수 있다면 어떻게 될까요.

축구 영상이면 전반부, 후반부로 나눌 수 있겠죠. 전반부는 A팀 공세 장면, B팀 공세 장면으로 또 나눌 수 있고, 그 안에서 각각 개별 액션으로도 나눌 수 있어요. 이게 계층 구조를 이루는 거예요. 사용자가 “턴오버가 많이 일어난 전반전”이라고 물으면 broad한 상위 임베딩이 답하고, “코너킥 장면”을 물으면 가장 작은 단위로 정확히 짚어 내고. 같은 시스템이, 같은 검색 인터페이스 위에서, 질의의 범위에 따라 다른 수준으로 응답하는 구조예요.


일하면서 가장 보람 있었던 순간이 있다면요?

글로벌 빅테크에서 임베딩 모델을 담당하는 분이 Marengo를 직접 써보고 나서 성능에 놀랐다는 이야기를 전해 들은 적이 있어요. 그 회사가 임베딩을 못 만드는 게 아니거든요. 다만, 대부분의 회사에서 임베딩은 LLM의 부산물이에요. Generation 모델을 만들고, 거기서 파생된 임베딩 모델을 내놓는 구조죠. 임베딩 자체를 중심에 놓는 회사는 거의 없어요.

Marengo는 달라요. Pegasus에서 파생된 게 아니에요. Marengo가 원류예요. LLM 수준의 리소스와 진심을 임베딩에 쏟는 회사는 전 세계적으로 트웰브랩스가 유일하다고 생각해요. 영상이라는 primary modality에 집중하기 때문에 다른 회사들이 고민조차 안 하는 문제들—영상을 어떻게 자를 것인가, 실시간 스트림에서 어떻게 의미를 추출할 것인가—같은 것들을 여기선 핵심 연구 주제로 다루고 있어요.


학계 연구와 여기서 하는 연구는 어떻게 다른가요?

아카데미아는 최대한 general한 답을 찾아요. 논문이 인용이 많이 되려면 광범위한 연구자들이 자신의 연구에도 적용할 수 있어야 하니까요. Scope를 최대한 넓게 열어두고 탐구하는 게 아카데미아의 최적화 전략이에요.

산업 연구는 반대로 작동해요. 타겟 마켓이 있고, 그 유저의 니즈가 있어요. Scope를 그 안으로 좁히는 것 자체가 성능 향상이 돼요. 같은 노력으로 훨씬 더 정교한 결과를 낼 수 있는 구조죠. 그런데 이걸 학회에 내면 “general하지 않다”는 리뷰가 와요. 2020년대 중반에 와서 훌륭한 제품으로서의 모델을 가진 세계적인 AI 회사들이 전통 학회에 기여를 잘 안 하는 건 하기 싫어서가 아니라 이 구조적 간극 때문이에요.

트웰브랩스가 좋은 건, 이 연구를 고객과의 피드백 루프를 통해 설계할 수 있다는 거예요. “페타바이트의 영상 라이센스 구매 여부를 여기 10GB 샘플로 결정해줘” 같은 진짜 비즈니스 질문이 연구 방향을 만들거든요. 아카데미아에서는 존재조차 하지 않는 문제예요. 그리고 그 문제를 풀 수 있는 환경이 여기에 있어요. 수 페타바이트의 실제 영상 데이터, 실제 고객, 실제 피드백까지.


실제로 일하는 환경은 어때요?

저는 지금 이 인터뷰를 하면서도 백그라운드에 에이전트들이 돌고 있어요. 어제는 저녁을 먹다가 그중 하나가 다운됐다는 Slack 알림을 받고 안절부절했어요. 좋은 건지 나쁜 건지는 모르겠지만, 지금은 그런 방식으로 일하는 시대예요.

트웰브랩스에는 Tokens Never Sleep이라는 정책이 있어요. AI 도구 사용에 상한선을 두지 않는 거예요. 단순한 복지가 아니에요. 이 시대에 어떻게 일해야 하는지를 직접 경험하게 해주는 거거든요. 다른 회사에서는 cap이 있거나 아예 지원이 없는 경우가 많은데, 그 차이가 나중에 꽤 크게 벌어질 거라고 생각해요.

기업이라면 으레 있는 따라야 하는 틀이 없다는 것도 처음엔 당황스러웠어요. “A 프로세스의 표준이 어떻게 되나요?” 했더니 “Dan이 최적이라고 생각하시는 프로세스로 재정의하셔도 되는데요” 이런 거잖아요. 그런데 지금은 그게 장점으로 보여요. 낡은 시스템을 신성시하지 않으니까, 전에 없던 좋은 도구들과 함께 처음부터 설계할 수 있거든요.


어떤 사람이 잘 맞고, 어떤 사람에게는 안 맞을 것 같나요?

솔직하게 말하면, 정해진 틀 안에서 지시받은 걸 잘 해내는 데서 만족을 찾는 사람에게는 안 맞아요. 여기는 문제를 스스로 정의해야 하는 경우가 많거든요. 방향이 바뀌는 것도 자주 있어요. 내가 열심히 만들었어도 더 좋은 방향이 생겼다면 바꿔야 하는데, 그 매몰 비용에 대한 심리적 cost가 높은 사람이라면 힘들 거예요.

반대로, 아무도 안 풀고 있는 문제를 찾아서 풀고 싶은 사람, 그리고 그게 실제 제품과 연결되는 걸 보고 싶은 사람이라면, 여기만한 환경이 없다고 생각해요. 영상 임베딩이라는 좁은 영역에서 세계 최전선에 있는 회사가 전 세계에 몇 군데나 되겠어요.


마지막으로, 합류를 고민하는 분들에게 하고 싶은 말이 있다면요?

인류의 전통적인 일하는 방식은 머지않아 크게 바뀔 거라고 생각해요. 이 변화가 끝나기 전에, 워크플로우의 최전선을 경험할 수 있는 곳에서 일해볼 기회를 놓치지 말라고 하고 싶어요. 누구나 어떤 것이든 end-to-end로 own할 수 있는 시대가 오고 있어요. 그 준비를 할 수 있는 환경이 여기에 있어요. 권한도, 리소스도, 실제 문제도 다 있는 환경.

흥미롭다면, 여기가 맞을 거예요.


Dan은 트웰브랩스의 Lead ML Scientist로, Marengo Embedding 및 Search 시스템 개발을 이끌고 있습니다. 트웰브랩스에서 함께할 분들을 찾고 있습니다. → twelvelabs.io/careers