WHAT OUR PARTNERS ARE SAYING

Prologue - 트웰브랩스 한국팀 블로그를 시작하며

Hani Yu

트웰브랩스 한국팀 블로그를 시작합니다. 영상 AI를 만드는 회사의 기술과 사람들의 이야기- Science, MLE, Engineering 팀이 매일 마주하는 문제와 접근 방식을 직접 전합니다.

트웰브랩스 한국팀 블로그를 시작합니다. 영상 AI를 만드는 회사의 기술과 사람들의 이야기- Science, MLE, Engineering 팀이 매일 마주하는 문제와 접근 방식을 직접 전합니다.

In this article

No headings found on page

Join our newsletter

Join our newsletter

Receive the latest advancements, tutorials, and industry insights in video understanding

Receive the latest advancements, tutorials, and industry insights in video understanding

AI로 영상을 검색하고, 분석하고, 탐색하세요.

2026. 3. 20.

3 minutes

링크 복사하기

영상은 지금까지 만들어진 데이터 중 가장 풍부한 형식의 데이터입니다. 텍스트는 사건을 기록하고, 오디오는 그 순간을 담습니다. 그런데 영상은 다릅니다. 무슨 일이 어떤 순서로, 어떤 맥락에서 일어났는지 공간과 시간이 함께 담긴 채로 보여줍니다.

그럼에도 AI는 아직 영상을 제대로 이해하지 못합니다. LLM에 영상을 넣으면 어떻게 될까요? 영상을 텍스트처럼 쪼개서 읽으려 합니다. 마치 영화를 자막만 읽고 이해하려는 것처럼요. 그 과정에서 움직임, 인과관계, 시간의 흐름 — 영상을 영상답게 만드는 것들이 사라집니다. 영상 이해는 텍스트 이해의 확장판이 아니라, 처음부터 다르게 접근해야 하는 문제입니다. 트웰브랩스가 존재하는 이유가 여기 있습니다.

트웰브랩스는 영상 이해를 위한 AI 모델을 만드는 회사입니다. 텍스트는 단어로, 이미지는 픽셀로 표현할 수 있지만, 영상은 시간이 흐르는 장면들의 연속입니다. "무슨 일이 벌어지고 있지?", "어떤 순서로?", "맥락은 뭐지?" — 이 질문들을 동시에 처리하는 게 영상 이해의 핵심입니다. 한마디로, 굉장히 어렵습니다.

우리의 접근은 두 단계로 나뉩니다. Marengo가 영상을 검색 가능한 정보로 만들고, Pegasus가 그 정보를 바탕으로 요약과 분석을 생성합니다. 원본 영상 데이터에서 의미 있는 지식까지 — 두 모델이 이 흐름을 이어받습니다.

이 두 모델은 세 팀이 함께 만듭니다.

Science 팀은 모델의 근본 성능을 연구합니다. "영상을 어떻게 표현해야 기계가 잘 이해할까?" — 정답이 없는 질문을 매일 붙들고 있는 팀입니다. 어려운만큼 재미있는 문제를 풀고 있습니다.

MLE 팀은 연구와 제품 사이를 잇습니다. 아무리 좋은 모델도 실제로 빠르고 안정적으로 돌아가지 않으면 의미가 없습니다. 학습 파이프라인부터 서빙 최적화까지, 연구가 현실이 되는 과정을 맡는 팀입니다.

Engineering 팀은 그 모든 것이 고객에게 닿는 방식을 만듭니다. API 설계, 인프라, 제품 전반 — 사용자가 트웰브랩스를 경험하는 접점 대부분이 이 팀에서 나옵니다.

📌 읽기 전에 알아두면 좋은 세 가지

본격적으로 시작하기 전에, 자주 나올 용어 세 개를 먼저 소개합니다. 알아두면 훨씬 잘 읽힌답니다.

Multimodal AI — 텍스트, 이미지, 오디오, 영상 프레임을 동시에 처리하는 AI입니다. 하나만 다루는 모델과는 설계 방식 자체가 다릅니다. 이 모달리티들이 시간축 위에서 함께 움직인다는 게 영상 이해를 어렵게 만드는 이유 중 하나입니다.

https://youtu.be/FS3sotFXqIU?si=m7_BkOvisqOYkPJ1

Semantic Search — 키워드 대신 의미로 검색하는 방식입니다. "긴장된 협상 장면"이라는 말이 메타데이터에 없어도 그 장면을 찾을 수 있습니다. 구글에 "그 장면 있잖아, 주인공이 빗속에서 뛰는 장면"이라고 검색하고 싶었던 적 있다면, 이게 왜 필요한지 바로 이해하실 겁니다.

https://youtu.be/8HhRjF9ylUY?si=y-Sd8O3ULh2mSGtW

Vector Embedding — AI가 영상, 텍스트, 이미지를 수치 벡터로 바꿔 의미를 표현하는 방식입니다. 비슷한 의미의 콘텐츠는 벡터 공간에서 가까이 위치합니다. Marengo가 영상을 "이해"한다는 것의 기술적 토대이기도 합니다.

https://www.youtube.com/watch?v=rCvwShACn80


이 블로그는 트웰브랩스에서 만들어지는 기술과, 그 기술을 만들어가는 사람들의 이야기를 담습니다.

이어서 Science, MLE, Engineering 팀 매니저들과의 인터뷰를 통해 각 팀이 풀고 있는 문제와 접근 방식, 시행착오와 돌파 과정을 담아냅니다. 구성원들이 직접 쓴 기술 콘텐츠와 인사이트도 함께 공유해 나갈 예정입니다.

트웰브랩스가 어떤 문제를 어떻게 풀고 있는지 궁금하셨다면, 잘 오셨습니다.

트웰브랩스 한국팀의 이야기, 지금 시작합니다.

영상은 지금까지 만들어진 데이터 중 가장 풍부한 형식의 데이터입니다. 텍스트는 사건을 기록하고, 오디오는 그 순간을 담습니다. 그런데 영상은 다릅니다. 무슨 일이 어떤 순서로, 어떤 맥락에서 일어났는지 공간과 시간이 함께 담긴 채로 보여줍니다.

그럼에도 AI는 아직 영상을 제대로 이해하지 못합니다. LLM에 영상을 넣으면 어떻게 될까요? 영상을 텍스트처럼 쪼개서 읽으려 합니다. 마치 영화를 자막만 읽고 이해하려는 것처럼요. 그 과정에서 움직임, 인과관계, 시간의 흐름 — 영상을 영상답게 만드는 것들이 사라집니다. 영상 이해는 텍스트 이해의 확장판이 아니라, 처음부터 다르게 접근해야 하는 문제입니다. 트웰브랩스가 존재하는 이유가 여기 있습니다.

트웰브랩스는 영상 이해를 위한 AI 모델을 만드는 회사입니다. 텍스트는 단어로, 이미지는 픽셀로 표현할 수 있지만, 영상은 시간이 흐르는 장면들의 연속입니다. "무슨 일이 벌어지고 있지?", "어떤 순서로?", "맥락은 뭐지?" — 이 질문들을 동시에 처리하는 게 영상 이해의 핵심입니다. 한마디로, 굉장히 어렵습니다.

우리의 접근은 두 단계로 나뉩니다. Marengo가 영상을 검색 가능한 정보로 만들고, Pegasus가 그 정보를 바탕으로 요약과 분석을 생성합니다. 원본 영상 데이터에서 의미 있는 지식까지 — 두 모델이 이 흐름을 이어받습니다.

이 두 모델은 세 팀이 함께 만듭니다.

Science 팀은 모델의 근본 성능을 연구합니다. "영상을 어떻게 표현해야 기계가 잘 이해할까?" — 정답이 없는 질문을 매일 붙들고 있는 팀입니다. 어려운만큼 재미있는 문제를 풀고 있습니다.

MLE 팀은 연구와 제품 사이를 잇습니다. 아무리 좋은 모델도 실제로 빠르고 안정적으로 돌아가지 않으면 의미가 없습니다. 학습 파이프라인부터 서빙 최적화까지, 연구가 현실이 되는 과정을 맡는 팀입니다.

Engineering 팀은 그 모든 것이 고객에게 닿는 방식을 만듭니다. API 설계, 인프라, 제품 전반 — 사용자가 트웰브랩스를 경험하는 접점 대부분이 이 팀에서 나옵니다.

📌 읽기 전에 알아두면 좋은 세 가지

본격적으로 시작하기 전에, 자주 나올 용어 세 개를 먼저 소개합니다. 알아두면 훨씬 잘 읽힌답니다.

Multimodal AI — 텍스트, 이미지, 오디오, 영상 프레임을 동시에 처리하는 AI입니다. 하나만 다루는 모델과는 설계 방식 자체가 다릅니다. 이 모달리티들이 시간축 위에서 함께 움직인다는 게 영상 이해를 어렵게 만드는 이유 중 하나입니다.

https://youtu.be/FS3sotFXqIU?si=m7_BkOvisqOYkPJ1

Semantic Search — 키워드 대신 의미로 검색하는 방식입니다. "긴장된 협상 장면"이라는 말이 메타데이터에 없어도 그 장면을 찾을 수 있습니다. 구글에 "그 장면 있잖아, 주인공이 빗속에서 뛰는 장면"이라고 검색하고 싶었던 적 있다면, 이게 왜 필요한지 바로 이해하실 겁니다.

https://youtu.be/8HhRjF9ylUY?si=y-Sd8O3ULh2mSGtW

Vector Embedding — AI가 영상, 텍스트, 이미지를 수치 벡터로 바꿔 의미를 표현하는 방식입니다. 비슷한 의미의 콘텐츠는 벡터 공간에서 가까이 위치합니다. Marengo가 영상을 "이해"한다는 것의 기술적 토대이기도 합니다.

https://www.youtube.com/watch?v=rCvwShACn80


이 블로그는 트웰브랩스에서 만들어지는 기술과, 그 기술을 만들어가는 사람들의 이야기를 담습니다.

이어서 Science, MLE, Engineering 팀 매니저들과의 인터뷰를 통해 각 팀이 풀고 있는 문제와 접근 방식, 시행착오와 돌파 과정을 담아냅니다. 구성원들이 직접 쓴 기술 콘텐츠와 인사이트도 함께 공유해 나갈 예정입니다.

트웰브랩스가 어떤 문제를 어떻게 풀고 있는지 궁금하셨다면, 잘 오셨습니다.

트웰브랩스 한국팀의 이야기, 지금 시작합니다.