WHAT OUR PARTNERS ARE SAYING

아무리 뛰어난 모델도, 안 쓰이면 신기하다 말고 끝이에요

SJ Kim, Sue Kim

세상을 이해하는 AI를 만들고 싶었다는 것에서 출발한 엔지니어. 트웰브랩스 Pegasus 엔지니어링 리드 SJ가 영상 데이터의 가능성과 한계, 그리고 제품과 연결된 AI 개발이 왜 중요한지에 대해 이야기합니다.

세상을 이해하는 AI를 만들고 싶었다는 것에서 출발한 엔지니어. 트웰브랩스 Pegasus 엔지니어링 리드 SJ가 영상 데이터의 가능성과 한계, 그리고 제품과 연결된 AI 개발이 왜 중요한지에 대해 이야기합니다.

In this article

No headings found on page

Join our newsletter

Join our newsletter

Receive the latest advancements, tutorials, and industry insights in video understanding

Receive the latest advancements, tutorials, and industry insights in video understanding

AI로 영상을 검색하고, 분석하고, 탐색하세요.

2026. 3. 20.

5 minutes

링크 복사하기

SJ는 AI를 처음 만났을 때부터 영상과 함께였다. 언어 모델을 먼저 배우고 영상으로 넘어온 게 아니라, 처음부터 영상이었다. 그래서인지 그가 이 일을 설명하는 방식은 기술 스택이나 벤치마크 숫자보다 훨씬 근본적인 질문에서 시작한다. 세상을 이해한다는 게 뭔가. 그리고 그걸 위해 우리는 무엇을 만들어야 하나.


영상 분야에 뛰어들게 된 계기가 있었나요?

영상 자체에 먼저 끌렸다기보다, 세상을 이해하는 AI를 만들고 싶었어요. 그러려면 세상과 가장 닮은 데이터가 필요한데, 지금 우리가 대규모로 갖고 있는 것 중에 그게 영상이거든요. 라이다도 있고 센서 데이터도 있지만, 이미 전 세계에 쌓여 있고 모두가 만들고 소비하는 형태는 영상밖에 없잖아요.

다만 솔직히 말하면, 영상이 세상을 이해하는 데 가장 좋은 데이터라고 생각하면서도, 아직 그걸 완전히 잘 활용하는 방법은 못 찾았다고 봐요. 그 문제를 지금 풀고 있는 거예요.


영상을 AI로 학습시키는 게 왜 어려운 건가요?

언어 모델이 폭발적으로 발전할 수 있었던 핵심 이유가 하나 있어요. 단어 다음에 올 단어를 예측하도록 학습하는 구조거든요. 그러면 인터넷에 있는 모든 글이 이미 레이블된 데이터나 다름없어요. 사람이 직접 레이블링할 필요가 없는 거죠. 그래서 대용량 데이터를 빠르게 학습할 수 있었던 거예요.

영상은 달라요. 그래서 50MB짜리 영상 하나를 학습에 쓰려면 먼저 이미지 프레임으로 다 풀어야 해요. 그 순간 1~2GB가 되죠. 저장도, 처리도, 리소스 배분도 전부 한꺼번에 폭발적으로 커지는 거예요. 사용자 규모는 아직 그 수준이 아닌데도 대형 플랫폼 수준의 엔지니어링이 처음부터 필요한 거예요.
그리고 그걸 학습에 쓸 수 있는 고품질 데이터로 만들기 위해 복잡한 파이프라인을 설계하고, 정제하고, 반복해야 해요. 자동화가 되긴 하지만, 엄청나게 복잡하고 엔지니어링이 무거워요. AI 역량과 헤비한 엔지니어링을 동시에 요구하는 일이에요.

그러다 보니 전 세계에서 이 문제를 이 깊이로 다루는 팀이 진짜 손에 꼽아요. 제가 보기엔 사실상 구글뿐이에요. 구글은 유튜브도 있고, 서치 엔진도 있고, 엔지니어링 DNA 자체가 달라서 자연스럽게 할 수 있었던 거고. 그 외 대부분의 AI 회사들은 이 문제를 깊이 다루기엔 DNA가 좀 달라요.


그 어려운 걸 하면서, 방향은 어떻게 잡아가시나요?

저는 그 부분에서 기준이 하나예요. 실제로 쓰이느냐.

아무리 노블하고 세상에 나와 있는 것 중에 가장 뛰어나다고 해도, 실제 사용하는 데 아무 의미 없으면 그냥 신기하다 말고 끝나는 거예요. 저희 Video Analysis 팀이 지금 유즈케이스에 맞는 성능에 집중하는 것도 그 이유예요. 열린 질문을 두고 막연하게 발전시키는 게 아니라, 실제 유저들이 가장 많이 원하는 것을 정확하게 잘 하자는 거예요.

흥미로운 게, 저희한테 합류하시는 ML 엔지니어 분들한테 "왜 오고 싶으세요?"를 물어보면, 거의 공통적으로 "프로덕트와 연결된 AI를 만들고 싶어서"라고 하세요. Frontier 모델 자체를 만드는 것만으로는 뭔가 부족하다는 감각이 있는 분들이 오시는 것 같아요.

저도 그 감각에 공감해요. 아무리 모델이 뛰어나도, 아무도 안 쓰면 그냥 신기한 실험으로 끝나는 거거든요. 실제로 작동하는 걸 만드는 게 저한테는 훨씬 더 의미 있어요.

그 두 가지가 사실 충돌하지 않나요. Frontier 모델과 프로덕트 포커스.

유저들이 원하는걸 만든다고 해서 Frontier 모델 연구를 포기한 게 아니에요. 오히려 실용적인 마일스톤을 쌓으면서 같은 방향으로 가는 거라고 생각해요. 제가 최근에 정말 좋은 예시라고 생각하는 게 Claude Code예요. 언어 모델 발전이 진짜 가속된 건 실제 제품에 연결됐을 때였잖아요. 유저 피드백이 모델로 돌아오고, 방향이 생기고, 그 선순환이 빠르게 돌아가면서 발전 속도 자체가 달라졌어요. 제품에서 분리된 연구는 방향을 잃거나, 아무도 안 쓰는 걸 만들거나 둘 중 하나예요.


팀 이야기를 좀 해주세요. 서울오피스에서 어떻게 일하고 계신가요?

저희 한국 MLE 팀은 완전히 글로컬라이즈되어 있어요. 데이터 설계부터 학습, 서빙, GA까지 전체 사이클을 한 팀이 책임져요. 타임존 넘을 일도 없고, 의사결정이 팀 안에서 일어나다보니 빠를 수밖에 없어요.

예전에는 "SF 팀이랑 협업한다"는 게 하나의 매력 포인트였어요. 근데 저는 생각이 좀 바뀌었어요. SF와 연결됐기 때문에 글로벌한 팀이 아니라, 이 팀 자체가 프론티어 수준의 경쟁력을 갖추면 — 그게 진짜 글로벌한 팀이라고 생각해요. 그 방향으로 가고 싶어요.


마지막으로, 합류를 고민하는 분들께 어떤 얘기를 하고 싶으신가요?

(잠깐 생각하다가)

빠르고, 밀도 있고, 배우는 게 많아요. 근데 그게 다가 아니에요.

전 세계에서 손에 꼽을 만큼 드문 문제를 다루고 있고, 그게 실제 제품과 연결돼 있고, 그 안에서 처음부터 끝까지 오너십을 갖고 일할 수 있어요. 합류하신 분들 중에 영상 AI를 미리 경험하고 오신 분은 한 명도 없었어요. 그런데 오셔서 빠르게 배우고, 같이 만들어가고 있거든요.

세상을 이해하는 AI를 만들고 싶은 사람, 그게 실제로 쓰이는 것까지 보고 싶은 사람이라면- 한국에서는 여기가 그 답에 가장 가까운 곳이라고 생각해요.

SJ는 트웰브랩스의 공동창업자이자 Pegasus팀의 엔지니어링 리드(MLE)입니다. 트웰브랩스에서 함께할 엔지니어를 찾고 있습니다. → twelvelabs.io/ko/careers

SJ는 AI를 처음 만났을 때부터 영상과 함께였다. 언어 모델을 먼저 배우고 영상으로 넘어온 게 아니라, 처음부터 영상이었다. 그래서인지 그가 이 일을 설명하는 방식은 기술 스택이나 벤치마크 숫자보다 훨씬 근본적인 질문에서 시작한다. 세상을 이해한다는 게 뭔가. 그리고 그걸 위해 우리는 무엇을 만들어야 하나.


영상 분야에 뛰어들게 된 계기가 있었나요?

영상 자체에 먼저 끌렸다기보다, 세상을 이해하는 AI를 만들고 싶었어요. 그러려면 세상과 가장 닮은 데이터가 필요한데, 지금 우리가 대규모로 갖고 있는 것 중에 그게 영상이거든요. 라이다도 있고 센서 데이터도 있지만, 이미 전 세계에 쌓여 있고 모두가 만들고 소비하는 형태는 영상밖에 없잖아요.

다만 솔직히 말하면, 영상이 세상을 이해하는 데 가장 좋은 데이터라고 생각하면서도, 아직 그걸 완전히 잘 활용하는 방법은 못 찾았다고 봐요. 그 문제를 지금 풀고 있는 거예요.


영상을 AI로 학습시키는 게 왜 어려운 건가요?

언어 모델이 폭발적으로 발전할 수 있었던 핵심 이유가 하나 있어요. 단어 다음에 올 단어를 예측하도록 학습하는 구조거든요. 그러면 인터넷에 있는 모든 글이 이미 레이블된 데이터나 다름없어요. 사람이 직접 레이블링할 필요가 없는 거죠. 그래서 대용량 데이터를 빠르게 학습할 수 있었던 거예요.

영상은 달라요. 그래서 50MB짜리 영상 하나를 학습에 쓰려면 먼저 이미지 프레임으로 다 풀어야 해요. 그 순간 1~2GB가 되죠. 저장도, 처리도, 리소스 배분도 전부 한꺼번에 폭발적으로 커지는 거예요. 사용자 규모는 아직 그 수준이 아닌데도 대형 플랫폼 수준의 엔지니어링이 처음부터 필요한 거예요.
그리고 그걸 학습에 쓸 수 있는 고품질 데이터로 만들기 위해 복잡한 파이프라인을 설계하고, 정제하고, 반복해야 해요. 자동화가 되긴 하지만, 엄청나게 복잡하고 엔지니어링이 무거워요. AI 역량과 헤비한 엔지니어링을 동시에 요구하는 일이에요.

그러다 보니 전 세계에서 이 문제를 이 깊이로 다루는 팀이 진짜 손에 꼽아요. 제가 보기엔 사실상 구글뿐이에요. 구글은 유튜브도 있고, 서치 엔진도 있고, 엔지니어링 DNA 자체가 달라서 자연스럽게 할 수 있었던 거고. 그 외 대부분의 AI 회사들은 이 문제를 깊이 다루기엔 DNA가 좀 달라요.


그 어려운 걸 하면서, 방향은 어떻게 잡아가시나요?

저는 그 부분에서 기준이 하나예요. 실제로 쓰이느냐.

아무리 노블하고 세상에 나와 있는 것 중에 가장 뛰어나다고 해도, 실제 사용하는 데 아무 의미 없으면 그냥 신기하다 말고 끝나는 거예요. 저희 Video Analysis 팀이 지금 유즈케이스에 맞는 성능에 집중하는 것도 그 이유예요. 열린 질문을 두고 막연하게 발전시키는 게 아니라, 실제 유저들이 가장 많이 원하는 것을 정확하게 잘 하자는 거예요.

흥미로운 게, 저희한테 합류하시는 ML 엔지니어 분들한테 "왜 오고 싶으세요?"를 물어보면, 거의 공통적으로 "프로덕트와 연결된 AI를 만들고 싶어서"라고 하세요. Frontier 모델 자체를 만드는 것만으로는 뭔가 부족하다는 감각이 있는 분들이 오시는 것 같아요.

저도 그 감각에 공감해요. 아무리 모델이 뛰어나도, 아무도 안 쓰면 그냥 신기한 실험으로 끝나는 거거든요. 실제로 작동하는 걸 만드는 게 저한테는 훨씬 더 의미 있어요.

그 두 가지가 사실 충돌하지 않나요. Frontier 모델과 프로덕트 포커스.

유저들이 원하는걸 만든다고 해서 Frontier 모델 연구를 포기한 게 아니에요. 오히려 실용적인 마일스톤을 쌓으면서 같은 방향으로 가는 거라고 생각해요. 제가 최근에 정말 좋은 예시라고 생각하는 게 Claude Code예요. 언어 모델 발전이 진짜 가속된 건 실제 제품에 연결됐을 때였잖아요. 유저 피드백이 모델로 돌아오고, 방향이 생기고, 그 선순환이 빠르게 돌아가면서 발전 속도 자체가 달라졌어요. 제품에서 분리된 연구는 방향을 잃거나, 아무도 안 쓰는 걸 만들거나 둘 중 하나예요.


팀 이야기를 좀 해주세요. 서울오피스에서 어떻게 일하고 계신가요?

저희 한국 MLE 팀은 완전히 글로컬라이즈되어 있어요. 데이터 설계부터 학습, 서빙, GA까지 전체 사이클을 한 팀이 책임져요. 타임존 넘을 일도 없고, 의사결정이 팀 안에서 일어나다보니 빠를 수밖에 없어요.

예전에는 "SF 팀이랑 협업한다"는 게 하나의 매력 포인트였어요. 근데 저는 생각이 좀 바뀌었어요. SF와 연결됐기 때문에 글로벌한 팀이 아니라, 이 팀 자체가 프론티어 수준의 경쟁력을 갖추면 — 그게 진짜 글로벌한 팀이라고 생각해요. 그 방향으로 가고 싶어요.


마지막으로, 합류를 고민하는 분들께 어떤 얘기를 하고 싶으신가요?

(잠깐 생각하다가)

빠르고, 밀도 있고, 배우는 게 많아요. 근데 그게 다가 아니에요.

전 세계에서 손에 꼽을 만큼 드문 문제를 다루고 있고, 그게 실제 제품과 연결돼 있고, 그 안에서 처음부터 끝까지 오너십을 갖고 일할 수 있어요. 합류하신 분들 중에 영상 AI를 미리 경험하고 오신 분은 한 명도 없었어요. 그런데 오셔서 빠르게 배우고, 같이 만들어가고 있거든요.

세상을 이해하는 AI를 만들고 싶은 사람, 그게 실제로 쓰이는 것까지 보고 싶은 사람이라면- 한국에서는 여기가 그 답에 가장 가까운 곳이라고 생각해요.

SJ는 트웰브랩스의 공동창업자이자 Pegasus팀의 엔지니어링 리드(MLE)입니다. 트웰브랩스에서 함께할 엔지니어를 찾고 있습니다. → twelvelabs.io/ko/careers