WHAT OUR PARTNERS ARE SAYING

영상에 진심인 곳은 전 세계에 몇 군데 없어요

Kian Kim, Sue Kim

산업계에 니즈가 있어야 진짜 기술이 발전한다고 믿는 리서처. 트웰브랩스 Pegasus 리서치 리드 Kian이 비디오 AI가 아직 블루오션인 이유, 고객 니즈에서 출발하는 모델 개발, 그리고 팀의 주체성에 대해 이야기합니다.

산업계에 니즈가 있어야 진짜 기술이 발전한다고 믿는 리서처. 트웰브랩스 Pegasus 리서치 리드 Kian이 비디오 AI가 아직 블루오션인 이유, 고객 니즈에서 출발하는 모델 개발, 그리고 팀의 주체성에 대해 이야기합니다.

In this article

No headings found on page

Join our newsletter

Join our newsletter

Receive the latest advancements, tutorials, and industry insights in video understanding

Receive the latest advancements, tutorials, and industry insights in video understanding

Search, analyze, and explore your videos with AI.

Mar 27, 2026

7 minutes

Copy link to article

많은 AI 연구자들이 좋은 논문을 중요한 목표로 삼는다. 그런데 Kian이 기술 발전을 바라보는 기준은 조금 다르다. 그에게 진짜 발전의 조건은 단순하다. 산업 현장의 수요가 있어야 하고, 그 수요에 투자도 따라붙어야 한다는 것. 그래야 기술이 현실에서 힘을 갖고 빠르게 발전할 수 있다.

모델 압축, OCR, 문서 이해, 텍스트 LLM을 거쳐 비디오 LLM까지. 본인 표현대로 여러 분야를 거친 ‘짬뽕 같은’ 경로를 지나왔지만, 이 믿음만큼은 처음부터 끝까지 일관됐다. 트웰브랩스에서 Pegasus 리서치를 이끌고 있는 Kian에게 그 이야기를 들어보았다.


Q. 요즘 어떤 작업을 하고 계세요?

페가수스 모델을 개발하고 있어요. 그런데 저희가 조금 특이한 점은, 모델만 만드는 게 아니라 평가 체계까지 처음부터 직접 설계했다는 거예요. 데이터 파이프라인, 평가 기준, 벤치마크까지 다요.

이유는 분명해요. 학계에서 널리 쓰이는 벤치마크들이 산업 현장에서는 크게 의미가 없는 경우가 많거든요. 기본적인 영상 이해 능력을 측정하는 벤치마크는 많은데, 고객은 거기에 큰 관심이 없어요. 실제로 자기 업무에 적용할 수 있는 태스크에서 얼마나 잘 작동하는지가 더 중요하죠. 그런데 그런 걸 제대로 보여주는 기준은 많지 않아요. 그래서 직접 만들게 됐어요.

평가 기준부터 직접 만든다는 게 상당히 고된 작업이잖아요.

고통스럽죠. 누가 만들어 놓은 걸 쓰면 일단 고정된 기준 위에서 실험할 수 있는데, 저희는 기준 자체를 계속 만들고, 고치고, 다시 만들어야 하니까요. 무한반복이에요. 만들기 싫다기보다, 만드는 과정 자체가 정말 어려워요.

그래도 분명한 장점이 있어요. 고객의 니즈를 평가 기준 안에 실제로 녹여낼 수 있다는 거예요. 이번 페가수스에서 실제로 한 게, SA(Solutions Architect)분들이 고객과의 미팅에서 얻은 인사이트를 데이터 설계에 반영했거든요. 고객이 영상에서 뭘 원하는지가 생생하게 담겨 있으니까, 만드는 사람 입장에서도 기준이 명확해져요.

이게 되게 유니크한 경험인 것 같아요. 투자를 받은 AI 회사이면서, 비디오에 집중하고 있으면서, 실제 고객의 비디오 관련 요구를 구체적으로 확보할 수 있는 고객 접점까지 갖춘 곳. 이 세 가지가 겹쳐야 가능한 방법론이거든요.


Q. 원래 텍스트 LLM을 하시다가 오신걸로 알고 있어요. 비디오로 넘어온 가장 큰 이유가 뭔가요?

텍스트가 다루기 편한 건 맞는데, 개인적으로 흥미가 좀 적었어요. 비디오는 클릭하면 바로 보이잖아요. 미디엄 자체가 훨씬 풍부해요.

[마지막으로 책 읽은 적 vs 유튜브 쇼츠 본 적]을 비교해 보면, 압도적으로 쇼츠가 많을 거거든요. 텍스트를 잘 다루는 능력으로 일상에 임팩트를 주려면 생각보다 많은 단계를 거쳐야 하는데, 비디오는 상대적으로 즉각적이에요. 무언가를 보여주는 힘이 바로 있으니까요.

그리고 의외로 비디오에 깊이 있게 집중하는 곳이 많지 않아요. 아직은 충분히 블루오션이라고 생각해요.


Q. 영상 분야에서 가장 근본적으로 해결이 안 된 문제가 뭐라고 보시나요?

비디오를 표현하는 방식이 너무 비효율적이에요. 지금은 사실상 LLM이라는 틀 안에 비디오를 끼워 넣는 방식에 가깝거든요. 몇 분짜리 비디오가 LLM 컨텍스트에서 수만 토큰을 차지하는데, 사실 그렇게까지 많은 표현 공간이 필요한 건 아니에요.

비유하자면, 예전 논리학에서 기호 체계가 정리되기 전과 비슷해요. 자연어로 길게 서술하면 의미는 전달되지만, 모호하고 비효율적이잖아요. 사실은 ‘X를 구하라’처럼 간단히 표현할 수 있는 내용을, 지금은 길게 설명문으로 풀어쓰고 있는 셈이죠. 텍스트는 토크나이즈하는 방식이 이미 꽤 효율적으로 작동하는데, 비디오는 아직 그 단계에 도달하지 못했다고 봐요.

비디오를 텍스트 토큰처럼 다루면 일단 LLM에 넣을 수는 있으니까 지금은 이렇게 하고 있지만, 이게 근본적 해결책이 아니라는 건 다들 동의할 거예요. 저희가 풀고 있는 가장 재밌고 어려운 문제 중 하나입니다.


Q. 트웰브랩스에 합류하게 된 계기가 있나요?

전 회사에서 텍스트 LLM 관련 B2B 사업을 했는데, 상대하는 기업의 규모나 임팩트 면에서 좀 아쉬웠어요. 기왕이면 이름만 대면 알 만한 곳들을 상대로 일하고 싶었어요. 같은 모델을 만들더라도 어떤 고객에게 전달되느냐- 가령 세계 최대 스포츠리그냐, 한국리그냐-에 따라 임팩트가 달라진다고 생각하거든요.

그리고 제 철학 자체가 “산업 현장에 분명한 수요가 있어야 하고, 거기에 실제로 돈이 들어가야 큰 기술 발전이 일어난다”는 거예요. 랩실에서 하는 건 선행 연구에 가깝고, 임팩트를 내려면 현실적인 니즈가 있어야 해요. 그래야 투자가 이뤄지고, 그 위에서 발전도 일어나요.


Q. 프로덕트 임팩트 이야기가 나왔는데, 그게 실제로 팀에서는 어떻게 작동하나요?

저희 연구의 우선순위는 전부 프로덕트 임팩트에서 파생돼요. 연구를 위한 연구를 하는 게 아니라, 제품에 가장 큰 임팩트를 내는 방법을 먼저 강구하고, 해당 방법이 연구가 필요하기 때문에 하고 있는 것이죠.

역설적으로, 그래서 자원을 확보하기도 상대적으로 쉬워요. “이걸로 제품을 만들고, 제품이 실제 비즈니스로 이어질 것이다”라는 연결이 명확하니까 설득이 되는 거죠. 학계 지향적인 랩실을 보면 아웃풋이 논문일 때 회사 입장에서 그걸 이윤으로 전환하기 어렵잖아요. 투자 설득도 힘들고요. 저희는 그 사이클 자체가 다르기 때문에, 규모에 비해 연구에 필요한 자원을 적극적으로 지원받는 편이에요.

그리고 이게 동기부여랑도 연결돼요. 해도 그만, 안 해도 그만인 일만큼 동기부여가 안 되는 것도 없거든요. 여기서는 오히려 "안 되면 안 돼"에 가깝고, 저는 그게 오히려 더 건강한 긴장감이라고 생각해요.


Q. 팀 문화에 대해서 간단히 말씀해 주신다면요?

적어도 제 팀에서는 모두가 CEO처럼 일해야 된다고 생각해요. 스스로 결정을 내릴 수 있어야 하고, 다른 사람이 내린 결정이 회사에 도움이 되지 않는다고 생각하면 그걸 분명히 이야기할 수 있어야 해요.

제가 결정을 다 내리면 제 머리에 보틀넥이 걸리는 거예요. 사람이 10명인데 의사결정의 중심이 한 사람에게만 몰리면 스타트업 속도는 나오기 어렵죠. 10명이면 적어도 7명 정도는 자기 판단으로 움직일 수 있어야 한다고 생각해요. 그래서 저는 제 범위 안에서 최대한의 책임과 권한을 드리는 방식이에요. 본인이 결정하고, 본인이 책임지는 구조.


Q. 글로벌 팀으로서의 협업은 어떤가요?

솔직히 말하면 가장 큰 건 타임존이에요. 언어도 아니고 문화도 아니고요. 되게 단순한 질문인데 답을 받는 데 13시간, 제가 그걸 확인하는 데 또 시간이 걸리면 대화 하나가 하루를 훌쩍 넘길수도 있어요. 사람은 기본적으로 순차적으로 생각하는 존재- 그러니까 sequential해서, 100개의 대화를 동시에 완벽하게 유지하기는 어렵거든요.

그런데 저한테 더 중요한 의미의 ‘글로벌’은 해외 사람들과 함께 일하느냐보다, 회사의 포지셔닝 자체가 글로벌한가예요. 우리 프로덕트가 글로벌 마켓에서 경쟁하고 있는가. 그 점에서는 크게 아쉬움이 없어요.


Q. 가장 의미 있다고 느낀 고객 사례가 있나요?

NDA 때문에 직접 언급은 못하지만, 북미 주요 방송사요. 딜 규모도 컸지만, 그보다 더 인상적이었던 건 고객의 요구사항이 명확할 때 얼마나 빠르게 개선이 가능한지를 보여준 사례였어요. 

SA분들이 현장에서 최대한 대응하다가 연구팀의 도움이 필요한 시점이 왔고, 저희가 영상을 보니 어디까지는 확실히 할 수 있고 어디부터는 아직 어렵겠다는게 명확하게 보이더라고요. 그래서 빠르게 판단한 걸 바탕으로 3주 안에 굉장히 큰 개선을 이뤘어요.

저희가 잘하는 협업 방식이 무엇인지 보여준 사례라고 생각해요. 현장에서 고객 문제를 정확히 가져오고, 연구가 빠르게 병목을 짚고, 다시 제품 개선으로 연결되는 흐름이 아주 잘 맞아떨어졌거든요.


Q. 합류를 고민하는 리서처나 개발자한테 하고 싶은 말이 있다면요?

일단 Product impact에 관심이 있어야 해요. 이게 0순위예요. 내가 만드는 것이 결국 제품으로 나가고, 실제로 많은 사람들이 쓰는 걸 보고 싶다. 이런 사람이 fit이 제일 좋아요.

기초 연구만 하고 싶다는 분에게는 솔직히 잘 맞지 않을 수 있어요. 저희는 연구를 하되, 그 연구의 목적과 우선순위가 전부 프로덕트 임팩트를 기준으로 세팅돼 있으니까요.

근데 역설적으로 그래서 좋은 거예요. 증명조차 기대되지 않는 환경보다는, 빨리 잘 만들어서 제품으로 내고 실제 비즈니스 성과로 이어지게 하자는 목표가 훨씬 건강하다고 생각하거든요. 목표가 분명하고, stakes가 있고, 그래서 자원도 따라와요.

비디오에 진심인 곳은 전 세계에 몇 군데 없어요. 그리고 여기서는 결과를 실제 제품 임팩트로 연결해야 한다는 기대치가 분명해요. 그런 환경에서 동기부여를 느끼는 사람이라면, 잘 맞을 거예요.


Kian은 트웰브랩스의 Pegasus 리서치 리드로, 영상 언어 모델 개발을 이끌고 있습니다. 트웰브랩스에서 함께할 리서처와 엔지니어를 찾고 있습니다. → twelvelabs.io/ko/careers

많은 AI 연구자들이 좋은 논문을 중요한 목표로 삼는다. 그런데 Kian이 기술 발전을 바라보는 기준은 조금 다르다. 그에게 진짜 발전의 조건은 단순하다. 산업 현장의 수요가 있어야 하고, 그 수요에 투자도 따라붙어야 한다는 것. 그래야 기술이 현실에서 힘을 갖고 빠르게 발전할 수 있다.

모델 압축, OCR, 문서 이해, 텍스트 LLM을 거쳐 비디오 LLM까지. 본인 표현대로 여러 분야를 거친 ‘짬뽕 같은’ 경로를 지나왔지만, 이 믿음만큼은 처음부터 끝까지 일관됐다. 트웰브랩스에서 Pegasus 리서치를 이끌고 있는 Kian에게 그 이야기를 들어보았다.


Q. 요즘 어떤 작업을 하고 계세요?

페가수스 모델을 개발하고 있어요. 그런데 저희가 조금 특이한 점은, 모델만 만드는 게 아니라 평가 체계까지 처음부터 직접 설계했다는 거예요. 데이터 파이프라인, 평가 기준, 벤치마크까지 다요.

이유는 분명해요. 학계에서 널리 쓰이는 벤치마크들이 산업 현장에서는 크게 의미가 없는 경우가 많거든요. 기본적인 영상 이해 능력을 측정하는 벤치마크는 많은데, 고객은 거기에 큰 관심이 없어요. 실제로 자기 업무에 적용할 수 있는 태스크에서 얼마나 잘 작동하는지가 더 중요하죠. 그런데 그런 걸 제대로 보여주는 기준은 많지 않아요. 그래서 직접 만들게 됐어요.

평가 기준부터 직접 만든다는 게 상당히 고된 작업이잖아요.

고통스럽죠. 누가 만들어 놓은 걸 쓰면 일단 고정된 기준 위에서 실험할 수 있는데, 저희는 기준 자체를 계속 만들고, 고치고, 다시 만들어야 하니까요. 무한반복이에요. 만들기 싫다기보다, 만드는 과정 자체가 정말 어려워요.

그래도 분명한 장점이 있어요. 고객의 니즈를 평가 기준 안에 실제로 녹여낼 수 있다는 거예요. 이번 페가수스에서 실제로 한 게, SA(Solutions Architect)분들이 고객과의 미팅에서 얻은 인사이트를 데이터 설계에 반영했거든요. 고객이 영상에서 뭘 원하는지가 생생하게 담겨 있으니까, 만드는 사람 입장에서도 기준이 명확해져요.

이게 되게 유니크한 경험인 것 같아요. 투자를 받은 AI 회사이면서, 비디오에 집중하고 있으면서, 실제 고객의 비디오 관련 요구를 구체적으로 확보할 수 있는 고객 접점까지 갖춘 곳. 이 세 가지가 겹쳐야 가능한 방법론이거든요.


Q. 원래 텍스트 LLM을 하시다가 오신걸로 알고 있어요. 비디오로 넘어온 가장 큰 이유가 뭔가요?

텍스트가 다루기 편한 건 맞는데, 개인적으로 흥미가 좀 적었어요. 비디오는 클릭하면 바로 보이잖아요. 미디엄 자체가 훨씬 풍부해요.

[마지막으로 책 읽은 적 vs 유튜브 쇼츠 본 적]을 비교해 보면, 압도적으로 쇼츠가 많을 거거든요. 텍스트를 잘 다루는 능력으로 일상에 임팩트를 주려면 생각보다 많은 단계를 거쳐야 하는데, 비디오는 상대적으로 즉각적이에요. 무언가를 보여주는 힘이 바로 있으니까요.

그리고 의외로 비디오에 깊이 있게 집중하는 곳이 많지 않아요. 아직은 충분히 블루오션이라고 생각해요.


Q. 영상 분야에서 가장 근본적으로 해결이 안 된 문제가 뭐라고 보시나요?

비디오를 표현하는 방식이 너무 비효율적이에요. 지금은 사실상 LLM이라는 틀 안에 비디오를 끼워 넣는 방식에 가깝거든요. 몇 분짜리 비디오가 LLM 컨텍스트에서 수만 토큰을 차지하는데, 사실 그렇게까지 많은 표현 공간이 필요한 건 아니에요.

비유하자면, 예전 논리학에서 기호 체계가 정리되기 전과 비슷해요. 자연어로 길게 서술하면 의미는 전달되지만, 모호하고 비효율적이잖아요. 사실은 ‘X를 구하라’처럼 간단히 표현할 수 있는 내용을, 지금은 길게 설명문으로 풀어쓰고 있는 셈이죠. 텍스트는 토크나이즈하는 방식이 이미 꽤 효율적으로 작동하는데, 비디오는 아직 그 단계에 도달하지 못했다고 봐요.

비디오를 텍스트 토큰처럼 다루면 일단 LLM에 넣을 수는 있으니까 지금은 이렇게 하고 있지만, 이게 근본적 해결책이 아니라는 건 다들 동의할 거예요. 저희가 풀고 있는 가장 재밌고 어려운 문제 중 하나입니다.


Q. 트웰브랩스에 합류하게 된 계기가 있나요?

전 회사에서 텍스트 LLM 관련 B2B 사업을 했는데, 상대하는 기업의 규모나 임팩트 면에서 좀 아쉬웠어요. 기왕이면 이름만 대면 알 만한 곳들을 상대로 일하고 싶었어요. 같은 모델을 만들더라도 어떤 고객에게 전달되느냐- 가령 세계 최대 스포츠리그냐, 한국리그냐-에 따라 임팩트가 달라진다고 생각하거든요.

그리고 제 철학 자체가 “산업 현장에 분명한 수요가 있어야 하고, 거기에 실제로 돈이 들어가야 큰 기술 발전이 일어난다”는 거예요. 랩실에서 하는 건 선행 연구에 가깝고, 임팩트를 내려면 현실적인 니즈가 있어야 해요. 그래야 투자가 이뤄지고, 그 위에서 발전도 일어나요.


Q. 프로덕트 임팩트 이야기가 나왔는데, 그게 실제로 팀에서는 어떻게 작동하나요?

저희 연구의 우선순위는 전부 프로덕트 임팩트에서 파생돼요. 연구를 위한 연구를 하는 게 아니라, 제품에 가장 큰 임팩트를 내는 방법을 먼저 강구하고, 해당 방법이 연구가 필요하기 때문에 하고 있는 것이죠.

역설적으로, 그래서 자원을 확보하기도 상대적으로 쉬워요. “이걸로 제품을 만들고, 제품이 실제 비즈니스로 이어질 것이다”라는 연결이 명확하니까 설득이 되는 거죠. 학계 지향적인 랩실을 보면 아웃풋이 논문일 때 회사 입장에서 그걸 이윤으로 전환하기 어렵잖아요. 투자 설득도 힘들고요. 저희는 그 사이클 자체가 다르기 때문에, 규모에 비해 연구에 필요한 자원을 적극적으로 지원받는 편이에요.

그리고 이게 동기부여랑도 연결돼요. 해도 그만, 안 해도 그만인 일만큼 동기부여가 안 되는 것도 없거든요. 여기서는 오히려 "안 되면 안 돼"에 가깝고, 저는 그게 오히려 더 건강한 긴장감이라고 생각해요.


Q. 팀 문화에 대해서 간단히 말씀해 주신다면요?

적어도 제 팀에서는 모두가 CEO처럼 일해야 된다고 생각해요. 스스로 결정을 내릴 수 있어야 하고, 다른 사람이 내린 결정이 회사에 도움이 되지 않는다고 생각하면 그걸 분명히 이야기할 수 있어야 해요.

제가 결정을 다 내리면 제 머리에 보틀넥이 걸리는 거예요. 사람이 10명인데 의사결정의 중심이 한 사람에게만 몰리면 스타트업 속도는 나오기 어렵죠. 10명이면 적어도 7명 정도는 자기 판단으로 움직일 수 있어야 한다고 생각해요. 그래서 저는 제 범위 안에서 최대한의 책임과 권한을 드리는 방식이에요. 본인이 결정하고, 본인이 책임지는 구조.


Q. 글로벌 팀으로서의 협업은 어떤가요?

솔직히 말하면 가장 큰 건 타임존이에요. 언어도 아니고 문화도 아니고요. 되게 단순한 질문인데 답을 받는 데 13시간, 제가 그걸 확인하는 데 또 시간이 걸리면 대화 하나가 하루를 훌쩍 넘길수도 있어요. 사람은 기본적으로 순차적으로 생각하는 존재- 그러니까 sequential해서, 100개의 대화를 동시에 완벽하게 유지하기는 어렵거든요.

그런데 저한테 더 중요한 의미의 ‘글로벌’은 해외 사람들과 함께 일하느냐보다, 회사의 포지셔닝 자체가 글로벌한가예요. 우리 프로덕트가 글로벌 마켓에서 경쟁하고 있는가. 그 점에서는 크게 아쉬움이 없어요.


Q. 가장 의미 있다고 느낀 고객 사례가 있나요?

NDA 때문에 직접 언급은 못하지만, 북미 주요 방송사요. 딜 규모도 컸지만, 그보다 더 인상적이었던 건 고객의 요구사항이 명확할 때 얼마나 빠르게 개선이 가능한지를 보여준 사례였어요. 

SA분들이 현장에서 최대한 대응하다가 연구팀의 도움이 필요한 시점이 왔고, 저희가 영상을 보니 어디까지는 확실히 할 수 있고 어디부터는 아직 어렵겠다는게 명확하게 보이더라고요. 그래서 빠르게 판단한 걸 바탕으로 3주 안에 굉장히 큰 개선을 이뤘어요.

저희가 잘하는 협업 방식이 무엇인지 보여준 사례라고 생각해요. 현장에서 고객 문제를 정확히 가져오고, 연구가 빠르게 병목을 짚고, 다시 제품 개선으로 연결되는 흐름이 아주 잘 맞아떨어졌거든요.


Q. 합류를 고민하는 리서처나 개발자한테 하고 싶은 말이 있다면요?

일단 Product impact에 관심이 있어야 해요. 이게 0순위예요. 내가 만드는 것이 결국 제품으로 나가고, 실제로 많은 사람들이 쓰는 걸 보고 싶다. 이런 사람이 fit이 제일 좋아요.

기초 연구만 하고 싶다는 분에게는 솔직히 잘 맞지 않을 수 있어요. 저희는 연구를 하되, 그 연구의 목적과 우선순위가 전부 프로덕트 임팩트를 기준으로 세팅돼 있으니까요.

근데 역설적으로 그래서 좋은 거예요. 증명조차 기대되지 않는 환경보다는, 빨리 잘 만들어서 제품으로 내고 실제 비즈니스 성과로 이어지게 하자는 목표가 훨씬 건강하다고 생각하거든요. 목표가 분명하고, stakes가 있고, 그래서 자원도 따라와요.

비디오에 진심인 곳은 전 세계에 몇 군데 없어요. 그리고 여기서는 결과를 실제 제품 임팩트로 연결해야 한다는 기대치가 분명해요. 그런 환경에서 동기부여를 느끼는 사람이라면, 잘 맞을 거예요.


Kian은 트웰브랩스의 Pegasus 리서치 리드로, 영상 언어 모델 개발을 이끌고 있습니다. 트웰브랩스에서 함께할 리서처와 엔지니어를 찾고 있습니다. → twelvelabs.io/ko/careers