내가 수석 과학자(Chief Scientist)로서 트웰브랩스에 합류한 이유

서민준

BiDAF 네트워크의 창시자이자 KAIST AI 언어 및 지식 연구실(Language & Knowledge Lab)의 연구소장인 서민준 교수가 Twelve Labs의 최고과학자(Chief Scientist)로 합류하여 차세대 멀티모달 비디오 파운데이션 모델 개발을 이끕니다.

In this article

No headings found on page

뉴스레터 구독하기

영상 이해 분야의 최신 기술 업데이트, 튜토리얼 및 인사이트를 받아보세요.

AI로 영상을 검색하고, 분석하고, 탐색하세요.

플레이그라운드 체험하기

2023. 2. 22.

1분

링크 복사하기

저는 전 세계의 모든 지식으로 증강된 지능형 기계를 통해 우리의 삶을 풍요롭게 만든다는 개념에 항상 매료되어 왔습니다. 이러한 관심의 연장선상에서, 제 연구 분야는 주로 우리가 축적해 온 텍스트 기반 지식에 접근할 수 있게 해주는 신경 인터페이스(neural interfaces)에 맞춰져 있었습니다. 저는 기존 정보를 검색할 뿐만 아니라 추론을 통해 새로운 지식을 발견할 수 있도록, 언어 모델을 방대한 정보 풀에 어떻게 연결할 수 있을지 탐구하는 데 대부분의 시간을 보내고 있습니다.

그 다음 단계는 비디오입니다. 비디오는 우리가 살고 있는 세상과 그 안의 지식을 보여주는 가장 강력한 표현 수단이기 때문입니다. 전 세계적으로 사용할 수 있는 텍스트 데이터가 빠르게 고갈됨에 따라, 차세대 파운데이션 모델은 비디오에 잠재된 미개척 정보를 활용하는 멀티모달(multimodal) 형태가 될 가능성이 매우 높습니다. 그리고 이러한 모델을 구축하는 선구자들은 비디오가 다루기 매우 까다로운 만큼 엄청난 엔지니어링 및 연구 과제를 극복해야 할 것입니다. 이는 인공지능의 미래에 영향을 미치고 수많은 산업을 변화시킬 엄청나게 대담한 비전입니다.

이것이 바로 제가 최고 과학자(Chief Scientist)로서 Twelve Labs 팀에 합류하게 되어 매우 기쁜 이유입니다. 저는 종종 뛰어난 인재들을 만나고, 때로는 스타 플레이어들로 가득 찬 팀을 보기도 합니다. 하지만 고도의 기술력과 겸손함, 긴밀한 정렬(alignment), 그리고 무엇보다도 시장에 대한 높은 이해도를 모두 갖춘 팀을 만나는 것은 정말 드문 일입니다. 우리는 작고 젊은 팀이지만, Twelve Labs의 클로즈드 베타 제품은 이미 다른 비디오 인텔리전스 API보다 고객들의 높은 선호를 받고 있습니다. 최근 OCI와의 다년 단위 컴퓨팅 파트너십과 그동안 구축해 온 대규모 독점 데이터셋을 바탕으로, 우리 팀이 비디오 이해(video understanding) 분야에서 큰 진전을 이루어낼 것으로 기대합니다.

역사가 증명하듯, 앞으로 등장할 차세대 비디오 기반 애플리케이션들은 시작 단계부터 지능적이어야 하며, Twelve Labs는 이들의 신뢰할 수 있는 인프라로서 전략적 입지를 다지게 될 것입니다. 과학, 엔지니어링, 그리고 제품이 진정으로 하나로 결합될 때 비디오 파운데이션 모델로 어떤 놀라운 일들을 해낼 수 있는지 우리 팀과 함께 세상에 보여줄 수 있기를 기대합니다.

민준 소개‍

서민준 님은 KAIST AI 대학원의 조교수이자 언어 및 지식 연구실(Language & Knowledge Lab)의 디렉터입니다. 양방향 어텐션 흐름(BiDAF) 네트워크의 창시자이며, 2019년 페이스북 펠로우십(Facebook Fellowship) 및 2020년 AI2 지속 영향력 논문상(Lasting Impact Paper Award)을 수상했습니다. 워싱턴 대학교에서 컴퓨터 과학 박사 학위를 취득했습니다.