Company
모든 영상을 검색 가능하게 만들다: 트웰브랩스, 500만 달러 규모 시드 투자 유치

이재성
Twelve Labs가 Index Ventures의 주도 하에 500만 달러 규모의 시드 라운드 투자를 유치하며 세계에서 가장 강력한 영상 이해(video understanding) 인프라 구축에 나섭니다. 이번 라운드에는 인공지능 분야의 석학인 페이페이 리(Fei-Fei Li), 에이단 고메즈(Aidan Gomez), 오렌 에치오니(Oren Etzioni)를 비롯해, Scale AI, Patreon, Cohere의 창업자들이 투자자로 참여했습니다.
Twelve Labs가 Index Ventures의 주도 하에 500만 달러 규모의 시드 라운드 투자를 유치하며 세계에서 가장 강력한 영상 이해(video understanding) 인프라 구축에 나섭니다. 이번 라운드에는 인공지능 분야의 석학인 페이페이 리(Fei-Fei Li), 에이단 고메즈(Aidan Gomez), 오렌 에치오니(Oren Etzioni)를 비롯해, Scale AI, Patreon, Cohere의 창업자들이 투자자로 참여했습니다.

목차
뉴스레터 구독하기
뉴스레터 구독하기
영상 이해 분야의 최신 기술 업데이트, 튜토리얼 및 인사이트를 받아보세요.
영상 이해 분야의 최신 기술 업데이트, 튜토리얼 및 인사이트를 받아보세요.
AI로 영상을 검색하고, 분석하고, 탐색하세요.
2022. 3. 16.
5분
링크 복사하기
Hello World!
Twelve Labs는 Index Ventures가 주도하고 여러 투자자가 참여한 500만 달러 규모의 시드 투자 라운드 유치 소식을 기쁜 마음으로 전합니다.
Twelve Labs의 미션은 세계에서 가장 강력한 영상 이해 인프라를 제공함으로써, 개발자가 우리가 세상을 바라보고 듣고 이해하는 것처럼 세상을 인지할 수 있는 프로그램을 구축하도록 돕는 것입니다.
그리고 세상에 지능형 영상 이해 인프라가 필요하다는 우리의 확신에 공감하며, 이 미래를 함께 만들어가기 위해 이번 라운드에 동참해 주신 놀라운 파트너분들을 소개해 드립니다.
세계 최고 수준의 AI 석학 및 리더들
스탠퍼드 대학교 Fei-Fei Li 교수
스탠퍼드 대학교 Silvio Savarese 교수
Transformer 공동 개발자이자 Cohere AI CEO, Aidan Gomez
앨런 인공지능연구소(AI2) 교수 겸 CEO, Oren Etzioni
세상을 혁신하는 가장 창의적인 창업가들
Scale AI CEO, Alexandr Wang
Patreon CEO, Jack Conte
Duo Security CEO, Dug Song
Clickhouse CEO, Aaron Katz
센드버드(Sendbird) CEO, 김동신(John Kim)
Docugami CEO, Jean Paoli
패러다임을 전환하는 투자사들
Index Ventures
Radical Ventures
Expa

영상에 대한 전 세계적 의존도는 더욱 강력해지고 있습니다
오늘날 전 세계 데이터의 80% 이상이 영상 형식입니다. 실제로 Cisco는 2020년에 매월 글로벌 IP 네트워크를 통과하는 영상의 양을 모두 시청하려면 500만 년 이상이 걸릴 것으로 추정했습니다. Nielson에 따르면, 2021년 미국 성인은 하루 평균 5시간 21초 동안 영상을 시청했습니다. 이는 깨어 있는 시간의 무려 3분의 1에 달합니다!
굉장히 길어 보이지만, 우리가 매일 YouTube나 Netflix를 시청하고, Zoom으로 미팅을 하고, 스마트폰으로 아이들의 영상을 촬영하는 데 쓰는 시간을 생각하면 그리 놀라운 일도 아닙니다. 영상은 거스를 수 없는 대세이며, 우리 삶의 모든 영역에 더욱 깊숙이 자리 잡고 있습니다.
하지만 영상에는 아직 'CTRL+F' 기능이 없습니다
우리가 매일 소비하고 생성하는 방대한 양의 영상 데이터에도 불구하고, 영상 내 콘텐츠는 여전히 검색하기가 어렵습니다. 300페이지짜리 텍스트 문서에서 특정 문구를 찾으려면 간단한 'CTRL+F' 키로 1초도 안 돼서 찾을 수 있습니다. 하지만 영상 전체를 대상으로는요? 불가능합니다.
그동안 우리는 엄청난 시간이 걸리거나 비효율적인 불완전한 방식에 의존해야 했습니다. 가장 단순한 해결책은 원하는 장면이 나올 때까지 모든 영상을 수동으로 돌려보는 것입니다. 규모가 큰 조직이나 기업에서는 나중에 텍스트 검색으로 찾을 수 있도록 타임코드마다 일일이 일치하는 태그(메타데이터)를 작성하는 데 수많은 시간을 허비해 왔습니다. 오늘날 조금 더 기술적인 접근 방식은 빅테크 기업의 객체 탐지(Object Detection) API를 활용해 이미지에서 감지된 사물을 기반으로 태그를 자동 생성하는 것입니다.
불행히도, 그 어떤 유한한 수의 태그로도 장면을 완전히 묘사하기란 불가능합니다. 특정 장면이 제대로 태그되지 않았다면 메타데이터 검색을 통해 절대 찾을 수 없습니다. 무엇보다 중요한 것은 기존의 태깅 방식이 어떤 종류의 '맥락'도 고려할 수 없다는 점입니다. 그리고 맥락은 매우 중요합니다.
맥락은 왜 중요할까요? 인간은 장면 속 객체 간의 관계를 형성하고 과거와 현재를 연결하며 세상을 이해합니다. 우리가 검색하는 방식은 우리가 세상을 인지하고 기억하는 방식과 같습니다. 태그가 맥락적 이해를 담아낼 만큼 정교하지 않다면 검색에 실질적인 도움이 될 수 없습니다.
그래서 우리는 영상을 위한 'CTRL+F'를 만들었습니다.

우리는 마침내 세상이 필요로 하던 검색 기술을 개발했습니다. 기업의 방대한 Zoom 녹화본 중 주목해야 할 토론 포인트부터 미디어 기업 아카이브에서 긴급히 필요한 장면, 그리고 첫 아이와 함께한 특별한 날의 순간까지, 검색 한 번이면 찾고자 하는 바로 그 순간을 정확히 찾을 수 있습니다. 핵심은 기억나는 대로 머릿속에 떠오르는 내용을 입력하기만 하면 쿼리와 관련된 정확한 타임코드와 파일로 바로 이동한다는 점입니다. 이는 단순한 태그 매칭이 아닌 진짜 '검색'입니다.
작동 원리는 다음과 같습니다.

우리 AI는 영상의 내용을 시청하고 이해합니다. 여기에는 행동, 움직임, 대화와 같은 시각 및 청각적 요소가 포함됩니다. (물론 상황적, 시간적 맥락도 함께 고려합니다!) 그런 다음 영상의 모든 정보를 통계적으로 나타내는 벡터(Vector)라는 강력한 중간 데이터 형식으로 변환합니다. 사용자가 검색어를 입력하면 AI는 해당 쿼리와 가장 유사한 벡터를 찾아 가장 관련성 높은 장면과 영상 파일명을 자동으로 출력합니다.
그리고 우리는 개발자들이 이 AI에 손쉽게 접근할 수 있도록 직관적인 인터페이스를 고안해냈습니다. 개발자들은 간단한 Index 및 Search API 호출만으로 복잡한 검색 로직을 직접 고민할 필요 없이, 자신의 애플리케이션에 강력한 시맨틱 영상 검색 기능을 즉시 통합할 수 있습니다.
저희가 말하는 '강력함'은 말 그대로 세계 최고 수준을 의미합니다.
우리는 이 분야에서 공식적으로 세계 최고입니다. 지난해 말, "빅테크 기업들보다 더 뛰어난가요?"라는 질문을 계속 받는 것에 지쳐 마이크로소프트가 주최한 2021 ICCV VALUE Challenge(비디오 검색 대회)에 참가하기로 결정했습니다. 그리고 당당히 1위를 차지했습니다!
자본금도 없고 단 12명의 팀원만으로 글로벌 거대 기술 기업들을 제치고 마이크로소프트의 기존 최고 기록을 넘어섰다는 사실을 자랑스럽게 말씀드립니다. 글로벌 거인들을 어떻게 이길 수 있었는지에 대한 최고기술책임자(CTO) Aiden의 회고는 여기에서 확인하실 수 있습니다.
우리는 영상을 위한 '파운데이션 모델(Foundation Model)'을 구축하고 있습니다.
우리는 영상을 이해하는 것이 곧 세상을 이해하는 것이라 믿습니다. 영상을 벡터로 가장 정확하게 변환할 수 있는 강력한 영상 이해 인프라는 더 뛰어난 검색은 물론, 차세대 영상 생태계를 이끌어갈 다양한 지능형 애플리케이션의 토대가 될 것입니다. 비디오 투 비디오(Video-to-Video) 검색, 하이라이트 요약 생성, 콘텐츠 추천 등이 그 대표적인 예시입니다.
영상을 이해하는 파운데이션 모델을 구축함으로써, 우리는 개발자들이 인간처럼 세상을 보고, 듣고, 이해하는 프로그램을 만들 수 있도록 지원합니다.
오늘날 Twelve Labs가 영상 검색 부문에서 세계 최고일지라도, 여전히 해결해야 할 과학적 과제가 많고 기술을 더 발전시켜야 한다는 점을 잘 알고 있습니다. 파트너분들의 신뢰와 지원 속에서 우리가 만들어갈 혁신의 미래가 무척 기대되며, 깊은 감사의 마음을 전합니다.
Hello World!
Twelve Labs는 Index Ventures가 주도하고 여러 투자자가 참여한 500만 달러 규모의 시드 투자 라운드 유치 소식을 기쁜 마음으로 전합니다.
Twelve Labs의 미션은 세계에서 가장 강력한 영상 이해 인프라를 제공함으로써, 개발자가 우리가 세상을 바라보고 듣고 이해하는 것처럼 세상을 인지할 수 있는 프로그램을 구축하도록 돕는 것입니다.
그리고 세상에 지능형 영상 이해 인프라가 필요하다는 우리의 확신에 공감하며, 이 미래를 함께 만들어가기 위해 이번 라운드에 동참해 주신 놀라운 파트너분들을 소개해 드립니다.
세계 최고 수준의 AI 석학 및 리더들
스탠퍼드 대학교 Fei-Fei Li 교수
스탠퍼드 대학교 Silvio Savarese 교수
Transformer 공동 개발자이자 Cohere AI CEO, Aidan Gomez
앨런 인공지능연구소(AI2) 교수 겸 CEO, Oren Etzioni
세상을 혁신하는 가장 창의적인 창업가들
Scale AI CEO, Alexandr Wang
Patreon CEO, Jack Conte
Duo Security CEO, Dug Song
Clickhouse CEO, Aaron Katz
센드버드(Sendbird) CEO, 김동신(John Kim)
Docugami CEO, Jean Paoli
패러다임을 전환하는 투자사들
Index Ventures
Radical Ventures
Expa

영상에 대한 전 세계적 의존도는 더욱 강력해지고 있습니다
오늘날 전 세계 데이터의 80% 이상이 영상 형식입니다. 실제로 Cisco는 2020년에 매월 글로벌 IP 네트워크를 통과하는 영상의 양을 모두 시청하려면 500만 년 이상이 걸릴 것으로 추정했습니다. Nielson에 따르면, 2021년 미국 성인은 하루 평균 5시간 21초 동안 영상을 시청했습니다. 이는 깨어 있는 시간의 무려 3분의 1에 달합니다!
굉장히 길어 보이지만, 우리가 매일 YouTube나 Netflix를 시청하고, Zoom으로 미팅을 하고, 스마트폰으로 아이들의 영상을 촬영하는 데 쓰는 시간을 생각하면 그리 놀라운 일도 아닙니다. 영상은 거스를 수 없는 대세이며, 우리 삶의 모든 영역에 더욱 깊숙이 자리 잡고 있습니다.
하지만 영상에는 아직 'CTRL+F' 기능이 없습니다
우리가 매일 소비하고 생성하는 방대한 양의 영상 데이터에도 불구하고, 영상 내 콘텐츠는 여전히 검색하기가 어렵습니다. 300페이지짜리 텍스트 문서에서 특정 문구를 찾으려면 간단한 'CTRL+F' 키로 1초도 안 돼서 찾을 수 있습니다. 하지만 영상 전체를 대상으로는요? 불가능합니다.
그동안 우리는 엄청난 시간이 걸리거나 비효율적인 불완전한 방식에 의존해야 했습니다. 가장 단순한 해결책은 원하는 장면이 나올 때까지 모든 영상을 수동으로 돌려보는 것입니다. 규모가 큰 조직이나 기업에서는 나중에 텍스트 검색으로 찾을 수 있도록 타임코드마다 일일이 일치하는 태그(메타데이터)를 작성하는 데 수많은 시간을 허비해 왔습니다. 오늘날 조금 더 기술적인 접근 방식은 빅테크 기업의 객체 탐지(Object Detection) API를 활용해 이미지에서 감지된 사물을 기반으로 태그를 자동 생성하는 것입니다.
불행히도, 그 어떤 유한한 수의 태그로도 장면을 완전히 묘사하기란 불가능합니다. 특정 장면이 제대로 태그되지 않았다면 메타데이터 검색을 통해 절대 찾을 수 없습니다. 무엇보다 중요한 것은 기존의 태깅 방식이 어떤 종류의 '맥락'도 고려할 수 없다는 점입니다. 그리고 맥락은 매우 중요합니다.
맥락은 왜 중요할까요? 인간은 장면 속 객체 간의 관계를 형성하고 과거와 현재를 연결하며 세상을 이해합니다. 우리가 검색하는 방식은 우리가 세상을 인지하고 기억하는 방식과 같습니다. 태그가 맥락적 이해를 담아낼 만큼 정교하지 않다면 검색에 실질적인 도움이 될 수 없습니다.
그래서 우리는 영상을 위한 'CTRL+F'를 만들었습니다.

우리는 마침내 세상이 필요로 하던 검색 기술을 개발했습니다. 기업의 방대한 Zoom 녹화본 중 주목해야 할 토론 포인트부터 미디어 기업 아카이브에서 긴급히 필요한 장면, 그리고 첫 아이와 함께한 특별한 날의 순간까지, 검색 한 번이면 찾고자 하는 바로 그 순간을 정확히 찾을 수 있습니다. 핵심은 기억나는 대로 머릿속에 떠오르는 내용을 입력하기만 하면 쿼리와 관련된 정확한 타임코드와 파일로 바로 이동한다는 점입니다. 이는 단순한 태그 매칭이 아닌 진짜 '검색'입니다.
작동 원리는 다음과 같습니다.

우리 AI는 영상의 내용을 시청하고 이해합니다. 여기에는 행동, 움직임, 대화와 같은 시각 및 청각적 요소가 포함됩니다. (물론 상황적, 시간적 맥락도 함께 고려합니다!) 그런 다음 영상의 모든 정보를 통계적으로 나타내는 벡터(Vector)라는 강력한 중간 데이터 형식으로 변환합니다. 사용자가 검색어를 입력하면 AI는 해당 쿼리와 가장 유사한 벡터를 찾아 가장 관련성 높은 장면과 영상 파일명을 자동으로 출력합니다.
그리고 우리는 개발자들이 이 AI에 손쉽게 접근할 수 있도록 직관적인 인터페이스를 고안해냈습니다. 개발자들은 간단한 Index 및 Search API 호출만으로 복잡한 검색 로직을 직접 고민할 필요 없이, 자신의 애플리케이션에 강력한 시맨틱 영상 검색 기능을 즉시 통합할 수 있습니다.
저희가 말하는 '강력함'은 말 그대로 세계 최고 수준을 의미합니다.
우리는 이 분야에서 공식적으로 세계 최고입니다. 지난해 말, "빅테크 기업들보다 더 뛰어난가요?"라는 질문을 계속 받는 것에 지쳐 마이크로소프트가 주최한 2021 ICCV VALUE Challenge(비디오 검색 대회)에 참가하기로 결정했습니다. 그리고 당당히 1위를 차지했습니다!
자본금도 없고 단 12명의 팀원만으로 글로벌 거대 기술 기업들을 제치고 마이크로소프트의 기존 최고 기록을 넘어섰다는 사실을 자랑스럽게 말씀드립니다. 글로벌 거인들을 어떻게 이길 수 있었는지에 대한 최고기술책임자(CTO) Aiden의 회고는 여기에서 확인하실 수 있습니다.
우리는 영상을 위한 '파운데이션 모델(Foundation Model)'을 구축하고 있습니다.
우리는 영상을 이해하는 것이 곧 세상을 이해하는 것이라 믿습니다. 영상을 벡터로 가장 정확하게 변환할 수 있는 강력한 영상 이해 인프라는 더 뛰어난 검색은 물론, 차세대 영상 생태계를 이끌어갈 다양한 지능형 애플리케이션의 토대가 될 것입니다. 비디오 투 비디오(Video-to-Video) 검색, 하이라이트 요약 생성, 콘텐츠 추천 등이 그 대표적인 예시입니다.
영상을 이해하는 파운데이션 모델을 구축함으로써, 우리는 개발자들이 인간처럼 세상을 보고, 듣고, 이해하는 프로그램을 만들 수 있도록 지원합니다.
오늘날 Twelve Labs가 영상 검색 부문에서 세계 최고일지라도, 여전히 해결해야 할 과학적 과제가 많고 기술을 더 발전시켜야 한다는 점을 잘 알고 있습니다. 파트너분들의 신뢰와 지원 속에서 우리가 만들어갈 혁신의 미래가 무척 기대되며, 깊은 감사의 마음을 전합니다.




