PR·뉴스

트웰브랩스, 비디오의 맥락을 이해하는 AI 기술로 1,200만 달러 투자 유치

카일 위거스

Twelve Labs가 Radical Ventures의 주도로 1,200만 달러 규모의 시드 익스텐션 투자를 유치했습니다. 이를 통해 비디오에서 움직임, 객체, 소리, 음성을 추출해 내는 AI 기술을 개발하여, 시맨틱 검색 뿐만 아니라 비디오 요약, 챕터 생성, 질의응답과 같은 차세대 애플리케이션을 실현하고자 합니다.

Twelve Labs가 Radical Ventures의 주도로 1,200만 달러 규모의 시드 익스텐션 투자를 유치했습니다. 이를 통해 비디오에서 움직임, 객체, 소리, 음성을 추출해 내는 AI 기술을 개발하여, 시맨틱 검색 뿐만 아니라 비디오 요약, 챕터 생성, 질의응답과 같은 차세대 애플리케이션을 실현하고자 합니다.

목차

No headings found on page

뉴스레터 구독하기

뉴스레터 구독하기

영상 이해 분야의 최신 기술 업데이트, 튜토리얼 및 인사이트를 받아보세요.

영상 이해 분야의 최신 기술 업데이트, 튜토리얼 및 인사이트를 받아보세요.

AI로 영상을 검색하고, 분석하고, 탐색하세요.

2022. 12. 5.

4분

링크 복사하기

big data wave

데이터 사이언티스트 출신인 이재우(Jae Lee) 대표에게, TikTok, Vimeo, YouTube와 같은 플랫폼의 급성장으로 우리 삶의 거대한 일부가 된 동영상을 맥락 이해라는 기술적 장벽 때문에 검색하기 어렵다는 사실은 늘 납득하기 어려운 일이었습니다. 동영상의 제목, 설명, 태그를 검색하는 것은 기본 알고리즘만으로도 충분히 쉬웠습니다. 하지만 동영상 내부에서 특정 순간과 장면을 검색하는 것은 오랫동안 기술의 한계를 벗어난 일이었으며, 특히 그 순간과 장면이 명확하게 레이블링되어 있지 않은 경우에는 더욱 그러했습니다.

이 문제를 해결하기 위해 이 대표는 기술 업계의 동료들과 함께 비디오 검색 및 이해를 위한 클라우드 서비스를 구축했습니다. 이것이 바로 Twelve Labs (트웰브랩스)가 되었고, 이어서 1,700만 달러의 벤처 캐피탈을 유치하게 되었습니다. 이 중 1,200만 달러는 오늘 마감된 시드 익스텐션 라운드를 통해 확보한 자금입니다. Radical Ventures가 이번 익스텐션을 주도했으며 Index Ventures, WndrCo, Spring Ventures, Weights & Biases의 CEO Lukas Biewald 등이 참여했다고 이 대표는 TechCrunch에 보낸 이메일에서 밝혔습니다.

Twelve Labs의 비전은 개발자들에게 가장 강력한 비디오 이해 인프라를 제공함으로써, 우리처럼 세상을 보고, 듣고, 이해할 수 있는 프로그램을 개발하도록 돕는 것입니다.

이 대표는 "Twelve Labs의 비전은 개발자들에게 가장 강력한 비디오 이해 인프라를 제공함으로써, 우리처럼 세상을 보고, 듣고, 이해할 수 있는 프로그램을 개발하도록 돕는 것"이라고 말했습니다.

현재 비공개 베타 서비스 중인 Twelve Labs는 AI를 활용해 비디오에서 움직임과 행동, 객체 및 인물, 소리, 화면 상의 텍스트, 음성 등 '풍부한 정보'를 추출하고 이들 간의 관계를 식별합니다. 플랫폼은 이러한 다양한 요소를 '벡터(vector)'라고 불리는 수학적 표현으로 변환하고 프레임 간의 '시간적 연결(temporal connections)'을 형성하여, 비디오 장면 검색과 같은 애플리케이션을 가능하게 합니다.

이 대표는 “개발자들이 지능형 비디오 애플리케이션을 제약 없이 개발할 수 있도록 돕겠다는 회사의 비전을 실현하기 위해, Twelve Labs 팀은 멀티모달 비디오 이해를 위한 '파운데이션 모델(foundation models)'을 구축하고 있다”며 “개발자들은 API 제품군을 통해 이러한 모델에 액세스할 수 있으며, 의미론적(semantic) 검색뿐만 아니라 장편 비디오의 '챕터화(chapterization)', 요약본 생성, 비디오 질의응답(Video Q&A) 등 다양한 작업을 수행할 수 있게 될 것”이라고 설명했습니다.

구글도 자사의 MUM AI 시스템을 통해 비디오 이해에 유사한 방식으로 접근하고 있습니다. 이 시스템은 오디오, 텍스트, 시각적 콘텐츠를 바탕으로 비디오 내의 주제(예: '아크릴화 미술 도구')를 파악하여 구글 검색 및 유튜브 전반에서 비디오 추천의 성능을 높이는 데 사용됩니다. 하지만 기술력이 비등할지라도 Twelve Labs는 이를 시장에 최초로 선보인 공급업체 중 하나입니다. 구글은 MUM을 내부용으로만 유지하기로 결정하고 공개 API를 통한 제공을 거부해 왔기 때문입니다.

물론 구글뿐만 아니라 마이크로소프트와 아마존 역시 비디오 내의 객체, 장소, 행동을 인식하고 프레임 수준에서 풍부한 메타데이터를 추출하는 서비스(즉, Google Cloud Video AI, Azure Video Indexer, AWS Rekognition)를 제공하고 있습니다. 또한 어떠한 유형의 비디오든 인덱싱하여 녹화 및 실시간 스트리밍 콘텐츠 모두에 태그를 추가할 수 있다고 주장하는 프랑스의 컴퓨터 비전 스타트업인 Reminiz도 존재합니다. 하지만 이 대표는 자사 플랫폼이 고객의 특정 비디오 콘텐츠 카테고리에 맞춰 AI를 미세 조정(fine-tune)할 수 있다는 점에서 충분한 차별성을 확보하고 있다고 강조합니다.

"저희가 발견한 것은 특정 문제를 감지하도록 설계된 좁은 의미의 AI(Narrow AI) 제품들이 통제된 환경의 이상적인 시나리오에서는 높은 정확도를 보여주지만, 복잡한 실제 데이터에는 제대로 확장 적용되지 못한다는 점이었습니다"라고 이 대표는 말했습니다. "이러한 제품들은 규칙 기반 시스템에 가깝게 작동하기 때문에 변수가 발생할 때 일반화하는 능력이 부족합니다. 저희는 이 역시 맥락 이해의 부재에서 비롯된 한계로 보고 있습니다. 맥락에 대한 이해는 인간으로 하여금 실제 세상의 겉보기에 서로 다른 상황들 속에서도 일반화를 가능하게 하는 고유한 능력이며, 바로 이 지점에서 Twelve Labs의 독보적인 경쟁력이 드러납니다."

이 대표는 검색을 넘어 Twelve Labs의 기술이 광고 삽입 및 콘텐츠 모더레이션(의도 파악 등을 통해 예컨대 칼이 등장하는 비디오 중 어떤 것이 폭력적인 영상이고 어떤 것이 요리 강의 영상인지를 지능적으로 구분하는 작업)을 촉진할 수 있다고 말합니다. 또한 미디어 분석 및 실시간 피드백에도 활용될 수 있으며, 비디오에서 하이라이트 영상을 자동으로 생성하는 데도 쓰일 수 있다고 설명합니다.

설립(2021년 3월)된 지 1년 남짓 지난 현재, Twelve Labs는 이미 유료 고객사들을 확보하고 있으며(이 대표는 구체적인 수를 밝히지 않았습니다), 오라클(Oracle)의 클라우드 인프라를 활용해 AI 모델을 학습시키는 다년 계약을 체결했습니다. 앞으로 이 스타트업은 기술 구축과 팀 확장에 집중 투자할 계획입니다. (이 대표는 현재 Twelve Labs의 직원 규모를 밝히지 않았으나, LinkedIn 데이터에 따르면 약 18명 수준인 것으로 나타납니다.)

“대형 모델을 통해 얻을 수 있는 가치가 엄청남에도 불구하고, 대부분의 기업들이 이러한 모델을 직접 학습시키고 운영 및 유지 관리하는 것은 현실적으로 타당하지 않습니다. Twelve Labs 플랫폼을 활용하면, 어떤 조직이든 단 몇 번의 직관적인 API 호출만으로 강력한 비디오 이해 기능을 활용할 수 있습니다”라고 이 대표는 강조했습니다. “AI 혁신의 미래 방향은 멀티모달 비디오 이해를 향해 곧장 나아가고 있으며, Twelve Labs는 2023년에 그 한계를 더욱 넓혀나갈 수 있는 독보적인 위치를 점하고 있습니다.”‍

big data wave

데이터 사이언티스트 출신인 이재우(Jae Lee) 대표에게, TikTok, Vimeo, YouTube와 같은 플랫폼의 급성장으로 우리 삶의 거대한 일부가 된 동영상을 맥락 이해라는 기술적 장벽 때문에 검색하기 어렵다는 사실은 늘 납득하기 어려운 일이었습니다. 동영상의 제목, 설명, 태그를 검색하는 것은 기본 알고리즘만으로도 충분히 쉬웠습니다. 하지만 동영상 내부에서 특정 순간과 장면을 검색하는 것은 오랫동안 기술의 한계를 벗어난 일이었으며, 특히 그 순간과 장면이 명확하게 레이블링되어 있지 않은 경우에는 더욱 그러했습니다.

이 문제를 해결하기 위해 이 대표는 기술 업계의 동료들과 함께 비디오 검색 및 이해를 위한 클라우드 서비스를 구축했습니다. 이것이 바로 Twelve Labs (트웰브랩스)가 되었고, 이어서 1,700만 달러의 벤처 캐피탈을 유치하게 되었습니다. 이 중 1,200만 달러는 오늘 마감된 시드 익스텐션 라운드를 통해 확보한 자금입니다. Radical Ventures가 이번 익스텐션을 주도했으며 Index Ventures, WndrCo, Spring Ventures, Weights & Biases의 CEO Lukas Biewald 등이 참여했다고 이 대표는 TechCrunch에 보낸 이메일에서 밝혔습니다.

Twelve Labs의 비전은 개발자들에게 가장 강력한 비디오 이해 인프라를 제공함으로써, 우리처럼 세상을 보고, 듣고, 이해할 수 있는 프로그램을 개발하도록 돕는 것입니다.

이 대표는 "Twelve Labs의 비전은 개발자들에게 가장 강력한 비디오 이해 인프라를 제공함으로써, 우리처럼 세상을 보고, 듣고, 이해할 수 있는 프로그램을 개발하도록 돕는 것"이라고 말했습니다.

현재 비공개 베타 서비스 중인 Twelve Labs는 AI를 활용해 비디오에서 움직임과 행동, 객체 및 인물, 소리, 화면 상의 텍스트, 음성 등 '풍부한 정보'를 추출하고 이들 간의 관계를 식별합니다. 플랫폼은 이러한 다양한 요소를 '벡터(vector)'라고 불리는 수학적 표현으로 변환하고 프레임 간의 '시간적 연결(temporal connections)'을 형성하여, 비디오 장면 검색과 같은 애플리케이션을 가능하게 합니다.

이 대표는 “개발자들이 지능형 비디오 애플리케이션을 제약 없이 개발할 수 있도록 돕겠다는 회사의 비전을 실현하기 위해, Twelve Labs 팀은 멀티모달 비디오 이해를 위한 '파운데이션 모델(foundation models)'을 구축하고 있다”며 “개발자들은 API 제품군을 통해 이러한 모델에 액세스할 수 있으며, 의미론적(semantic) 검색뿐만 아니라 장편 비디오의 '챕터화(chapterization)', 요약본 생성, 비디오 질의응답(Video Q&A) 등 다양한 작업을 수행할 수 있게 될 것”이라고 설명했습니다.

구글도 자사의 MUM AI 시스템을 통해 비디오 이해에 유사한 방식으로 접근하고 있습니다. 이 시스템은 오디오, 텍스트, 시각적 콘텐츠를 바탕으로 비디오 내의 주제(예: '아크릴화 미술 도구')를 파악하여 구글 검색 및 유튜브 전반에서 비디오 추천의 성능을 높이는 데 사용됩니다. 하지만 기술력이 비등할지라도 Twelve Labs는 이를 시장에 최초로 선보인 공급업체 중 하나입니다. 구글은 MUM을 내부용으로만 유지하기로 결정하고 공개 API를 통한 제공을 거부해 왔기 때문입니다.

물론 구글뿐만 아니라 마이크로소프트와 아마존 역시 비디오 내의 객체, 장소, 행동을 인식하고 프레임 수준에서 풍부한 메타데이터를 추출하는 서비스(즉, Google Cloud Video AI, Azure Video Indexer, AWS Rekognition)를 제공하고 있습니다. 또한 어떠한 유형의 비디오든 인덱싱하여 녹화 및 실시간 스트리밍 콘텐츠 모두에 태그를 추가할 수 있다고 주장하는 프랑스의 컴퓨터 비전 스타트업인 Reminiz도 존재합니다. 하지만 이 대표는 자사 플랫폼이 고객의 특정 비디오 콘텐츠 카테고리에 맞춰 AI를 미세 조정(fine-tune)할 수 있다는 점에서 충분한 차별성을 확보하고 있다고 강조합니다.

"저희가 발견한 것은 특정 문제를 감지하도록 설계된 좁은 의미의 AI(Narrow AI) 제품들이 통제된 환경의 이상적인 시나리오에서는 높은 정확도를 보여주지만, 복잡한 실제 데이터에는 제대로 확장 적용되지 못한다는 점이었습니다"라고 이 대표는 말했습니다. "이러한 제품들은 규칙 기반 시스템에 가깝게 작동하기 때문에 변수가 발생할 때 일반화하는 능력이 부족합니다. 저희는 이 역시 맥락 이해의 부재에서 비롯된 한계로 보고 있습니다. 맥락에 대한 이해는 인간으로 하여금 실제 세상의 겉보기에 서로 다른 상황들 속에서도 일반화를 가능하게 하는 고유한 능력이며, 바로 이 지점에서 Twelve Labs의 독보적인 경쟁력이 드러납니다."

이 대표는 검색을 넘어 Twelve Labs의 기술이 광고 삽입 및 콘텐츠 모더레이션(의도 파악 등을 통해 예컨대 칼이 등장하는 비디오 중 어떤 것이 폭력적인 영상이고 어떤 것이 요리 강의 영상인지를 지능적으로 구분하는 작업)을 촉진할 수 있다고 말합니다. 또한 미디어 분석 및 실시간 피드백에도 활용될 수 있으며, 비디오에서 하이라이트 영상을 자동으로 생성하는 데도 쓰일 수 있다고 설명합니다.

설립(2021년 3월)된 지 1년 남짓 지난 현재, Twelve Labs는 이미 유료 고객사들을 확보하고 있으며(이 대표는 구체적인 수를 밝히지 않았습니다), 오라클(Oracle)의 클라우드 인프라를 활용해 AI 모델을 학습시키는 다년 계약을 체결했습니다. 앞으로 이 스타트업은 기술 구축과 팀 확장에 집중 투자할 계획입니다. (이 대표는 현재 Twelve Labs의 직원 규모를 밝히지 않았으나, LinkedIn 데이터에 따르면 약 18명 수준인 것으로 나타납니다.)

“대형 모델을 통해 얻을 수 있는 가치가 엄청남에도 불구하고, 대부분의 기업들이 이러한 모델을 직접 학습시키고 운영 및 유지 관리하는 것은 현실적으로 타당하지 않습니다. Twelve Labs 플랫폼을 활용하면, 어떤 조직이든 단 몇 번의 직관적인 API 호출만으로 강력한 비디오 이해 기능을 활용할 수 있습니다”라고 이 대표는 강조했습니다. “AI 혁신의 미래 방향은 멀티모달 비디오 이해를 향해 곧장 나아가고 있으며, Twelve Labs는 2023년에 그 한계를 더욱 넓혀나갈 수 있는 독보적인 위치를 점하고 있습니다.”‍