기업들은 비디오 분석 등을 위해 다양한 모달리티를 결합한 멀티모달 AI 모델을 상용화하고 있습니다.

카일 위거스 (Kyle Wiggers)

멀티모달 AI가 연구실을 벗어나 상용 제품으로 진화하고 있습니다. 트웰브랩스(Twelve Labs), CLIPr, 구글, 메타와 같은 기업들은 비디오, 오디오, 텍스트를 동시에 분석할 수 있는 시스템을 구축하고 있습니다. 이러한 변화는 검색, 콘텐츠 모더레이션, 미디어 분석 분야에서 새로운 가능성을 열어주고 있는 한편, 비용, 편향성, 오남용에 대한 현실적인 과제도 던져주고 있습니다.

In this article

No headings found on page

뉴스레터 구독하기

영상 이해 분야의 최신 기술 업데이트, 튜토리얼 및 인사이트를 받아보세요.

AI로 영상을 검색하고, 분석하고, 탐색하세요.

플레이그라운드 체험하기

2022. 3. 22.

7분

링크 복사하기

이달 초, 마이크로소프트의 공동 창업자인 고(故) 폴 앨런이 설립한 비영리 단체인 앨런 인공지능 연구소(Allen Institute for AI)의 연구원들은 비디오를 "대규모"로 분석, 검색, 질문에 답변할 수 있는 "차세대" AI 애플리케이션의 일부라고 설명하는 시스템의 인터랙티브 데모를 출시했습니다. merlot reserve(멜로 리저브)라고 불리는 이 시스템을 연구하기 위해 연구원들은 시스템이 2,000만 개의 유튜브 비디오를 "시청"하도록 하여 이미지, 사운드, 자막 간의 관계를 학습하게 함으로써, 예를 들어 "비디오 속 인물이 먹고 싶은 음식은 무엇인가요?" 또는 "이 비디오 속 소년은 전에 바다에서 수영한 적이 있나요?"와 같은 질문에 답변할 수 있도록 했습니다.

Merlot Reserve와 그 전신인 Merlot는 최초의 "멀티모달" AI 시스템이 아닙니다. 오디오, 비주얼, 텍스트의 정보를 처리하고 연결할 수 있는 시스템은 수년 전부터 존재해 왔습니다. 이러한 기술은 인간과 더 유사하게 세상을 이해하는 능력을 계속 향상시키고 있습니다. 2021년에 출시된 샌프란시스코의 연구소 OpenAI의 DALL-E는 "아보카도 모양의 안락의자"와 같은 간단한 텍스트 설명으로부터 실제 혹은 상상 속 사물의 이미지를 생성할 수 있습니다. 최근 구글에서 출시한 VATT라는 시스템은 비디오의 이벤트(예: "수영하는 남자")에 캡션을 달 수 있을 뿐만 아니라 오디오 클립을 분류하고 이미지 속 사물을 인식할 수 있습니다.

그러나 최근까지 이러한 멀티모달 AI 시스템은 엄격히 연구 영역에만 머물러 있었습니다. 이제 세상이 바뀌고 있으며, 점점 더 상업화되고 있습니다.

CLIPr의 공동 창업자이자 CTO인 애런 슬로만(Aaron Sloman)은 VentureBeat와의 이메일에서 "자동 음성 인식, 이미지 라벨링 및 인식, 신경망 및 기존 머신러닝 모델을 포함한 다양한 멀티모달 기술이 [특히 텍스트 처리와 결합될 때] 텍스트, 음성 및 이미지에 대한 이해를 얻는 데 [도움을 줄 수 있습니다]"라고 밝혔습니다. CLIPr은 비디오 분석과 같은 애플리케이션에 멀티모달 AI 시스템을 사용하는 신생 기업 중 하나입니다. 메타(구 페이스북)와 구글을 포함한 기술 거대 기업들이 이 그룹에 속해 있으며, 시스템이 비디오에서 객체, 화면의 텍스트, 음성 및 사람을 포함한 특징을 인식할 수 있다고 주장하는 Twelve Labs와 같은 스타트업도 포함되어 있습니다.

"[동료 공동 창업자들과 저는] 10~15초 간격으로 건너뛰며 탐색하는 대신 비디오에서 중요하고 관련성 높은 클립을 쉽게 추출할 수 있도록 돕는 솔루션을 찾았고, 솔루션을 찾을 수 없었을 때 직접 만들기로 결정했습니다... 우리의 이름을 딴 비디오 인덱싱 플랫폼은... 녹화된 비디오를 수집하고 전사, 주제 및 하위 주제별로 검색할 수 있도록 지원합니다."라고 슬로만은 말했습니다. "음성의 리듬, 강세 및 억양인 운율을 분석하는 것도 우리에게 매우 중요합니다. 음성 분석을 회의 프레젠테이션 슬라이드와 같은 이미지 분석과 연계하여 이러한 톤 변화의 정확성을 평가하거나 비디오 내 참가자의 역동적인 제스처를 감지하는 데 활용합니다."

CLIPr은 주로 미디어 출판, 기업 및 이벤트 등 "다양한" 산업 분야에 고객을 보유하고 있다고 슬로만은 주장합니다. 향후 이 스타트업은 이 기술을 라이브 스트리밍 비디오에 적용하고, 예를 들어 이벤트의 기조연설 세션을 가져와 하이라이트 릴을 자동으로 생성할 수 있는 "역할별" 봇을 만드는 것을 목표로 하고 있습니다.

"비디오는 현대 커뮤니케이션에서 가장 중요하지만 제대로 활용되지 못하고 있는 수단이며, 우리의 목표는 비디오를 텍스트로 된 콘텐츠만큼 접근하기 쉽게 만드는 것입니다."라고 슬로만은 덧붙였습니다.

멀티모달의 미래

멀티모달 시스템을 제외하면 AI는 사람과 같은 방식으로 세상을 경험하지 못합니다. 예를 들어 음성 인식 시스템은 음성이라는 한 가지 유형의 데이터만 이해할 수 있으며 해당 음성의 맥락을 이해하지 못합니다. 반면 사람들은 모든 감각(예: 시각, 청각, 후각)을 사용하여 이벤트를 시간 속에서 처리하고 구체화합니다. 예를 들어 팝콘을 튀기는 사람의 이미지와 캡션을 보고 사람은 빈 냄비에 부서지는 생 옥수수 알갱이 소리와 팝콘이 팽창하면서 터지는 소리와 같은 장면의 소리를 상상할 수 있습니다.

워싱턴 대학교 컴퓨터 공학 박사 과정이자 Merlot Reserve 프로젝트의 수석 연구원인 로완 젤러스(Rowan Zellers)는 VentureBeat와의 이메일에서 "[이러한 멀티모달 모델 중 다수는 이미지에 특화되어 있으며 리터럴하게 표시되는 내용을 설명하는 등 시각적 인식에 초점을 맞추고 있습니다]"라며, "앞으로는 검색 애플리케이션 등에서 모델이 비디오 속 사람들이 무엇을(그리고 왜) 하고 있는지에 대한 질문에 답하는 것을 볼 수 있을 것입니다."라고 말했습니다.

예를 들어, Twelve Labs는 자사 시스템이 클립을 벡터 임베딩(Vector Embeddings)이라는 수학적 표현으로 변환하여 모든 비디오 데이터베이스를 분석 가능하게 만든다고 주장합니다. 재 리(Jae Lee) 대표에 따르면 고객들은 이를 사용하여 추천 엔진, 콘텐츠 모더레이션 시스템, 미디어 분석 대시보드를 구축해 왔습니다.

"[Twelve Labs는] 시맨틱 검색뿐만 아니라 캡션, 하이라이트, 요약 생성 등 다양한 작업에 활용할 수 있는 강력한 비디오 임베딩을 생성할 수 있는 모델을 구축하기 위해 노력하고 있습니다"라고 리 대표는 VentureBeat와의 이메일에서 밝혔습니다. "우리의 비디오 모델은 언어 감독 하에 훈련됩니다. 비디오에서 이미지, 오디오, 전사, 모션 등 다양한 정보 모듈(멀티모달리티)을 추출하고 이 정보를 단일 벡터 표현으로 융합합니다. 해당 표현은 자연어 처리(NLP) 기술을 사용하여 처리되는 관련 텍스트, 즉 문장들을 기반으로 훈련됩니다."

스타트업 외에도 구글은 지난해 서로 다른 언어와 디바이스에서 구글 검색 경험을 향상시키기 위해 멀티태스크 통합 모델(MUM)이라는 멀티모달 AI 시스템을 사용할 계획이라고 밝혔습니다. 구글 검색에서 MUM은 쿼리(예: "아크릴화")를 수집하여 단계별 지침과 같은 리소스를 집중 조명하고 오디오, 텍스트 및 시각적 콘텐츠를 기반으로 비디오의 주제(예: "아크릴 기법")를 골라내는 새로운 기능을 지원할 예정입니다.

메타는 최근 페이스북과 인스타그램 메시지의 콘텐츠(텍스트, 이미지, URL 포함)가 커뮤니티 가이드라인을 위반하는지 여부를 판단하기 위해 Few-Shot Learner(FSL)라는 멀티모달 시스템을 적용하고 있다고 밝혔습니다. 메타는 FSL이 100개 이상의 언어로 된 수십억 개의 페이스북 게시물과 이미지 데이터베이스를 기반으로 개발되었다고 주장합니다.

젤러스는 향후 이러한 종류의 멀티모달 모델이 온라인 비디오, 오디오 및 관련 콘텐츠 형태를 분석할 뿐만 아니라 시각이나 청각 장애가 있는 사용자를 도울 수 있는 제품을 만드는 데 사용될 수 있다고 믿습니다. "여기에는 기본적인 질문에 답하는 것부터 맥락적 상호작용까지 모든 것이 포함될 수 있습니다."라고 그는 덧붙였습니다.

멀티모달의 한계

상업화된 멀티모달 AI가 과거보다 더 보편화되었지만, 이러한 유형의 시스템이 대규모로 배포되기 전 해결해야 할 몇 가지 장애물이 있습니다. 부분적으로는 경제성을 확보하는 문제이기도 합니다. 기존 시스템을 실행하는 것은 새로운 시스템을 개발하는 것에 비해 일반적으로 비용이 많이 들지 않지만, 이는 워크로드의 특성과 기업 데이터 과학 팀의 숙련도에 따라 달라집니다.

"초기 모델 [개발]은 데이터 과학을 병렬로 완성하는 과정이 포함되기 때문에 단연코 가장 많은 비용이 드는 측면입니다."라고 슬로만은 말했습니다. "예를 들어, 수천 건의 검증된 Zoom 회의에서 무엇이 슬라이드이고 무엇이 아닌지 구분하는 프로세스는 매우 많은 비용이 듭니다."

예를 들어, Merlot Reserve는 특정 AI 생성 프로세스를 가속화하도록 설계된 칩인 구글의 3세대 텐서 처리 장치(TPU) 512개 클러스터에서 개발하는 데 약 3주일이 걸렸습니다. 현재 공개된 가격에 따르면 3세대 TPU 32개 팟을 실행하는 데 시간당 32달러의 비용이 들기 때문에 Merlot Reserve의 개발 비용은 (대량 구매, 연간 또는 학술 할인이 없다고 가정할 때) 16,000달러를 약간 웃돌게 됩니다.

"우리는 현재 7개의 서로 다른 모델을 실행하고 있으며, 이 중 일부는 수억 개의 객체가 포함된 대규모 오픈 소스 데이터 저장소이고 다른 일부는 독점 모델입니다."라고 슬로만은 설명했습니다. "우리의 독점 모델은 현재 1년 넘게 훈련을 진행해 왔으며, 우리가 사용하는 오픈 소스 모델은 정확히 말하기 어렵지만 그보다 훨씬 더 오랫동안 훈련을 받았을 가능성이 높습니다... 저는 멀티모달 AI의 다음 대대적인 변화는 서로 다른 유형의 사일로화된 모델 간에 보다 표준화된 연결을 구축하는 것이 될 것으로 예상합니다. 우리는 각각 한 가지 유형의 분석을 잘 수행하는 여러 AI 모델을 짜깁기해야 했습니다. 궁극적으로 많은 기업이 멀티모달을 사용하여 제품을 구축함에 따라 더 많은 오픈 소스 제품이 등장할 것이며, 이를 통해 실험을 교육하고 실행하는 것이 더 쉽고 비용도 적게 들게 될 것입니다."

오늘날의 멀티모달 시스템은 학습의 대상이 되는 데이터(예: 유튜브 비디오)에서 편향성을 학습하는 등의 기술적 결함도 안고 있습니다. 예를 들어, Merlot Reserve는 대량의 유튜브 비디오를 "시청"하기 때문에 유튜브의 추천 알고리즘과 더 넓게는 어떤 콘텐츠가 사람들의 제작을 장려하는지에 대한 경제적 압박에 편향되어 있습니다.

"유튜브의 콘텐츠 모더레이션은 소수자의 목소리를 불균형적으로 필터링합니다... 유튜브 비디오에서 사람들의 역할 역시 성별에 크게 치우치는 경향이 있어 상황 이해를 편향되게 만들 수 있습니다"라고 젤러스와 그의 동료들은 Merlot Reserve의 기능을 설명하는 연구에서 언급했습니다. "유튜브의 자동 자막은 성별 편향이 발생하는 것으로 알려져 있으며, 이로 인해 우리의 모델(일반적인 신경망 모델과 마찬가지로)이 이를 증폭시킬 수 있습니다. 또한 유튜브의 전사는 대명사와 같은 중요한 식별 표기 처리에 취약할 가능성이 높습니다."

편향은 차치하고라도, 악의적인 행위자가 감시 카메라 영상에서 이벤트나 활동을 식별하는 등 논란의 여지가 있는 목적으로 멀티모달 시스템을 사용하는 것을 막을 방법은 없습니다. 스탠포드 인간 중심 인공지능 연구소(Stanford's Institute for Human-Centered Artificial Intelligence)가 발표한 논문에서 공동 저자들은 DALL-E와 같은 멀티모달 모델의 발전으로 기계가 생성하는 고품질 콘텐츠가 더 많이 생산될 것이며, 이는 서로 다른 정당, 국적, 종교를 겨냥한 오해의 소지가 있는 기사를 게시하는 등의 "오용 목적"에 맞게 개인화하기 더 쉬워질 것이라고 주장합니다.

슬로만은 CLIPr이 "Human-In-The-Loop(인간 참여형)" 접근 방식을 통해 모델 편향 및 오용을 완화하기 위한 조치를 취하고 있다고 말합니다. 이 회사는 고객이 CLIPr 시스템의 오류를 지적하여 이를 수정하고, 궁극적으로 백엔드에서 모델 개발을 개선할 수 있도록 권장합니다.

"멀티모달은 올바르게 수행될 경우 더 사일로화된 모델에 비해 편향을 생성할 가능성이 작기 때문에 그 나름의 장점이 있습니다."라고 그는 말했습니다. "진짜 위험은 멀티모달 AI의 복잡성과 불안전성을 인정하지 않고, 답변이나 일치 항목의 범위를 제한하는 특정 선형적 의사 결정 경로로 이어지는 데이터 포인트를 사용하는 것에서 발생합니다."

리 대표는 Twelve Labs 역시 편향 완화 전략을 구현했다고 밝혔습니다. 이 회사는 다양한 소스로부터 데이터셋 수집, 데이터셋 문서 작성, 원본 비디오 및 텍스트 정보 큐레이팅을 포함하는 3단계 접근 방식을 취하고 있습니다.

"컴퓨터 비전 모델은 유해하거나 민감한 콘텐츠가 포함될 수 있는 시각적 콘텐츠를 감지하고 필터링하는 데 사용됩니다."라고 리 대표는 설명했습니다. "그런 다음 차단 목록 단어(즉, 선택된 단어 목록의 단어가 포함된 모든 텍스트를 제거) 및 고급 NLP 기술을 활용하여 원본 비디오의 전사를 분석함으로써 정치적, 사회경제적 또는 인구통계학적 편향이 포함될 수 있는 콘텐츠를 필터링합니다. 차단 목록 단어와 NLP 기술은 유해함과 편향성이 포함될 수 있는 텍스트 라벨을 필터링하는 데도 사용됩니다... 멀티모달 모델을 활용할 때 잠재적인 편향을 이해하고 완화하는 것은 Twelve Labs의 성공에 있어 필수적입니다."

‍

그러나 최근까지 이러한 멀티모달 AI 시스템은 엄격히 연구 영역에만 머물러 있었습니다. 이제 세상이 바뀌고 있으며, 점점 더 상업화되고 있습니다.