비디오 이해 앱의 과거, 현재, 그리고 미래

비디오 이해(video understanding) 분야에 참여하기에 아주 흥미로운 시기입니다. 지난 수십 년 동안 최첨단 신경망 아키텍처의 발전 덕분에 이 분야는 엄청난 성장을 이루었으며, 앞으로도 그 속도는 줄어들 기미를 보이지 않고 있습니다. 최근에는 얼굴 인식 소프트웨어와 비디오 제작 도구 같은 기술적 진보와 함께, 미디어로부터 그 어느 때보다 더 많은 인사이트를 얻을 수 있게 되며 상당한 도약을 목격했습니다. 하지만 이는 시작에 불과합니다. 비디오에서 흥미로운 클립을 추출하거나, 심지어 기존 영상을 기반으로 새로운 인터랙티브 경험을 창조하는 아일에는 아직 실현되지 않은 훨씬 더 큰 잠재력이 숨어 있습니다.

파운데이션 모델의 멀티모달화에 대한 첫 번째 글에서 비디오 모달리티를 다룰 때 직면하는 고유한 과제에 관해 다룬 바 있습니다. 이 글에서는 비디오 이해 연구가 지금까지 거쳐 온 과정과 아직 사용되지 않은 잠재력, 그리고 앞으로 나아갈 미래를 검토하며 이 주제를 더 깊이 탐구해 보겠습니다.

1 - 과거: 저수준 비디오 인지 작업 해결

비디오 인지(video perception)와 비디오 이해(video understanding) 작업의 차이점을 명확히 구분하는 것이 중요합니다.

비디오 인지 작업은 비디오 데이터에서 색상, 질감, 움직임과 같은 저수준 특징을 추출하는 것을 포함합니다. 이러한 작업은 대체로 컴퓨터 비전 기법을 기반으로 하며, 그 목표는 추가적인 분석이 가능하도록 비디오의 시각적 콘텐츠를 표현(representation)하는 것입니다.

반면, 비디오 이해 작업은 비디오 내의 객체, 행동, 이벤트 등을 인식하는 것과 같은 고수준의 비디오 데이터 처리를 수반합니다. 이러한 작업은 각 프레임 간의 맥락 정보와 시간적 관계를 파악할 수 있는 보다 정교한 모델을 필요로 합니다.

일반적으로 비디오 인지는 비디오 이해를 위한 필수 전제 조건인데, 고수준 처리에 필요한 기본 데이터를 제공하기 때문입니다. 2013년 이후 딥러닝과 컴퓨터 비전이 급격히 대중화되면서, 비디오 인지 작업에 AI를 활용하는 이들이 점차 늘어났습니다. 이는 전통적으로 객체를 감지, 추적, 분할할 수 있는 합성곱 신경망(ConvNet)을 통해 구현되어 왔습니다.

1.1 - 비디오 객체 감지

비디오 객체 감지(Video object detection)는 최근 몇 년 동안 점점 더 많은 주목을 받고 있는 매력적인 연구 분야입니다. 이 기법은 정지 이미지에서 객체를 감지하는 전통적인 방식 대신, 연속적인 비디오 스트림 내에서 객체를 감지합니다. 비디오 스트림에서 객체를 감지하려면 일련의 프레임 시퀀스를 분석하고 각 프레임에 나타나는 객체를 식별해야 합니다. 비디오 속 객체는 움직이거나, 크기가 변하거나, 다른 객체에 의해 부분적으로 가려질 수 있기 때문에 이는 복잡한 과정이 될 수 있습니다.

그러나 고급 컴퓨터 비전 기술과 머신러닝 알고리즘의 발전 덕분에 비디오 객체 감지는 보안 및 감시부터 로보틱스, 자율주행 차량에 이르기까지 광범위한 애플리케이션에서 매우 효과적인 도구로 자리 잡았습니다. 이 작업에는 RetinaNet, YOLO (You Only Look Once), CenterNet, SSD (Single Shot Multibox Detector) 및 영역 제안 방식(R-CNN, Fast-RCNN, Faster RCNN, Cascade R-CNN) 등의 신경망 아키텍처가 널리 사용되고 있습니다.

기존에는 비디오의 각 이미지 프레임을 개별적으로 분석하여 객체를 감지하는 방법을 사용했습니다. 그러나 이 접근법은 인접한 프레임 간의 유사성을 고려하지 않기 때문에 중복적인 특징 추출을 유발하여 속도가 느리고 비효율적입니다. 또한 움직임, 흐림(blurriness), 가려짐(occlusion), 시간에 따른 위치 변화 등으로 인해 일부 프레임의 품질이 크게 낮아질 수 있으며, 이는 해당 프레임 내에서 객체를 감지하는 신뢰도를 떨어뜨리는 결과를 낳습니다.

이러한 한계를 극복하기 위해 연구자들은 이제 시간에 따른 비디오 데이터의 일관성을 활용하는 딥러닝 솔루션에 집중하고 있습니다. 아래 그림에 나와 있듯이, 시간적 정보의 활용 방식 및 비디오 스니펫에서 추출한 특징들의 융합 방식에 따라 비디오 객체 감지 모델은 플로우 기반(Deep Feature Flow, Flow-Guided Feature Aggregation, Impression Network), LSTM 기반(Looking Fast and Slow, LSTM-SSD, LSTMNet), 어텐션 기반(Relation Distillation Network, Memory Enhanced Global-Local Aggregation, Progressive Sparse Local Attention), 추적 기반(Detect or Track, Cascaded Tracked Detector, Cooperative Detection and Tracking) 및 이 기법들을 결합한 기타 하이브리드 방식(Spatial-Temporal Sampling Network, Spatial-Temporal Memory Network)으로 나눌 수 있습니다.

1.2 - 비디오 객체 추적

비디오 객체 추적(Video object tracking)은 비디오 시퀀스 내에서 시간이 경과함에 따라 변하는 객체의 궤적을 예측합니다. 이 기술은 보안, 엔터테인먼트, 스포츠 등 여러 분야에서 매우 중요하게 활용됩니다. 비디오 내 객체의 움직임을 정확히 추적함으로써 행동 패턴을 분석하거나 이례적인 정황을 포착하고, 향후 움직임을 예측하는 등 다양한 응용이 가능합니다. 주택 및 중요 시설 보안 분야에서는 수상한 행동을 보이거나 특정 동선을 밟는 사람을 탐지해 잠재적 위협 요소를 미리 식별할 수 있습니다. 엔터테인먼트 분야에서는 고난도 특수 효과를 제작하거나 관객 참여형 인터랙티브 서비스를 가능하게 하며, 스포츠계에서는 선수 개개인이나 팀 전체의 퍼포먼스를 분석하여 전술 수립과 전력 보강에 결정적인 시사점을 제공하기도 합니다.

이 작업에는 크게 감지 기반(detection-based)과 매칭 기반(matching-based)이라는 두 가지 주요 접근 방식이 있습니다.

감지 기반 방식인 SORT이나 Deep SORT 등은 먼저 매 프레임마다 객체를 찾고, 다양한 조건에 따라 프레임 간의 객체들을 논리적으로 연결해 줍니다. 가려짐 현상이나 겉모습 번짐 등의 변화에 단단히 버텨내지만, 때로는 오탐을 내거나 고화질의 감지 기능을 전제로 해야 한다는 제약이 따릅니다.

매칭 기반 방식인 Siamese networks나 correlation filters 등은 프레임 간의 유사도 지표를 사전 학습한 후, 이에 맞춰 고유 특징을 대조하는 식으로 객체를 정렬합니다. 연산 효율이 우수하고 부분적인 가려짐에도 대처할 수 있지만, 장기적인 추적 시 어려움을 겪을 수 있으며 타깃 클래스마다 별도의 미세 조정(fine-tuning)이 필요할 수 있습니다.

비디오 객체 추적은 가려짐, 급박한 조명 변화, 모션 블러 같은 까다로운 장애 요동이 많아 상황에 최적화된 기법과 파라미터 선택이 수반되는 고난도 태스크입니다. 현재 감지 기반 모델들이 가장 뛰어난 정확도를 보이지만 복잡한 시나리오에서의 확장성 및 안정성 면에서 한계를 지닐 수 있습니다. 매칭 기반 기법들은 더 효율적이고 범용적인 대안을 제시할 수 있으나, 여전히 지속적인 정교화가 필요합니다.

1.3 - 비디오 인스턴스 분할

비디오 인스턴스 분할(Video instance segmentation)은 비디오 안의 특정 인스턴스들을 동시에 탐색하고 분할하며 추적해내는 고난도 작업입니다. 이는 정지 화상 중심의 이미지 인스턴스 분할 연구를 시계열 비디오 영역으로 확장한 것입니다. 이 태스크의 완성은 비디오 편집, 자율주행, 증강현실처럼 연속 비디오 프레임 단위의 세밀한 객체 마스크(mask)가 필수인 애플리케이션의 문을 열어 줍니다.

예를 들어, 아래의 비디오 인스턴스 분할 모식도는 임의 비디오 내 스틸 컷 프레임들과 원천 어노테이션, 그리고 예측된 최종 분할 결과물들을 대조하여 보여 줍니다. 비디오 시퀀스에서 우리가 선정한 타깃 객체들만을 정교하게 추려 분할하는 원리를 증명합니다.

비디오 인스턴스 분할은 매 단일 프레임별 분할에 그치지 않고 여러 프레임에 걸쳐 해당 객체를 끊김 없이 추적해야 하기에, 이미지 개별 분할 작업에 비해 처리 까다로움의 격차가 한층 큽니다. 반대로 비디오는 단순 단프레임 이미지와 달리 각 사물의 연속적 이동 궤적이나 시간 상의 정합성처럼 풍부한 맥락 정보를 한 몸에 갖고 있어, 사물을 파악하고 잘라내는 데 한결 역동적인 힌트를 주기도 합니다.

비디오 인스턴스 분할을 수행하는 데는 주로 투 스테이지(two-stage)와 원 스테이지(one-stage)라는 두 가지 갈래가 쓰입니다.

투 스테이지 기법인 Mask R-CNN이나 MaskTrack R-CNN 등은 우선 객체 후보 영역군을 가려낸 다음, 상단 마스크 헤드를 구동하여 정교한 면 분할을 마칩니다. 최고의 품질 수치를 보장하지만 연산량이 무거워 구동 속도가 느릴 수 있습니다.

원 스테이지 모델인 YOLACT나 HTC 등은 탐지와 면 지정을 싱글 프로세스 안에서 동시 처리하며 앵커 프리(anchor-free) 설계를 이식해 속도와 효율을 끌어올립니다. 다만 미세한 경계 분할 작업에서는 애를 먹거나 투 스테이지 방식에 비해 다소 오탐율이 높게 나타나는 경향이 있습니다.

실제 프로덕트에 이식할 때는 요구 정확도, 처리 반응 속도, 가용 메모리 스펙 간의 기회비용을 꼼꼼히 평가해야 합니다. 뛰어난 정밀함을 고집한다면 투 스테이지가 어울리고, 즉각적인 실시간성 대응이 필요하다면 원 스테이지 모델이 적절한 선택지입니다.

최근에는 비디오 객체 추적과 정밀 분할 작업에 특화된 Track-Anything이라는 스마트한 도구가 등장해 이목을 끌고 있습니다. 이 도구는 SAM (Segment Anything Model)을 기반으로 고안되었으며, 유저가 마우스로 한 번 클릭하는 것만으로 그 어떤 사물도 알아서 선별, 추적하고 정확히 분할해 냅니다.

이해를 돕자면, SAM은 이미지 도메인에서 두루 활약하는 분할 분야의 파운데이션 모델(Foundation model)입니다. 프롬프트 엔지니어링을 이용해 성격이 다른 비하인드 단의 다양한 과제들에 대응 가능한 프롬프터블 분할 작업(promptable segmentation tasks)에 집중합니다. 업계 역사상 손꼽히는 방대한 볼륨인 1,100만 장 이상의 엄선된 라이선스 이미지와 10억 개가 넘는 마스크 정보를 담은 데이터셋으로 학습된 모델인 덕분에, SAM은 이전 글래스 데이터 없이도 경계 탐지, 타깃 제안, 인스턴스 분할 등 방대한 제로샷(zero-shot) 작업들을 유연히 펼쳐 보입니다.

Track-Anything은 이 막강한 SAM의 능력을 고스란히 비디오 환경으로 확장해 줍니다. 사용자는 비디오 클립이 재생되는 도중 타깃 추적 대상을 유연하게 바꾸거나, 가려짐 등으로 영역 설정이 다소 왜곡되었을 때 수정 영역을 손쉽게 잡아줄 수 있습니다. 이러한 특성 덕에 Track-Anything은 다음과 같은 시나리오에 완벽히 맞물립니다.

장면 전환이 자주 이루어지는 비디오 내 객체 추적 및 분할 작업
비디오 추적/분할 모형 개발을 위한 시각 인터페이스 및 어노테이션 데이터 빌딩
비디오 리터칭, 영역 지우기(in-painting), 편집처럼 물체 중심의 비하인드 처리 작업

이러한 괄목할 성취들을 디딤돌 삼아, 머지않아 비디오 분할 및 추적 작업에 더욱 고도화된 스펙을 갖춘 멀티모달 파운데이션 모델들이 다수 등장할 것으로 기대됩니다.

1.4 - 비디오 인지 기술의 한계

최근 비디오 인지 성능이 놀라울 정도로 비약하여 왔으나, 근본적인 기술 레이어 상 여전히 완수해야 할 고질적 제약들이 존재합니다.

대표적인 첫 한계로는 비디오 기반의 새 프로젝트나 과제를 수주했을 때 생소한 범주(class)나 속성 레이블을 정의하고 새로 등록하기 까다롭다는 점을 들 수 있습니다. 학습 시 고정된 카테고리 풀 안에서만 학습되기 마련이며, 매번 돌발 대상을 마주칠 때마다 모델 자체를 통째로 정비하기엔 무리가 따릅니다. 무수히 연쇄적인 변화를 수용해야 하는 자율주행이나 지능형 로봇 개발 업계에서는 특히나 골치 아픈 문제입니다. 이러한 문제를 메우고자 다수의 연구진은 지속적 증분 학습(incremental learning) 또는 데이터가 희소한 도메인에서도 견고히 움직이는 제로샷 학습(zero-shot learning) 기술 등을 주입하고 있습니다.

또 다른 장벽은 이른바 도메인 전이(domain shift)가 생길 때 일어나는 식별력의 불안정성입니다. 연구 개발 당시 검증된 특정 구도의 데이터로 학습되었기에, 변형된 앵글이나 이질적인 외부 환경의 비디오 소스가 들어오면 순간 오작동률이 요동치게 됩니다. 날씨, 조도, 비디오 압축 노이즈 등 예상치 못한 변수가 빈번한 실동 데이터셋에서 도드라지는 누수 현상입니다. 이 문제를 극복하고자 엔지니어들은 도메인 적응(domain adaptation)이나 전이 학습(transfer learning) 등을 가다듬으며 비디오 인지 모델의 강건함(robustness)과 범용 성능 향상에 사력을 다하고 있습니다.

2 - 현재: 고수준 비디오 이해 작업 수행

비디오 이해 기술은 초창기의 단순 물체 탐지나 단면 분할 수준에서 시작해 오늘날 비약적인 성장을 완수하며 높은 수준의 비디오 맥락 파악까지 그 지평을 한껏 넓혔습니다. 이전의 기법들은 협소한 세부 과제에 갇혀 있거나, 종종 분석 태그를 놓치고 사물을 오분류하는 등 비효율과 노이즈가 있었습니다. 하지만 현재의 시스템은 분류(classification), 맥락 검색, 질의응답 및 자막 생성(captioning)을 비롯한 전방위 통합 업무를 유연히 통제하며, 실생활과 산업 전반에서 그 엄청난 실용 잠재력을 확실히 증명해 보이고 있습니다.

2.1 - 비디오 분류

비디오 분류(Video classification)는 비디오 데이터를 종합 분석하고 카테고리별로 정돈하는 프로세스입니다. 영상에 담긴 표정, 사람, 배경 사물, 행위 등의 복합 요소를 분석해 스포츠, 뉴스, 음악, 오락 등 사전에 합의된 명확한 대중 카테고리로 매칭해 줍니다. 이를 성실히 구성하려면 비디오 특유의 시공간 정보(색채 구성, 오브젝트 이동, 음성 정보 및 화면 레이아웃)를 빈틈없이 추출해 분류 전반의 가중 정밀함을 높여 줄 정교한 알고리즘 설계가 필요합니다.

특히 비디오 분류 세부 갈래 중에서 행동 인식(action recognition)과 행동 국소화(action localization)는 기술의 핵심 축을 담당하는 중요한 서브 도메인 영역입니다.

행동 인식

비디오 행동 인식(Video action recognition)은 특정 비디오 속 인물이나 타깃이 주도하는 제스처 및 움직임을 구별해내는 기법입니다. 단순히 동작의 종류를 아는 것을 넘어 해당 행위가 정확히 몇 분 몇 초에 피어올라 언제 마감되는지까지 짚어냅니다. 이는 보완 시설 통제, 운동 루틴 교정 등에 매우 유용하게 밀착됩니다. 경비 단에서는 돌발 거동이나 미심쩍은 물리 충돌 상황을 조기 탐지하는 파수꾼으로 대활약하며, 스포츠 피트니스 현장에서는 밀리초 단위로 파고든 관절 좌표를 읽어내 투구 폼이나 자세 교정에 결정적 기여를 이행합니다.

다만 이 강력한 행동 인식 알고리즘을 온전히 설계해 내는 과정은 여지없이 까다로운 산맥들을 넘어야만 합니다.

첫째, 동일 과업에 속한 사물과 그렇지 않은 사물의 행동 폭 및 성격 편차(intra/inter-class variation)가 상상을 초월합니다. 개인마다 같은 동작을 연출하더라도 배속이 제각각이고 카메라를 주시하는 입체적 앵글 구도도 완연히 다르기 때문입니다.
둘째, 완숙한 행동 추론을 이끌기 위해서는 찰나의 역동 정보와 오랜 흐름을 잇는 장기 시간 축(long-range temporal) 지식 둘을 동시에 매끄럽게 교차 해석해야 합니다. 복합적인 관점들을 오인 없이 수용하려면 단일 합성곱 신경망을 넘어선 하이클래스 모델 구조가 필요합니다.
끝으로, 데이터 학습이나 결과론을 뽑아내는 추론 연산 시 무시 못 할 대규모의 그래픽 자원이 소모되는 경향이 있어, 시장 단위의 가벼운 즉시 상용화 및 양산 배포에 보이지 않는 걸림돌이 되기도 합니다.

다행히 전 세계가 모은 방대한 다차원 데이터셋과 딥러닝 연구진의 주도로 행동 인식 분야의 모형은 눈부시게 세대 교체 중입니다. 이전까지는 비디오 내부의 시간 축 흐름을 설계할 때 주로 ConvNet 모델 계열(DeepVideo, Two-Stream Networks, Non-Local, SlowFast 등)이 업계 표준처럼 활약했습니다. 그러나 최근 트렌드는 훨씬 거대한 벌크형 데이터를 초고속으로 수용하고 연산 비용을 아낄 수 있는 트랜스포머(Transformer) 아키텍처 기반의 모델(Video Swin Transformer, TimeSformer 등)로 그 대세가 완전히 기울었습니다.

행동 국소화

행동 국소화(Action localization, 혹은 spatiotemporal action recognition)는 연속된 비디오 프레임 속에서 일어나는 신체 제스처를 명밀하게 구분하는 것뿐 아니라, 해당 제스처가 동영상 내부의 정확한 시각과 공간상 영역에서 나타나는지를 종합적으로 포착해내는 고차원 태스크입니다. 이를 한눈에 보기 편하도록 화소 영역에 바운딩 박스(bounding box)나 세밀 마스크 필터를 씌워 타깃을 실시간 표시해 줍니다. 연산 컴퓨팅 파워의 수직 상승과 ConvNet 아키텍처의 비약적 수혜를 직접 입으며, 최근 수년간 학계에서 가장 활기찬 주목을 이끌고 있습니다.

이 작업 역시 행동 인식 방식의 고유 스트레스들을 고스란히 끌어안으며, 전체 연출 줄거리 상에서 동작이 발생한 타임라인 블록을 칼같이 구획해야 합니다. 추가적으로 마주치는 과제들은 다음과 같습니다.

복잡하게 뒤엉킨 주변 배경 배경 노이즈 및 사물이 겹쳐 보이지 않는 오클루전(occlusion) 환경
추려야 할 대상과 주변 사물이 뒤섞인 공간적 구도의 난해성
거칠게 흔들리는 일체감 없는 캠 핸드헬드 무빙 환경 등에서 각 프레임 간 행동들을 유기적으로 결속시키는 작업
타깃 거동의 진행 방향과 흐름(optical flow)을 적절하게 잡아내고 수치 예측하는 과업

이 까다로운 공간 행동 국소화 난제들을 쳐내고자 매우 스마트한 공학적 기법들이 개발되어 왔습니다. 대개 RGB 화소 고유값, 옵티컬 플로우 데이터, 유연한 구조의 시각 스켈레톤 도식을 바탕으로 시너지를 고취합니다. 이를 테면 action proposal networks, figure-centric models, deformable parts models, graph-based models, 그리고 스페셜 타임 매개변수를 담은 spatiotemporal convolutions 설계가 그 축을 이룹니다.

2.2 - 비디오-텍스트 검색

비디오-텍스트 검색(Video-text retrieval)은 사용자가 키보드로 타이핑한 자연어 문장 안의 문맥적 흐름 및 상징에 가장 높은 합치율을 보이는 비디오 컷을 광대한 아카이브 단에서 찾아주거나, 그 반대의 작업을 도모합니다. 이 기술은 천문학적 규모의 비디오-텍스트 쌍(pair) 에센스들을 깊게 관찰해, 시공간이 빚어낸 이종 모달리티 간의 정보 매칭 구도가 흐트러짐 없이 일체화 국면에 도달하게끔 주율합니다. 가늠 불가능한 속도로 폭증하는 글로벌 멀티미디어 생태계에서, 유저가 마비 없는 속도로 목적한 씬을 즉각 손에 쥐게 해주는 대체 불가능한 혁신입니다.

이 태스크는 일반적으로 비디오 표현 추출, 텍스트 표현 추출, 두 공간의 임베딩 정합과 매칭, 그리고 최적화 손실 함수 정밀 제어라는 4단계 공정으로 설계됩니다.

비디오 표현 추출(Video representation extraction) 단계에서는 특수한 특징값 표현을 추려 냅니다. 공간이나 시간 축의 지엽 정보에 특화되게 연동되기도 합니다. 특히 트랜스포머를 녹여낸 혁신적 최신 모델(CLIP4Clip, CLIP2Video, Cooperative Hierarchical Transformer, X-CLIP, Frozen In Time, TimeSformer 등) 기법들이 시선과 흐름을 수집하는 양 측면에서 압도적인 탁월함을 연신 검증해 보이고 있습니다.

여기에 더불어 동영상은 대개 목소리, 모션, 사람 안면 등 복잡한 요철들이 즐비하기 때문에, 각 전문 영역만을 별도로 전담 채굴하는 익스퍼트 모듈을 두어 결과 전반을 교차 수렴 정돈하는 고급 루트를 수립하기도 합니다. 대표적으로 Collaborative Experts 및 Mixture-of-Embeddings Experts 등이 애용되고 있습니다.

텍스트 표현 추출(Textual representation extraction)은 언어적인 의미론적 패턴을 기계 친화적으로 수집하는 작업 기저를 다집니다. 이 시스템은 잘 가공 정립된 사전학습 언어 모델인 BERT, RoBERTa, ALBERT, DistilBERT 등의 근간 위에 공고히 확립되어 있습니다.

이 비디오-텍스트 검색은 최근 탄성을 자아낼 만큼의 비약적 성공을 안았습니다. 그러나 영상 본연의 특징 데이터를 빈틈없이 잡아내는 방안, 이미지-텍스트의 가교 역할을 하는 cross-modal 간 이종 도메인의 공백을 완전 충전하는 방안, 나아가 실 구동 시 추론 속도를 단축해 상용 가스비를 슬림하게 극대화하는 방안 등의 도전 과제들이 여전히 남아 있습니다.

2.3 - 비디오 질의응답

비디오 질의응답(Video Question-Answering, Video QA)은 질문과 비디오 가치 데이터를 대조해 가 장 올바른 응답을 능동적으로 생성해내는 차세대 인공지능 기술입니다. 자연어-이미지 이해를 결합한 vision-language 연구의 성장에 힘입어 급진적으로 주목받고 있습니다. 이 기술의 핵심은 대화형 자연어로 동적인 세상사와 동영상의 내포 가치를 인간 수준으로 양방향 소통하는 지능을 일구는 데 있습니다. 하지만 단순히 화면의 객체를 인지하는 것을 넘어, 등장인물의 속내, 공간적 앞뒤 구도, 타임라인의 배치, 논리적 인과관계를 전부 추론해 내야 하기에 비디오 QA 모델이 돌파해야 할 장벽은 결코 낮지 않습니다.

비디오 QA는 대개 객관식(multi-choice) 분류 모델과 주관식에 어울리는 오픈엔드(open-ended) 형태 두 부류로 디자인됩니다.

객관식 방식에서는 모델에게 몇 가지 보기 시나리오를 안기어 최종 맥락과 결이 맞닿는 최적 응답 문구를 찾아 가중치 부여 방식으로 정해진 하나를 골라내게 합니다.

오픈엔드(주관식) 방식은 타겟팅된 데이터셋 디자인 방향에 의거해 단어 매칭 분류 방식, 어간 결속으로 조어해 나가는 토큰 바이 토큰 형태의 문장 생성(generation-based), 혹은 특정 객체 카운팅을 매기는 회귀(regression-based) 형식으로 분류합니다. 단어 분류식 오픈엔드 영역 보드에서는 준비된 응답 에센스 집합에서 올바른 답안의 부류를 하나 예측 매칭하며, 차세대 문장 조어 생성형에서는 어휘 사전에서 어구들을 유기적으로 배치해 완성 구조의 적절한 답언 문장을 집필해 냅니다. 한편 회귀 기반의 모델에서는 카운팅 정합을 위해 최적의 수치를 산출해 줍니다.

위 삽화 그림처럼 일반화된 최신 비디오 질의응답 기제의 시스템 아키텍처는 비디오 엔코더, 질의문 텍스트 엔코더, 크로스 모달 상호작용부, 최종 디코더라는 완성형 4단 기어를 품고 돌아갑니다.

비디오 엔코더는 날것 그대로의 비디오 스트림을 받아들여 시공간 모션을 흡수해 유기적 특징을 포착합니다. 대외적으로 공표된 고품질 사전 학습 2D, 3D 신경망들을 통로 삼아 우수한 고유 특징 벡터를 마련합니다.
질의 엔코더는 질문 문장의 텍스트를 파고들어 GloVe, BERT 표현형처럼 정형화된 토큰 레벨의 고유 특징을 변환 추출해 냅니다.
그 직후, 트랜스포머와 같은 정제된 인터랙티브 시퀀셜 기저 모델이 입력된 시각적 미디어와 사용자 텍스트 둘의 장단을 함께 녹여 통칭 크로스 모달 상호 작용(cross-modal interaction)의 유기적 융합을 조율합니다.
최종 득점을 거치는 응답 디코더는 준비된 보기 중 하나를 집어내는 객관식 판별 분류기로 구동되거나, 지정 단어 풀 안에서 정답을 인덱싱해 내는 정밀 n-way 분류기, 혹은 언어 문맥상 가장 매끄러운 단어들을 한 자 한 자 정교하게 직조하는 고품격 텍스트 발전 장치 등으로 마무리를 장식합니다.

여타 단순 수동 작업에 비해 질의응답 기술은 세밀함과 투박함이 공존하는 시공간 교차 검증은 물론, 인과관계를 정밀 관통해야 하기에 한층 집요하고 고밀도의 지능적 결정을 필요로 합니다.

이 다층적 비디오 질의응답을 구현하기 위해 메모리 네트워크, 트랜스포머, 그래프 신경망, 모듈러 아키텍처, 신경-기호(Neuro-Symbolic) 통합 모형까지 진일보한 기술들이 도입되고 있습니다. 특히 PSAC, MMFT-BERT, ClipBERT, Just Ask, MERLOT 및 VIOLET 같은 고도화된 트랜스포머 기반 코어 모델들은 상대적으로 슬림한 하드웨어 리소스만으로도 심오한 문맥 연역 추론 성능을 폭발시키며 압도적인 설명 가능성과 높은 성능을 연일 검증하고 있습니다.

2.4 - 비디오 캡셔닝

비디오 캡셔닝(Video captioning)은 연속적으로 변화하는 동영상 스토링의 영상 시퀀스를 이해하고, 그 안에 얽힌 상황적 의도와 사건의 전개를 품격 있는 해설문 형태로 자동 기술하는 작업입니다. 이를 성공적으로 안착시킬 때 누릴 시너지와 산업 기여 효과는 헤아릴 수 없이 거대합니다. 영상 카탈로그 자원 색인 추출, 안전 및 도감 시큐리티 컨트롤, 고차원 휴먼 인터페이스 시스템 등이 그 직접적 수혜 대상입니다. 정적 단편 컷만 읽고 묘사하는 이미지 캡셔닝과 달리 비디오 캡셔닝은 타임 스팬이라는 4차원 변수를 기저에 깔고, 사물간 역동 이동, 동작의 선후, 상호 인과 정황을 세밀히 읽어 내야 하는 압도적인 복잡성을 띠고 있습니다.

상기 다이어그램 도식은 시퀀스-투-시퀀스(seq-to-seq) 모델링의 기본 골조인 인코더-디코더 프레임워크(encoder-decoder framework) 기반의 영리한 비디오 캡셔닝 아키텍처 예시입니다.

비주얼 측 인코더가 원초적 비디오 피쳐들을 갈무리해 전달하면 글 장치 디코더가 이를 고유 자연어 어체로 유기화해 마침내 자막을 발급합니다. 여기서 피쳐 취합은 입체적 어텐션 메커니즘이나 2D, 3D ConvNet 아키텍처 등을 이용하며 유입 오디오 및 각종 특화 정보(feature map)들을 고루 블렌딩하기도 합니다.
언어 생성 디코더는 RNN, LSTM, GRU나 첨단 트랜스포머 등의 튼튼한 자연어 생성 블록을 주축으로 정성적 집필 작업을 완수합니다.
학습 루틴이 멈춤 없이 반복되면서 인공지능은 준비된 참값 해설 텍스트에 한없이 수렴하는 높은 묘사력을 일굽니다. 이 구도 안에서 어텐션 지도가 타겟형 예측 단어로 향하게끔 정 조준점 위치를 가이드하는 역할을 도맡습니다.

비록 초기 개발 모형들은 기본 아키텍처 골조에 순진하게 의지했으나, 텍스트 변혁을 주도한 트랜스포머 개념이 이식되며 작금의 비디오 자막 추론 성능도 비약적으로 재탄생했습니다. 이들은 구조적 설계를 자유로이 변용한 스페셜 파생형(Universal Transformers, Masked Transformers, Two-View Transformers, Bidirectional Transformers, Vision Transformers) 모델들을 전방위로 수혈해 응답 퀄리티를 유지해 냅니다.

비록 이들이 써 내리는 서술문의 완성도가 나날이 향상되고 있으나, 완숙한 인간의 감성과 맥락적 문장 구사력에는 아직 메우지 못한 공백이 존재합니다. 성능 한계를 한 번 더 넘어서려면 단순 화면 분석에 머무르지 않고, 외부 지식 베이스를 이식하거나 오디오 소리 정보, 영상 속 대사 자막(subtitles) 등을 입체적으로 동시에 교차 학습하는 성숙한 아키텍처 도약이 강력히 수반되어야 합니다.

3 - 미래: 멀티모달 비디오 파운데이션 모델로의 도약

파운데이션 모델은 이미 자연어 처리(NLP) 및 컴퓨터 비전(CV) 영역을 장악할 만치 압도적 성취를 완성했으나, 고유 특색을 다량 수렴해야 하는 비디오 이해 분야에서는 아직 그 막강한 저주를 완연히 떨치지 못했습니다. 기가바이트급의 막대한 용량을 실시간 수용하면서도 연산 병목을 아끼는 하드웨어 파이프라인의 조성이 여간 쉽지 않고, 각기 다른 데이터 소스들을 유기 결합해 이산적인 특징을 조율하는 가공의 품이 곱절로 가해지기 때문입니다. 하지만 지능형 CCTV, 이러닝 인터랙션, 차세대 엔터테인먼트 전반에 걸쳐 비디오를 완벽히 통제하려는 개발자들의 염원과 니즈가 폭발하며 비디오 이해 기술의 시장 가치는 마르지 않는 샘처럼 풍부한 잠재력을 자랑하고 있습니다.

이 기대를 충족할 가장 전향적인 마일스톤 연구 갈래 중 하나는 청각 사운드, 시각 픽셀, 문자 언어라는 다각도의 특화 채널들을 하나로 통섭하는 영리한 하이브리드 인공지능 시스템의 전개입니다. 이 야심찬 "멀티모달" 파운데이션 모델들은 지도 학습의 한계를 비축하는 비지도 학습(unsupervised learning) 및 자기지도 학습(self-supervised learning) 기제를 정교하게 버무려, 비디오가 발산하는 공감각적 데이터 정보를 통시적이고 완전 무결한 상태로 직종 및 수집해 냅니다.

최근 글로벌 테크 업계와 전 세계 오피니언 리더들의 심장을 요동치게 한 경이로운 하이엔드 멀티모달 비디오 파운데이션 모델들을 소개합니다:

3.1 - VideoCoCa

VideoCoCa는 기존에 높은 위상을 거둔 대비적 캡션 모형(Generative-Contrastive, 일명 CoCa) 장치를 무거운 파인 튜닝 추가 비용 없이 하이패스로 고스란히 이식해 비디오-텍스트 통합 도메인을 정복하는 혁신 모델입니다. 이 방식은 대규모 코딩 정비의 비효율성을 완벽히 해소하며, 완성도 높은 후보 문장군들을 먼저 정렬해 낸 후 트랜스포머 기반 판정 모듈이 비디오 줄거리 정합도에 부합하는 골든 문장 순으로 상위 소팅 점수를 최종 채점해 정합을 완성합니다.

해당 연구 저자진이 까다롭기로 정평이 난 공용 벤치마크들을 구동한 평가보고 실측치에 의하면, 전혀 새로 배워 보지 않은 타 도메인 분류(zero-shot video classification), 텍스트-비디오 인덱싱, 자동 캡션 작성과 하이레벨 질의응답 비하인드 평가 등 거의 모든 평가 지표에서 입증된 최상위 SOTA(State-of-the-Art) 모델들과 동등하거나 이를 상회하는 성능을 달성했습니다. 자체 모듈 제거(ablation) 테스트 역시 Generative-Contrastive 성향이 이 강력함의 핵심임을 공고히 명명하고 있습니다.

3.2 - Merlot-Reserve

MERLOT Reserve는 비디오 프레임 이미지, 구어 오디오 정보, 대화형 자막 파일 등 입체적 멀티 소스들을 실시간 교차 추적하며 시나리오 맥락 전반과 뉴럴 스크립트 도식 지식을 영리하게 깨우치는 차세대 통합 파운데이션 모델입니다. 시간 차를 두고 벌어지는 일련의 정황과 복잡 다변한 공감각 소스들을 고루 조합하는 능력을 타고났습니다. 이 막강한 신경망은 2,000만 개가 엄선된 Youtube 동영상 더미들을 통해 고유하게 고안된 대비 마스킹 영역 복구 학습(contrastive masked span learning)을 소화하여, 화소와 음성 뒤에 가려진 핵심 가치들을 완전히 스스로 독학해 냅니다. 이 과정을 통과하며 모델은 비디오 콘텐츠를 구성하는 핵심 컴포넌트 간 심오한 의미론적 관계 및 플롯 상 선후 구조를 마스터해, 최상위 이해 능력이 요구되는 다종다양한 고급 비디오 인텔리전스 현업 워크플로우에 무리 없이 이식해 낼 강력한 표현 레이어를 가집니다.

실제 교차 벤치마킹 분석에서 MERLOT Reserve는 업계 기린아라 칭해지던 일명 선두 모델들을 대폭 패퇴시켰으며, 성인 수준의 인지 추론이 가미되어야 할 고정밀 테스트 셋(지각 상식 추론, 입체 시나리오 유추, 차후 동선 예측 및 비디오 QA) 모두에서 차트 선두를 휩쓸어 보였습니다. 논문팀은 시나리오 흐름 인식에 최적화된 스크립팅 사전 지식이 본 작의 초인적 정합력을 완성하게 한 결정적 퍼즐 조각임을 입증하였으며, MERLOT Reserve의 이성적 구조를 정밀 리버스 엔지니어링하여 시스템이 실제로 비디오가 내포한 고기능 미장센과 메타포 정보 구조를 정성껏 통찰하고 있음을 공언했습니다.

3.3 - Vid2Seq

Vid2Seq는 설명이 덧붙여진 도정되지 않은 야성적 비디오더미들을 자기주도 학습하여 탄생시킨 싱글 스테이지 단일형 고밀도 비디오 자막 추론(dense video captioning) 모델입니다. 이 시스템은 시사 다큐멘터리나 무편집 유튜브 영상처럼 몇 분 이상 길게 펼쳐지는 복잡다단한 비디오 프레임과 그에 매칭되는 내레이션 음성 받아쓰기 텍스트를 통째로 입력 소스로 공급받습니다. 그 즉시, 화면 상의 크고 작은 사건이 분출하는 장면 구획을 감지함과 동시에 토큰의 단일 시퀀싱 추정 연산 방식을 통해 상황 묘사 스크립트를 정밀하게 렌더링하도록 훈련되었습니다. 독보적 설계의 바탕은 검증된 초강력 언어 처리 장치인 T5 language model 코어에 특제 시계열 토큰(time tokens)들을 입체 결합한 설계이며, 덕분에 어설픈 끊김 없이 장면의 시작과 끝 바운더리를 꿰뜷으면서도 동시에 유려한 다국어 텍스트 상세 기술을 단일 실시간 출력 단으로 완전 정합해 냅니다.

Vid2Seq의 학습은 인터넷 상에 마르지 않는 화수분 같은 스케일로 펼쳐진 HowTo100M 무가공 내레이션 영상들의 무감독 자율 프리 트레이닝으로 시작되었습니다. 특히 개발진은 일상사 지식부터 난해한 다중 영역을 총망라한 약 1,800만 장 분량의 YT-Temporal-1B 대규모 비디오 데이터 베이스 정보들을 마음껏 수혈해 완성도를 채웠습니다. 연구인들은 미가공된 무안내 영상들의 음성 대본 상 마침표나 분절 구간 지점들을 영리하게 리포맷팅해, 훈련용 가상 사건 구획선 및 임시 자막 가치로 변환 생성해 소중한 피드백 백본으로 승화 시켰습니다.

이러한 공고한 과정을 통과했기에 Vid2Seq은 ActivityNet-Captions, YouCook2, Video Timeline Tags 등 세계 최고 권위의 까다로운 벤치마크 평가 위원단들로부터 만장일치의 SOTA 판정을 받았습니다. 아울러 단 몇 장의 힌트 데이터만 쥐어 주는 퓨샷(few-shot) 초당 고밀도 자막 산출 세팅, 고난도 비디오 단락 스토리 해설, 그리고 노멀 자막 제작 환경 모두에서 톱 클래스로 안착하며 그 범용 성능 역시 완전무결하게 검증을 끝마쳤습니다.

마치며

최첨단 신경망 아키텍처의 혁신적인 발전에 힘입어, 비디오 이해 기술은 지난 10년간 장엄한 발전을 거듭해 왔습니다. 과거의 연구 영역은 사물 식별, 영역 분리, 동선 전조 추적 등 저수준의 단선적인 인지 업무에 제한되었습니다. 대조적으로 작금의 영리한 시스템 엔진들은 고단수의 종합 분류, 맥락 의미 검색, 시각 질의응답 및 고품격 자막 생성을 매끄럽게 달성하며 광활한 영역에서 강력한 편의성을 제공합니다. 한 단계 더 나아가 미래의 비디오 이해 시장은 이미 눈앞으로 부쩍 다가온 매혹적인 멀티모달 비디오 파운데이션 모델들의 대거 출현과 함께, 더욱 찬란하고 담대한 가치 혁신을 이룩할 것입니다.