Tutorials

트웰브랩스와 NVIDIA VSS를 활용한 작업장 안전 컴플라이언스 앱 구축

네이선 체

본 튜토리얼에서는 파인 튜닝된 YOLO 모델을 사용하여 실시간 CCTV 영상을 청킹하고, Twelve Labs의 Marengo 및 Pegasus 기술이 탑재된 NVIDIA VSS를 활용하여 OSHA(미국 산업안전보건청) 기준에 맞춘 안전 준수 보고서 및 효율성 개선 권장 사항을 생성하며, 실시간 작업장 안전 질의응답을 위한 AI 챗봇을 유기적으로 결합한 작업장 안전 준수 애플리케이션의 구축 과정을 자세히 설명합니다.

본 튜토리얼에서는 파인 튜닝된 YOLO 모델을 사용하여 실시간 CCTV 영상을 청킹하고, Twelve Labs의 Marengo 및 Pegasus 기술이 탑재된 NVIDIA VSS를 활용하여 OSHA(미국 산업안전보건청) 기준에 맞춘 안전 준수 보고서 및 효율성 개선 권장 사항을 생성하며, 실시간 작업장 안전 질의응답을 위한 AI 챗봇을 유기적으로 결합한 작업장 안전 준수 애플리케이션의 구축 과정을 자세히 설명합니다.

In this article

No headings found on page

뉴스레터 구독하기

뉴스레터 구독하기

영상 이해 분야의 최신 기술 업데이트, 튜토리얼 및 인사이트를 받아보세요.

영상 이해 분야의 최신 기술 업데이트, 튜토리얼 및 인사이트를 받아보세요.

AI로 영상을 검색하고, 분석하고, 탐색하세요.

2025. 10. 31.

15분

링크 복사하기

이 튜토리얼에서는 공장, 건설 현장 등 다양한 작업장의 실시간 CCTV 카메라를 모니터링하여 위험한 직원 행동이나 위험한 기계류, OSHA(미국 산업안전보건청) 규정 준수 위반, 효율성 격차를 실시간에 가깝게 감지할 수 있는 비디오 인텔리전스 플랫폼 개발 방법을 배우게 됩니다. 또한, 대용량 비디오 데이터의 분석 및 요약을 하드웨어와 NVIDIA 기반의 다양한 솔루션 상에서 처리할 수 있도록 설계된 최신 TwelveLabs의 NVIDIA VSS 연동 기술에 대해서도 깊이 있게 학습하게 될 것입니다.


소개

작업장 내 CCTV 카메라가 완전히 자율적으로 변해 연중무휴 24시간 감시를 통해 보안 리스크를 보고할 뿐만 아니라 구체적인 OSHA 규정 준수 문제, 효율성 격차, 그리고 리스크 평가 등을 상세히 보고서로 만들어 준다면 어떨까요? 📃

마치 마법처럼 들릴 수도 있지만, 이는 최근 개최된 NVIDIA GTC DC 2025 컨퍼런스에서 TwelveLabs의 비디오 인텔리전스 모델이 컴퓨터의 비정형 데이터 이해 방식을 어떻게 혁신하고 있는지 선보이기 위해 저희가 직접 개발한 결과물입니다. 그뿐만 아니라, 저희 모델들은 기존의 NVIDIA 프레임워크 및 NVIDIA Video Search and Summarization (VSS)과 같은 하드웨어와 전적으로 통합되어 작동합니다.

오늘 이 단계별 가이드를 통해 애플리케이션을 직접 배포해 보는 것은 물론, 이 실시간 비디오 인텔리전스 플랫폼에 적용된 심층적인 기술 아키텍처까지 자세히 익히게 될 것입니다. 구체적으로, 실시간 라이브 스트림을 다음과 같은 가치 있는 정보로 변환해 주는 플랫폼을 구현하게 됩니다:

  1. OSHA 규정 준수 보고서: 특정 법적 규정 및 벌금 조항을 함께 제시하는 보고서가 자동으로 생성됩니다.

  1. 무다(낭비) 요소 제안: 린(Lean) 업무 관리를 지원하고 작업 공간의 효율성을 제고할 수 있도록 최적화 방향을 설계해 줍니다.

  1. 대화형 챗봇: 관리자가 작업 공간과 관련된 상세 질문을 던지면 이에 부합하는 즉각적인 해결책과 웹 기반의 제안을 제공합니다.

  1. 다이내믹한 이벤트 타임라인: 발생한 사건·사고들이 정확히 언제, 어떻게 일어났는지 사용자가 한눈에 파악할 수 있도록 돕습니다.

  1. 맥락 보존형 AI 액션: 비디오의 특정 타임스탬프와 위치 정보 상에 AI가 생성해 낸 버튼을 표시하여 효율성 저해 요소, 규정 준수 문제, 은밀히 일어난 사소한 사고들을 강조합니다.

* 참고: 여기서 소개하는 개념과 기술들은 비단 작업장에만 국한되지 않습니다. 여러분의 산업 분야에서 TwelveLabs가 어떠한 차이를 만들어 낼 수 있는지 더 알고 싶으시다면 본 블로그 끝부분에 있는 Beyond The Workplace 섹션을 꼭 확인해 보시기 바랍니다!


애플리케이션 데모

본격적으로 코딩에 들어가기에 앞서, 우리가 앞으로 구축할 플랫폼의 전반적인 이해를 돕기 위해 아래 탑재된 영상과 이미 배포된 데모를 확인해 보세요.

직접 테스트해 보기: NVIDIA VSS + Twelve Labs 제조업 자동화 데모!

GitHub 저장소: nathanchess/twelvelabs-nvidia-vss-sample

그럼, 자신감을 갖고 시작해 봅시다! 😊


학습 목표

이번 튜토리얼을 통해 다음을 배울 수 있습니다:

  • 개인용 보호 장구(PPE) 분류를 위해 15,000개 이상의 이미지 데이터셋으로 YOLO(You Only Look Once) 객체 탐지 알고리즘 컴퓨터 비전 모델을 미세조정(Fine-tuning)합니다.

  • FFmpeg를 활용해 기존 MP4 동영상 파일을 실시간 RTSP(Real Time Streaming Protocol) 스트림으로 변환하여 가상의 CCTV 카메라 환경을 모방하고 시뮬레이션합니다.

  • TwelveLabs가 어떻게 NVIDIA VSS 및 AWS 환경으로 다이렉트 연동되는지 살펴봅니다.

  • 생각의 사슬(Chain-of-thought)과 같은 고급 프롬프트 엔지니어링 기법을 폭넓게 응용하는 방법을 이해합니다.

  • 비디오 청크 업로드 및 라이브 스트림 피드를 수용하기 위해 비동기 API 동작을 관리하는 Docker 컨테이너를 직접 구동해 봅니다.


사전 준비사항

  1. Node.JS 20+: Node.js — 다운로드 Node.js®

  2. Python 3.8+: Python 다운로드 | Python.org

  3. TwelveLabs API 키: 인증 가이드 | TwelveLabs

  4. TwelveLabs 인덱스: Python SDK | TwelveLabs

  5. AWS 액세스 키: 자격 증명 가이드 - Boto3 1.40.12 문서

  6. Docker 설치: 설치 가이드 | Docker 기술 문서

  7. Python, API 개발, 그리고 JavaScript에 대한 중급 이상의 이해도가 요구됩니다.


로컬 개발 환경 설정

1 - 로컬 개발 환경에 프로젝트 저장소 복제(Clone)

>> git

2 - 로컬 개발 환경에 TwelveLabs 연동이 포함된 NVIDIA VSS 프레임워크 복제(Clone)

>> git

3 - AWS 콘솔로 이동하여 “nvidia-vss-source” 명칭의 신규 S3 버킷을 개설합니다.

  1. 전체 튜토리얼 확인하기: 일반 목적 버킷 만들기 - Amazon Simple Storage Service

  2. 이 버킷은 추후 테스트에 활용될 가상 CCTV 카메라 보관소 역할을 합니다!

4 - frontend 및 rtsp-stream-worker 로컬 디렉토리에 환경변수를 선언해 줍니다.

.env.local (/frontend/)

TWELVE_LABS_API_KEY=...
NEXT_PUBLIC_TWELVELABS_MARENGO_INDEX_ID=...
NEXT_PUBLIC_TWELVELABS_PEGASUS_INDEX_ID=...


AWS_ACCESS_KEY_ID=...
AWS_SECRET_ACCESS_KEY=...
AWS_S3_BUCKET_NAME=nvidia-vss-source
AWS_REGION=us-east-1


NEXT_PUBLIC_RTSP_STREAM_WORKER_URL="http://localhost:8000"
NEXT_PUBLIC_VSS_BASE_URL="http://127.0.0.1:8080"

.env (/rtsp-stream-worker/)

TWELVE_LABS_API_KEY=...


AWS_ACCESS_KEY_ID=...
AWS_SECRET_ACCESS_KEY=...
AWS_S3_BUCKET_NAME=nvidia-vss-source
AWS_REGION=us-east-1


NEXT_PUBLIC_VSS_BASE_URL="http://127.0.0.1:8080"

5 - rtsp-stream-worker 모듈과 NVIDIA VSS 모듈을 위해 Docker 컨테이너들을 빌드 및 실행합니다.

  1. RTSP Stream Worker 빌드 가이드: twelvelabs-nvidia-vss-sample/rtsp-stream-worker at main · nathanchess/twelvelabs-nvidia-vss-sample

  1. NVIDIA VSS 빌드 가이드: nvidia-vss/src/vss-engine/src/models/twelve_labs at main · james-le-twelve-labs/nvidia-vss

6 - NPM(Node Package Manager) 명령어로 프론트엔드 샘플 웹 앱 서비스를 시작합니다.

복제한 로컬 깃 저장소의 frontend 폴더를 콘솔로 열어 아래 커맨드를 입력하십시오:

>> npm

그 후, 웹 브라우저 주소창에 localhost:3000을 입력하여 정상 기동을 테스트합니다.

* 사전에 npm 패키지가 올바르게 세팅되어 있는지 확인하세요: Node.js 및 npm 다운로드 및 설치 가이드 | npm 기술 문서


컴퓨터 비전(CV) 파이프라인 개발

그렇다면 어떻게 끊임없이 흘러 들어오는 실시간 스트림 환경에서 거의 실시간에 준하는 처리를 이끌어 낼 수 있었을까요? 

💡학습 팁: 실시간 라이브 스트림 제어와 대역폭 사용 제한, 망불안정 대치 등은 개발하기 까다로울 뿐 아니라 인프라 연산 비용 또한 무척 높아질 우려가 있습니다!

간단한 수학 계산을 바탕으로 이를 확인해 보겠습니다. TwelveLabs의 멀티모달 모델인 Marengo를 예시로 들어보겠습니다. 만약 하루인 24시간 동안 완곡한 순수 비디오 피드를 통짜로 인덱스에 넣고 분석 처리한다면 비용이 얼마나 발생할까요?

Marengo 기준: ($.042/분 + %.0015/분) * 1440분 = $60.48

  • 비디오 인덱싱 비용: 분당 $0.042

  • 컴퓨트 등 인프라 구동 비용: 분당 $0.0015

카메라 한 대당 일일 $60.48 전후라면, 보안을 위해 현장 전 영역에 다수의 감시 장비를 포진시켜 놓는 실제 기업 및 공공 영역 환경에서는 예산 통제력을 완전히 상실하게 될 위험이 있습니다.

참고: 직접 개별 비용을 시뮬레이션하고 예측해 보시려면 아래 TwelveLabs 공식 프라이싱 계산기를 사용해 보셔도 좋습니다: https://www.twelvelabs.io/pricing-calculator

그럼 이러한 과도한 청구 문제를 해결하려면 어떻게 해야 할까요? 열쇠는 바로 '비디오 소분화(Chunking)'와 '사전 처리(Preprocessing)' 설계 단계에 숨어 있습니다! 물론 직면해 계신 개별 비즈니스의 제약 조건이나 현업 분위기는 다르겠지만, 저는 개인 안전 장비(PPE)를 자동식별하도록 파인튜닝된 YOLO 기반의 사전 모델을 앞단에 심어 두었습니다. 다음 실험 결과 스크린샷 사례를 확인해 보세요:

작업 현장의 상이한 구도, 이질적인 조도 하에서도 정교하게 사람들의 헬멧 유무를 잡아내는 모습을 보실 수 있습니다. 무려 15,000장 이상에 달하는 방대한 이미지 학습 데이터셋을 설계하고, 모델이 다채로운 변수와 조명에 유연히 적응하도록 증강 기법을 녹여 작업복, 안전모, 장갑 및 안전화 등 일반적인 구성품 전체에 대해 90%를 초과하는 전례 없는 실사용 수준 정밀도를 획득했습니다!

💡학습 팁: 이번 블로그 기재 범위 밖의 기술 영역이지만, 커스텀 데이터 학습 스크립트 작성에 참고하시거나 완전히 기초부터 실전 모델을 트레이닝하고자 하시는 분들은 복제한 프로젝트 속 /cv_model 폴더 내 리드미(README) 문서를 방문해 주시길 권장합니다: https://github.com/nathanchess/twelvelabs-nvidia-vss-sample/tree/main/cv_model 

프로젝트 속 소스 중 분석 비용을 획기적으로 낮추며 최적의 비디오 청킹 과정을 설계해 낸 대어입니다:

/rtsp-stream-worker/main.py (라인 357 - 391)

def analyze_video(self, video_source: str):
       
    people_count, ppe_count = 0, 0    


    results = self.model.predict(frame, conf=0.25, iou=0.45, max_det=1000)
    processed_frame = self._draw_boxes(frame, results)


    for box in results[0].boxes:
        class_id = int(box.cls[0])
        class_name = self.model.model.names[class_id]
        if class_name == "Person":
             people_count += 1
        else:
             ppe_count += 1


        # Write frame to output video
        video_writer.write(processed_frame)


        video_capture.release()
        video_writer.release()
        return new_video_source
 else:
        raise FileNotFoundError(f"Video file not found: {video_source}")

상단 로직을 살펴보면 현장의 작업복 미착용자와 정상 검출 건에 대한 수치를 집계해 나갑니다. 이 수집 메타데이터를 사용하여 각 고객사의 운영 시나리오에 완벽히 매칭되는 지능형 청킹 모델로 개량할 수 있습니다. 구체적으로 실제 보호용구 누락 등 문제 제기가 수반되는 특정 구역의 비디오 청크들만 실시간으로 엄선하여 최종 멀티모달 모델 인덱싱으로 발송해 줌으로써, 하루 24시간 분량의 원천 영상을 최종적으로는 아주 단 실시간 연산 몇 분 혹 몇 초 처리 비용으로 감축할 수 있습니다.

안전 및 규제 요건에 따라 요구될 수 있는 다양하고 유연한 가상 조건을 접목해 보세요:

  1. 식료품 제조 공장: 모든 현장 원 직원 대상 특수 보호 위생 장갑 전원 보급 필요.

  2. 메디컬 전문 시설: 전 인원의 덴탈 및 황사 안전 마스크 전원 상시 착용 의무.

  3. 종합 건설 야외 현장: 안전모, 조끼 등을 포함한 안전 규제 올인원 필수 세트 동기화.

이와 같이 고객 맞춤형 룰을 간편히 세팅함으로써, 개별 대규모 조립 및 가공 공장은 초정밀 보안 체계를 유지하면서도 서버 인프라 유지 운용비를 획기적으로 낮출 수 있습니다!

* 참고: 초기 수작업이 많게 보일 수 있지만 기획 단계라면 크게 걱정하지 마세요. 하단의 'NVIDIA VSS 설계 구조 살펴보기' 단락에서 NVIDIA VSS 프레임워크 최적 내장 툴을 통해 이미 내장된 고급 스마트 청킹 기법들을 다루는 법을 마저 소개하겠습니다.


RTSP(실시간 스트리밍 프로토콜) 가상 IP 카메라 구축

좋습니다. 이제 뛰어난 최적화 청킹 기반을 정립했으니 원거리 라이브 피드를 다룰 준비가 되었군요. 그런데 실제 영상 스트림 자체는 어떻게 송출해 줄까요?

인터넷 검색을 해보시면, 실제 공장이나 다양한 기밀 현장에서 작동 중인 온전한 개방형 시뮬레이션 카메라 피드를 수월하게 구하는 것이 꽤나 까다롭다는 점을 발견하실 것입니다. 그렇기에 파이썬으로 가상 피드를 송출해 줄 백그라운드 구조를 저희가 가짜로 개설할 것입니다!

💡학습 팁: 산업 현장을 대체해 줄 가상 네트워크 카메라는 어떤 구성품으로 이루어져 있을까요?

물리 하드웨어 없이 가상으로 24/7 스트리밍 환경을 지상 구현하기 위해선, 콘텐츠 소스, 브로드캐스팅 레이어, 배포 방식의 전송선로 파이프라인 설계가 유기적으로 뒷받침되어야 합니다. 당사와 구성할 세그먼트는 본질적으로 다음 네 영역입니다:

  1. 콘텐츠 (저장된 비디오 파일): 임시 가공 영상 피드가 필요합니다. 무한정 반복 재생되면서 현장의 실시간 감시 풍경과 동일한 움직임을 줄 표준 비디오 파일 하나면 충분합니다.

  2. 가상 IP 카메라 (브로드캐스터 스크립트): 영상을 전달할 기기 자체를 대변해 줄 데몬 프로세스입니다. 미디어 원천 파일을 순차적으로 읽어와 인터넷 망으로 송출합니다.

  3. 카메라 시그널 (스트리밍 표준 프로토콜): 네트워크 전송을 위해 보편적 영상 어댑터 규격을 갖춥니다. 디바이스 간 미디어 전송의 핵심 표준 인프라인 RTSP(Real-Time Streaming Protocol)로 피드를 방출합니다.

  4. 게이트웨이 허브 (미디어 스트리밍 서버): 들어오는 원시 RTSP 포맷을 외부로 전파하고 리스닝 대기할 매니지드 미디어 중계기입니다. 들어오는 RTSP 트래픽을 상시 대기하여 받아들이는 모니터 관제탑입니다.

  5. 웹 송출용 표준 프로토콜 변형 (HLS): 본래 고유 RTSP 날것의 패킷은 보안 시스템 하드웨어로는 완벽하지만 일반 크롬 브라우저, 모바일 기기를 포함한 일반적인 환경에서는 즉시 해석하지 못합니다. 따라서 중계 서버를 거쳐 세그먼트를 10초 내외의 잘게 잘린 조각 조각 비디오 세그먼트로 바꾸어 주는 HLS(HTTP Live Streaming) 구조로 리패키징 프로세싱합니다.

아래 첨부된 상세 아키텍처 다이어그램을 보며 흐름을 익혀봅시다:

아키텍처 상세 다이어그램: LucidChart (클릭 시 전체 화면으로 감상하기 가능)

이 백엔드 레이어들은 우선 설계의 복잡도 감축과 온디맨드 검토 직관성을 높이기 위해 전체 서버 로직이 통합 운용되는 모놀리식(Monolithic) 아키텍처 기반의 딥러닝 최적화 AWS EC2 AMI (Amazon Machine Image) 1개 인스턴스 안에서 긴밀히 수행됩니다. 각 요소들의 역할을 안내하겠습니다.

AWS S3 버킷: 모의 카메라 환경에 지속적으로 풍부한 장면 변동을 책임질 수 있도록 기존 가공 가이드 MP4 원본 동영상 무더기를 홀딩해 주는 장치입니다.


FFmpeg: 가상 하드웨어 스트리밍 시각화를 주도해 나가며 실질적 트랜스코딩을 단행하는 연산 핵심 엔진입니다:

  1. S3 버킷을 통해 MP4 경로의 자산을 안전히 탐색해 입출력 버퍼링합니다.

  2. (-stream_loop -1) 처리를 주어 원본 영상의 끝에 닿으면 즉시 롤백 루프 기동합니다.

  3. 그리고 가장 중요하게, 이렇게 연속 구동되는 화소 정보들을 즉각 규격 포맷인 RTSP 파이프로 인코딩 처리해 전달해 줍니다.

💡학습 팁: RTSP는 기존 상업용 하이엔드 스마트 보안 카메라 및 IP 카메라 십중팔구가 활용하는 공용 통신 규격 프로토콜입니다. FFmpeg를 활용해 가짜 루프 피드를 RTSP로 전환해 둠으로써 네트워크 상에서는 실제 최고 사양의 감시 카메라가 24시간 실시간 망방송 중인 것과 네트워크상에서 완전히 무구별하게 고도 시뮬레이션됩니다. 참고글: RTSP 기반 지능형 보안 카메라의 동작 원리와 원거리 클라우드 미디어 컨트롤


MediaMTX: 들어오는 멀티미디어 규격을 범용 브라우저 웹 규격으로 유연하게 가시화하여 다릴 스트림 변환 중계 허브입니다. 왜 필요할까요? 일반 상용 크롬이나 사파리 브라우저는 날것 그대로 전달되어 오는 고유 RTSP 데이터를 다이렉트 디코딩 처리하여 렌더링 할 수 없습니다. 이 까다로운 프로토콜 세팅을 MediaMTX 오픈소스 패키지가 내부에서 즉각 실시간 변환 처리 보완해 줍니다:

  1. 입수되는 유일한 FFmpeg 채널 소스를 안전성 있게 수신(Ingest)합니다.

  2. 웹 브라우저가 다이렉트로 가동할 수 있는 파일 포맷으로 고속 재가공합니다.

우리 프로젝트에서는 현대 모바일 장치와 브라우저 생태계의 교과서인 HLS(HTTP Live Streaming)를 메인으로 삼았습니다. MediaMTX는 흐르는 실시간 비디오를 10초 전후 단위 미세 파일 조각(.ts)으로 세분 저장한 뒤, 이를 찾아가 순서대로 수신 재생시킬 타임 플레이리스트 정보가 수록된 (.m3u8) 메인 로더 정보를 인벤토리에 실시간 구성함으로써 어떠한 모바일이나 웹 기반의 플레이어 브라우저로 접속해도 버벅임 없이 수월하게 청크 재생하도록 서포트합니다.


미세조정된 YOLO 모델: 이전 단계에서 완성한 우리의 최적화 비용 절감 감지 로직입니다! FFmpeg가 연속 변환하며 매초 보내주는 실시간 라이브 채널 피드를 인터셉트하여 현장 감지 상태를 파악하기 위해 구동됩니다.


Cloudflare SSH 터널: 복잡한 인바운드 방화벽 세팅 없이 외부에 안전하게 주소를 바인딩시켜 줄 통로입니다. 본 EC2 인스턴스는 외벽의 개방형 인바운드 포트를 전부 걸어 잠가 해커나 상시 침입 위협 세력의 대외 스캔 경로 노출에 대한 완벽한 선제 차단체계를 실현했습니다.

💡학습 팁: 내부 비접촉 보안 통제 속에서 브라우저 미디어 전송을 어떻게 퍼블릭하게 연결할까요? Cloudflare의 고유 경량 패키지 데몬인 cloudflared가 통행 키를 쥔 상태로 내부 서버 측에서 출발해 Cloudflare 외부 기간 거점으로만 향하는 안전 보안 전용 아웃바운드 터널 통로를 성사시켜 둡니다. 그 뒤 Cloudflare를 퍼블릭 웹 프론트 엔트리로 바인딩하여 live.myproject.com 같은 암호화가 완비된 SSL 주소를 고정 IP 세팅 없이 완전 무결하게 제공합니다.


최종 산출물은 안전함이 극대화된 HTTPS 규격의 HLS 스트리밍 피드이며, 어떤 표준 웹 기반의 비디오 플레이어나 일반 사이트로든 가볍게 삽입될 수 있는 강력함을 보장합니다.

방금 Cloudflare 터널을 통해 확보한 스트리밍 피드 주소를 사설 플레이어 도큐먼트 사이트 hlsplayer.net에 붙여 넣었더니 즉시 쾌적하게 로딩되어 구동되는 결과를 보실 수 있습니다 ☺️! 이는 출력 처리된 결과 소스가 정통 규격화 준수된 .m3u8 형식에 맞추어 제대로 호환 공급되고 있다는 명백한 강력함의 증거입니다.


NVIDIA VSS와의 통합

좋습니다. 이제 원격 카메라 피드가 송출 가능해졌고 사전 비용 감쇠용 감시 비전 모델까지 클라우드로 안전하게 탑재되었습니다. 마지막 퍼즐 조각은 현장에서 일어나는 기계식 사고나 복잡한 규정 준수 위반 맥락을 고도로 정교하게 인식할 수 있는 맥락 추론 기반의 비디오 이해 인공지능을 완성하는 것입니다. 여기서 바로 NVIDIA VSS 전용 TwelveLabs 연동 플러그인이 해결사로 나섭니다.

공식 연동 깃허브 저장소: james-le-twelve-labs/nvidia-vss: 대규모 실시간 라이브 영상 및 보관 영상을 인덱싱하고 분석, 요약, 문답(Q&A)에 최적화된 인사이트를 제공하기 위한 인프라 프로토타입


💡학습 팁: 실제 구현 실습과 코드를 보기 전에, 과연 NVIDIA VSS가 정확히 어떤 유용성을 자아내며, NVIDIA GPU 기반 환경에서 소프트웨어를 개발하는 엔지니어들에게 어떠한 특별한 유틸 클래스를 보증하는지 정립할 필요가 있습니다.

VSS는 Video Search and Summarization(비디오 검색 및 요약)의 약칭입니다. 이것은 CUDA와 같은 저수준 단일 라이브러리가 아니라, 개발자가 영상 정보의 서술 및 탐색 능력이 특화된 강력한 인프라를 빠르게 현업 서비스로 빌드할 수 있게 돕는 NVIDIA AI Blueprint(블루프린트) 프레임워크입니다. 다음과 같은 차세대 파트들로 유기적으로 연합되어 작용합니다:

  1. VLM(비전 언어 모델, Vision Language Models): 비디오 속 물체 형상과 상호작용 및 변화 흐름을 텍스트 수준으로 읽고 교정해 내는 눈의 영역입니다. VSS는 원시 파일 혹은 실시간 RTSP 프레임 세그먼트를 VLM에 순차적으로 로드한 다음 각 청킹 영역마다 풍부한 의미 분석 묘사(밀도 높은 캡셔닝 설명글)를 추출해 주무르는 기본 전처리 흐름을 연동합니다.

  1. LLM(대형 언어 모델, Large Language Models): 확보된 영상 서사 내역을 최종 대화문과 과업 의도에 매칭해 논증하고 재서술하는 브레인 영역입니다. VLM을 경유해 도출해 둔 객체 기술 텍스트 문맥들을 LLM과 피딩시킴으로써 긴 사건 요약 및 대화형 자연어 질의응답을 물 흐르듯 가능케 합니다.

  1. RAG(검색 증강 생성, Retrieval-Augmented Generation): 임의로 유추하는 환각 현상을 덜어내도록 RAG 아키텍처를 전방위 채용합니다. 산출된 자구 기술문을 벡터 데이터베이스 영역에 긴밀하게 인덱스 영구 저장해 두고, 유저가 현장 내용에 대해 구체적인 물음표를 제시하면 가장 밀접하게 매칭되는 해당 부분 영상 프래그먼트를 참조 맥락(Context)으로 주입 연동하여 최고 수준의 높은 사실 검증 기반 답변 신뢰도를 자아냅니다.

  1. GPU 가속 기반 인제스팅(Video Ingestion) 구조: 대용량 동영상 피드를 멀티 쓰레드 수준 하드웨어 가속 트래픽으로 안전 수신하고 초고속으로 실시간 디코딩을 주도하여 AI 연산 버퍼로 넘겨주는 최적의 전처리 파이프라인을 지원합니다.

  1. 전통 컴퓨터 비전(CV) 모듈 연동: 딥러닝 영상 처리는 종래의 일반 탐지 객체 고속 연산 모델과 협업할 때 더욱 강력해집니다. YOLO 등 물체 추적(Tracking) 스크립트 데이터를 매칭 주입하여 개별 인스턴스에 고유값 ID를 부여하는 지능형 DeepStream SDK 데이터와 완벽 연동되도록 지원합니다.

  1. 오디오 전사 처리(Whisper 외): 비단 기조 영상 신호뿐 아니라, 미디어 속의 음향 및 사람 음성 스피치를 정밀 인식 변환하여 자막화 텍스트 메타를 추가 탑재함으로써 고해상 지능형 검색의 가치를 극대화합니다.

  1. NVIDIA NIMs(NVIDIA Inference Microservices): 모델 성능 가속 최적화를 위해 무리하게 수많은 오케스트레이션 구성을 개별 코딩하느라 골치 아플 필요가 없도록, 도커 이미지처럼 안전하게 패키징이 끝마쳐진 컨테이너형 지능화 추론 엔진 단위로 공급됩니다.

이러한 NVIDIA VSS 아키텍처 설계는 가히 압도적이지만, 보시는 바와 같이 정작 단일 기업 개발팀이 이를 개별 구축, 미세 튜닝, 서빙 배포 및 모니터링 관리하려면 거대한 리소스가 소모될 우려가 다분합니다.

이때 바로 TwelveLabs의 원클릭 클라우드 인프라가 믿을 수 없을 만큼 든든한 날개를 달아 드리는 치트키로 기능합니다.

*TwelveLabs 공식 관리자 콘솔 플레이그라운드의 정교한 자연어 멀티모달 비디오 검색 기능 시각화 (TwelveLabs | 홈)*

각기 따로 놀던 VLM 세팅, RAG용 고유 인덱싱, LLM 오케스트레이션 가속 튜닝, 오디오 Whisper 전사 처리 로직, 그리고 복잡한 미디어 인제스천 인프라를 개별적으로 조립할 필요가 없어집니다. TwelveLabs가 매니지드 오프프레미스 원격 배포 형태로 이 가치 사슬 전체를 완결형 단일 API로 번들이 통합 관리해 줍니다. 개발자는 단지 영상 경로 혹은 스트림 바인딩 파라미터만 넘겨주면, TwelveLabs가 최정상급 모델들을 유기적으로 실행하여 완벽히 정리된 다차원 검색 정보를 답장으로 건네줍니다.

그렇다고 기존에 구성 중이던 하드웨어 전용 가속 환경을 전부 허물어뜨릴 필요조차 전혀 없습니다.

핵심 강점은 역시 지극히 세련된 모듈러 스타일(Modularity) 인터페이스를 완비하고 있어, 원하시는 바에 따라 자체 NVIDIA GPU 기반 환경과 하이브리드 파이프라인으로 구성해 융합하기에도 아주 자유롭다는 점입니다.


이러한 기본 배경지식을 기반으로 하여, NVIDIA VSS 내부 도커 컨테이너 속에서 어떠한 연동 처리로 당사 API를 무구별하게 결함 없이 승화시켰는지 연쇄적인 세부 연동도를 확인해 보세요.

*기술 아키텍처 다이어그램: LucidChart (클릭 시 풀사이즈 이미지 관람 가능)*

매우 손쉬운 구조입니다. 앞단의 경량 탐지 전처리 단계에서 잘려 나와 전송된 비디오 자산 조각은 안전하게 다음 두 계통으로 전달됩니다.

  1. AWS S3 임시 아카이브 버킷 (nvidia-vss-streams): 클라우드 보존 스토리지를 분리해 두어 향후 현장의 정밀 법적 감사 필요성이나 장기 트렌드 조사를 위한 영상 수사 데이터 아카이빙을 영구 관장하게 만듭니다.

  1. NVIDIA VSS TwelveLabs 연동 모듈: 전달된 영상 스트림 프래그먼트는 API에 안전히 승인되어 순식간에 분석 코어 레이어로 전송 및 구조화됩니다:

이제 이 클라우드 지능을 갖춘 핵심 엔드포인트를 기반으로 구축된 환상적인 시연 기능 두 가지를 구경해 보세요.

대표 기능 예시 1: 다이내믹 AI 규정 자문 어시스턴트 — Jade. 

아래 캡쳐 이미지 우측 화면 패널에서 가동하고 있으며, 현장 공장 관리자가 복잡한 기술 코드나 프로그래밍 쿼리 없이, 일반 메신저를 쓰듯 편하게 사안에 대해 심문 형태의 자유로운 질의를 나누며 위협적 요인에 대해 조언을 얻는 기능입니다. 공장의 위치 좌표, 주 정부 및 지방 자치 규범 등에 기인해 상황에 맞춘 OSHA 적용 표준 자문안을 맞춤식 브리핑해 줍니다.

이 혁신은 대화 전문 Pegasus 멀티모달 프레프트 연작 엔진에, 개발자가 사전에 세심하게 역사와 환경 맥락을 엮어둔 채팅 히스토리 프롬프팅 구조를 가미해 완비된 모습입니다!

/frontend/src/app/components/ClipChat.js (라인 49-72)

const typingId = Date.now();
        setChatHistory(prev => [...prev, { role: 'assistant', text: '', date: Date.now(), typing: true, _id: typingId }]);


        try {
            const prompt = `You are Jade, an expert safety and compliance officer.
       
            Here is the chat history: ${chatHistory.map(m => `${m.role}: ${m.text}`).join('\n')};


            The user asks: ${message};
           
            The user's geolocation is unknown, please reference general safety and compliance standards.


            If the user asks about safety, compliance, or improvements, you should always reference the user's geolocation and the laws in that area when providing your response.
            Do not mention the coordinates, just the location and city.
           
            Be highly detailed and specific, by referencing specific machines, processes, and equipment you see in the video and the second.


            `;


            const resp = await fetch('/api/analysis', {
                method: 'POST',
                headers: { 'Content-Type': 'application/json' },
                body: JSON.stringify({ videoId, userQuery: prompt })
            });

* 주의 깊게 관찰해 보세요: TwelveLabs 원격 호스트 분석 모델 덕분에, 코드 단 4줄 이하만으로도 방대한 인덱싱 비디오 데이터에 대해 정교하고 깊이 있는 자연어 질의를 지연 없이 전달할 수 있습니다.

대표 기능 예시 2: 온디맨드 즉석 보건 안전 리포트 생성 및 자동 메타데이터 추출.

경영진이나 안전 점검 위원 등은 본 기능을 클릭해 즉시 비즈니스 프리젠테이션급으로 포맷 정리가 완료된 원스톱 현장 감동 보고서를 제공받으며, 위배 소지가 있는 벌금 관련 추정 액수 산정이나 공정 시정 지침도 한 눈에 취득하게 됩니다.

/frontend/src/app/clips/[id]/page.js (라인 328 - 331)

const response = await fetch(`/api/analysis/${clipData['pegasusId']}`, {
    method: 'GET',
    headers: { 'Content-Type': 'application/json' }
})

이 시스템 또한 TwelveLabs 고유의 검증된 문단 생성 지능인 Marengo 엔진의 파워를 계승한 덕에, 복잡한 사용자 설정 프롬프트 룰을 주어 상황에 맞춰진 완전한 설명 조서를 번거로운 포스트 프로세싱 없이 훌륭히 자아냅니다!

축하합니다! 이제 여러분은 NVIDIA VSS와 TwelveLabs 통합 모델을 활용해 추가 하드웨어, 외장 GPU 호스트, 머신 러닝 훈련 소모 비용 없이 라이브 비디오 흐름을 대화와 검색이 완비된 지적 자산으로 실시간 변환해 나가는 완벽한 플랫폼을 손수 빌드해 보는 뜻깊은 여정을 통과하셨습니다 🥳.


마무리하며

끝까지 깊이 있게 몰입해 주셔서 대단히 감사드립니다! 여러분은 이번 학습을 통하여 실시간 관제 수준의 대규모 인프라 아키텍처 실무 역량을 강화하는 것은 물론, 엔비디아가 제시하는 미래 지향형 생태계 NVIDIA VSS 및 TwelveLabs 연동 플러그인이 어떻게 여러분의 상상 속 영감을 단 몇 시간 만에 실전 코드로 옮길 수 있는지 체감하셨으리라 확신합니다.

상세 구조 분석이나 더 디테일하고 폭넓은 공식 참고자료들은 아래에서 간편히 둘러보실 수 있습니다:

  1. 설계 아키텍처 시각화 이미지: LucidApp

  2. 공식 상세 제품 백서: [NVIDIA GTC 특별 기획] - 제조업 공장 자율 자동화 지능 연동 아키텍처 기획 문서 

  3. NVIDIA VSS TwelveLabs 연동 깃허브 소스 코드: james-le-twelve-labs/nvidia-vss: 대규모 실시간 라이브 영상 및 보관 영상을 인덱싱하고 분석, 요약, 문답(Q&A)에 최적화된 인사이트를 제공하기 위한 인프라 프로토타입

  4. 당사 메인 프로젝트 개발 저장소: nathanchess/twelvelabs-nvidia-vss-sample

  5. 하이라이트 비디오 데모 감상: NVIDIA VSS TwelveLabs 연동: 실시간 제조업 지능화 관제 데모

이 튜토리얼에서는 공장, 건설 현장 등 다양한 작업장의 실시간 CCTV 카메라를 모니터링하여 위험한 직원 행동이나 위험한 기계류, OSHA(미국 산업안전보건청) 규정 준수 위반, 효율성 격차를 실시간에 가깝게 감지할 수 있는 비디오 인텔리전스 플랫폼 개발 방법을 배우게 됩니다. 또한, 대용량 비디오 데이터의 분석 및 요약을 하드웨어와 NVIDIA 기반의 다양한 솔루션 상에서 처리할 수 있도록 설계된 최신 TwelveLabs의 NVIDIA VSS 연동 기술에 대해서도 깊이 있게 학습하게 될 것입니다.


소개

작업장 내 CCTV 카메라가 완전히 자율적으로 변해 연중무휴 24시간 감시를 통해 보안 리스크를 보고할 뿐만 아니라 구체적인 OSHA 규정 준수 문제, 효율성 격차, 그리고 리스크 평가 등을 상세히 보고서로 만들어 준다면 어떨까요? 📃

마치 마법처럼 들릴 수도 있지만, 이는 최근 개최된 NVIDIA GTC DC 2025 컨퍼런스에서 TwelveLabs의 비디오 인텔리전스 모델이 컴퓨터의 비정형 데이터 이해 방식을 어떻게 혁신하고 있는지 선보이기 위해 저희가 직접 개발한 결과물입니다. 그뿐만 아니라, 저희 모델들은 기존의 NVIDIA 프레임워크 및 NVIDIA Video Search and Summarization (VSS)과 같은 하드웨어와 전적으로 통합되어 작동합니다.

오늘 이 단계별 가이드를 통해 애플리케이션을 직접 배포해 보는 것은 물론, 이 실시간 비디오 인텔리전스 플랫폼에 적용된 심층적인 기술 아키텍처까지 자세히 익히게 될 것입니다. 구체적으로, 실시간 라이브 스트림을 다음과 같은 가치 있는 정보로 변환해 주는 플랫폼을 구현하게 됩니다:

  1. OSHA 규정 준수 보고서: 특정 법적 규정 및 벌금 조항을 함께 제시하는 보고서가 자동으로 생성됩니다.

  1. 무다(낭비) 요소 제안: 린(Lean) 업무 관리를 지원하고 작업 공간의 효율성을 제고할 수 있도록 최적화 방향을 설계해 줍니다.

  1. 대화형 챗봇: 관리자가 작업 공간과 관련된 상세 질문을 던지면 이에 부합하는 즉각적인 해결책과 웹 기반의 제안을 제공합니다.

  1. 다이내믹한 이벤트 타임라인: 발생한 사건·사고들이 정확히 언제, 어떻게 일어났는지 사용자가 한눈에 파악할 수 있도록 돕습니다.

  1. 맥락 보존형 AI 액션: 비디오의 특정 타임스탬프와 위치 정보 상에 AI가 생성해 낸 버튼을 표시하여 효율성 저해 요소, 규정 준수 문제, 은밀히 일어난 사소한 사고들을 강조합니다.

* 참고: 여기서 소개하는 개념과 기술들은 비단 작업장에만 국한되지 않습니다. 여러분의 산업 분야에서 TwelveLabs가 어떠한 차이를 만들어 낼 수 있는지 더 알고 싶으시다면 본 블로그 끝부분에 있는 Beyond The Workplace 섹션을 꼭 확인해 보시기 바랍니다!


애플리케이션 데모

본격적으로 코딩에 들어가기에 앞서, 우리가 앞으로 구축할 플랫폼의 전반적인 이해를 돕기 위해 아래 탑재된 영상과 이미 배포된 데모를 확인해 보세요.

직접 테스트해 보기: NVIDIA VSS + Twelve Labs 제조업 자동화 데모!

GitHub 저장소: nathanchess/twelvelabs-nvidia-vss-sample

그럼, 자신감을 갖고 시작해 봅시다! 😊


학습 목표

이번 튜토리얼을 통해 다음을 배울 수 있습니다:

  • 개인용 보호 장구(PPE) 분류를 위해 15,000개 이상의 이미지 데이터셋으로 YOLO(You Only Look Once) 객체 탐지 알고리즘 컴퓨터 비전 모델을 미세조정(Fine-tuning)합니다.

  • FFmpeg를 활용해 기존 MP4 동영상 파일을 실시간 RTSP(Real Time Streaming Protocol) 스트림으로 변환하여 가상의 CCTV 카메라 환경을 모방하고 시뮬레이션합니다.

  • TwelveLabs가 어떻게 NVIDIA VSS 및 AWS 환경으로 다이렉트 연동되는지 살펴봅니다.

  • 생각의 사슬(Chain-of-thought)과 같은 고급 프롬프트 엔지니어링 기법을 폭넓게 응용하는 방법을 이해합니다.

  • 비디오 청크 업로드 및 라이브 스트림 피드를 수용하기 위해 비동기 API 동작을 관리하는 Docker 컨테이너를 직접 구동해 봅니다.


사전 준비사항

  1. Node.JS 20+: Node.js — 다운로드 Node.js®

  2. Python 3.8+: Python 다운로드 | Python.org

  3. TwelveLabs API 키: 인증 가이드 | TwelveLabs

  4. TwelveLabs 인덱스: Python SDK | TwelveLabs

  5. AWS 액세스 키: 자격 증명 가이드 - Boto3 1.40.12 문서

  6. Docker 설치: 설치 가이드 | Docker 기술 문서

  7. Python, API 개발, 그리고 JavaScript에 대한 중급 이상의 이해도가 요구됩니다.


로컬 개발 환경 설정

1 - 로컬 개발 환경에 프로젝트 저장소 복제(Clone)

>> git

2 - 로컬 개발 환경에 TwelveLabs 연동이 포함된 NVIDIA VSS 프레임워크 복제(Clone)

>> git

3 - AWS 콘솔로 이동하여 “nvidia-vss-source” 명칭의 신규 S3 버킷을 개설합니다.

  1. 전체 튜토리얼 확인하기: 일반 목적 버킷 만들기 - Amazon Simple Storage Service

  2. 이 버킷은 추후 테스트에 활용될 가상 CCTV 카메라 보관소 역할을 합니다!

4 - frontend 및 rtsp-stream-worker 로컬 디렉토리에 환경변수를 선언해 줍니다.

.env.local (/frontend/)

TWELVE_LABS_API_KEY=...
NEXT_PUBLIC_TWELVELABS_MARENGO_INDEX_ID=...
NEXT_PUBLIC_TWELVELABS_PEGASUS_INDEX_ID=...


AWS_ACCESS_KEY_ID=...
AWS_SECRET_ACCESS_KEY=...
AWS_S3_BUCKET_NAME=nvidia-vss-source
AWS_REGION=us-east-1


NEXT_PUBLIC_RTSP_STREAM_WORKER_URL="http://localhost:8000"
NEXT_PUBLIC_VSS_BASE_URL="http://127.0.0.1:8080"

.env (/rtsp-stream-worker/)

TWELVE_LABS_API_KEY=...


AWS_ACCESS_KEY_ID=...
AWS_SECRET_ACCESS_KEY=...
AWS_S3_BUCKET_NAME=nvidia-vss-source
AWS_REGION=us-east-1


NEXT_PUBLIC_VSS_BASE_URL="http://127.0.0.1:8080"

5 - rtsp-stream-worker 모듈과 NVIDIA VSS 모듈을 위해 Docker 컨테이너들을 빌드 및 실행합니다.

  1. RTSP Stream Worker 빌드 가이드: twelvelabs-nvidia-vss-sample/rtsp-stream-worker at main · nathanchess/twelvelabs-nvidia-vss-sample

  1. NVIDIA VSS 빌드 가이드: nvidia-vss/src/vss-engine/src/models/twelve_labs at main · james-le-twelve-labs/nvidia-vss

6 - NPM(Node Package Manager) 명령어로 프론트엔드 샘플 웹 앱 서비스를 시작합니다.

복제한 로컬 깃 저장소의 frontend 폴더를 콘솔로 열어 아래 커맨드를 입력하십시오:

>> npm

그 후, 웹 브라우저 주소창에 localhost:3000을 입력하여 정상 기동을 테스트합니다.

* 사전에 npm 패키지가 올바르게 세팅되어 있는지 확인하세요: Node.js 및 npm 다운로드 및 설치 가이드 | npm 기술 문서


컴퓨터 비전(CV) 파이프라인 개발

그렇다면 어떻게 끊임없이 흘러 들어오는 실시간 스트림 환경에서 거의 실시간에 준하는 처리를 이끌어 낼 수 있었을까요? 

💡학습 팁: 실시간 라이브 스트림 제어와 대역폭 사용 제한, 망불안정 대치 등은 개발하기 까다로울 뿐 아니라 인프라 연산 비용 또한 무척 높아질 우려가 있습니다!

간단한 수학 계산을 바탕으로 이를 확인해 보겠습니다. TwelveLabs의 멀티모달 모델인 Marengo를 예시로 들어보겠습니다. 만약 하루인 24시간 동안 완곡한 순수 비디오 피드를 통짜로 인덱스에 넣고 분석 처리한다면 비용이 얼마나 발생할까요?

Marengo 기준: ($.042/분 + %.0015/분) * 1440분 = $60.48

  • 비디오 인덱싱 비용: 분당 $0.042

  • 컴퓨트 등 인프라 구동 비용: 분당 $0.0015

카메라 한 대당 일일 $60.48 전후라면, 보안을 위해 현장 전 영역에 다수의 감시 장비를 포진시켜 놓는 실제 기업 및 공공 영역 환경에서는 예산 통제력을 완전히 상실하게 될 위험이 있습니다.

참고: 직접 개별 비용을 시뮬레이션하고 예측해 보시려면 아래 TwelveLabs 공식 프라이싱 계산기를 사용해 보셔도 좋습니다: https://www.twelvelabs.io/pricing-calculator

그럼 이러한 과도한 청구 문제를 해결하려면 어떻게 해야 할까요? 열쇠는 바로 '비디오 소분화(Chunking)'와 '사전 처리(Preprocessing)' 설계 단계에 숨어 있습니다! 물론 직면해 계신 개별 비즈니스의 제약 조건이나 현업 분위기는 다르겠지만, 저는 개인 안전 장비(PPE)를 자동식별하도록 파인튜닝된 YOLO 기반의 사전 모델을 앞단에 심어 두었습니다. 다음 실험 결과 스크린샷 사례를 확인해 보세요:

작업 현장의 상이한 구도, 이질적인 조도 하에서도 정교하게 사람들의 헬멧 유무를 잡아내는 모습을 보실 수 있습니다. 무려 15,000장 이상에 달하는 방대한 이미지 학습 데이터셋을 설계하고, 모델이 다채로운 변수와 조명에 유연히 적응하도록 증강 기법을 녹여 작업복, 안전모, 장갑 및 안전화 등 일반적인 구성품 전체에 대해 90%를 초과하는 전례 없는 실사용 수준 정밀도를 획득했습니다!

💡학습 팁: 이번 블로그 기재 범위 밖의 기술 영역이지만, 커스텀 데이터 학습 스크립트 작성에 참고하시거나 완전히 기초부터 실전 모델을 트레이닝하고자 하시는 분들은 복제한 프로젝트 속 /cv_model 폴더 내 리드미(README) 문서를 방문해 주시길 권장합니다: https://github.com/nathanchess/twelvelabs-nvidia-vss-sample/tree/main/cv_model 

프로젝트 속 소스 중 분석 비용을 획기적으로 낮추며 최적의 비디오 청킹 과정을 설계해 낸 대어입니다:

/rtsp-stream-worker/main.py (라인 357 - 391)

def analyze_video(self, video_source: str):
       
    people_count, ppe_count = 0, 0    


    results = self.model.predict(frame, conf=0.25, iou=0.45, max_det=1000)
    processed_frame = self._draw_boxes(frame, results)


    for box in results[0].boxes:
        class_id = int(box.cls[0])
        class_name = self.model.model.names[class_id]
        if class_name == "Person":
             people_count += 1
        else:
             ppe_count += 1


        # Write frame to output video
        video_writer.write(processed_frame)


        video_capture.release()
        video_writer.release()
        return new_video_source
 else:
        raise FileNotFoundError(f"Video file not found: {video_source}")

상단 로직을 살펴보면 현장의 작업복 미착용자와 정상 검출 건에 대한 수치를 집계해 나갑니다. 이 수집 메타데이터를 사용하여 각 고객사의 운영 시나리오에 완벽히 매칭되는 지능형 청킹 모델로 개량할 수 있습니다. 구체적으로 실제 보호용구 누락 등 문제 제기가 수반되는 특정 구역의 비디오 청크들만 실시간으로 엄선하여 최종 멀티모달 모델 인덱싱으로 발송해 줌으로써, 하루 24시간 분량의 원천 영상을 최종적으로는 아주 단 실시간 연산 몇 분 혹 몇 초 처리 비용으로 감축할 수 있습니다.

안전 및 규제 요건에 따라 요구될 수 있는 다양하고 유연한 가상 조건을 접목해 보세요:

  1. 식료품 제조 공장: 모든 현장 원 직원 대상 특수 보호 위생 장갑 전원 보급 필요.

  2. 메디컬 전문 시설: 전 인원의 덴탈 및 황사 안전 마스크 전원 상시 착용 의무.

  3. 종합 건설 야외 현장: 안전모, 조끼 등을 포함한 안전 규제 올인원 필수 세트 동기화.

이와 같이 고객 맞춤형 룰을 간편히 세팅함으로써, 개별 대규모 조립 및 가공 공장은 초정밀 보안 체계를 유지하면서도 서버 인프라 유지 운용비를 획기적으로 낮출 수 있습니다!

* 참고: 초기 수작업이 많게 보일 수 있지만 기획 단계라면 크게 걱정하지 마세요. 하단의 'NVIDIA VSS 설계 구조 살펴보기' 단락에서 NVIDIA VSS 프레임워크 최적 내장 툴을 통해 이미 내장된 고급 스마트 청킹 기법들을 다루는 법을 마저 소개하겠습니다.


RTSP(실시간 스트리밍 프로토콜) 가상 IP 카메라 구축

좋습니다. 이제 뛰어난 최적화 청킹 기반을 정립했으니 원거리 라이브 피드를 다룰 준비가 되었군요. 그런데 실제 영상 스트림 자체는 어떻게 송출해 줄까요?

인터넷 검색을 해보시면, 실제 공장이나 다양한 기밀 현장에서 작동 중인 온전한 개방형 시뮬레이션 카메라 피드를 수월하게 구하는 것이 꽤나 까다롭다는 점을 발견하실 것입니다. 그렇기에 파이썬으로 가상 피드를 송출해 줄 백그라운드 구조를 저희가 가짜로 개설할 것입니다!

💡학습 팁: 산업 현장을 대체해 줄 가상 네트워크 카메라는 어떤 구성품으로 이루어져 있을까요?

물리 하드웨어 없이 가상으로 24/7 스트리밍 환경을 지상 구현하기 위해선, 콘텐츠 소스, 브로드캐스팅 레이어, 배포 방식의 전송선로 파이프라인 설계가 유기적으로 뒷받침되어야 합니다. 당사와 구성할 세그먼트는 본질적으로 다음 네 영역입니다:

  1. 콘텐츠 (저장된 비디오 파일): 임시 가공 영상 피드가 필요합니다. 무한정 반복 재생되면서 현장의 실시간 감시 풍경과 동일한 움직임을 줄 표준 비디오 파일 하나면 충분합니다.

  2. 가상 IP 카메라 (브로드캐스터 스크립트): 영상을 전달할 기기 자체를 대변해 줄 데몬 프로세스입니다. 미디어 원천 파일을 순차적으로 읽어와 인터넷 망으로 송출합니다.

  3. 카메라 시그널 (스트리밍 표준 프로토콜): 네트워크 전송을 위해 보편적 영상 어댑터 규격을 갖춥니다. 디바이스 간 미디어 전송의 핵심 표준 인프라인 RTSP(Real-Time Streaming Protocol)로 피드를 방출합니다.

  4. 게이트웨이 허브 (미디어 스트리밍 서버): 들어오는 원시 RTSP 포맷을 외부로 전파하고 리스닝 대기할 매니지드 미디어 중계기입니다. 들어오는 RTSP 트래픽을 상시 대기하여 받아들이는 모니터 관제탑입니다.

  5. 웹 송출용 표준 프로토콜 변형 (HLS): 본래 고유 RTSP 날것의 패킷은 보안 시스템 하드웨어로는 완벽하지만 일반 크롬 브라우저, 모바일 기기를 포함한 일반적인 환경에서는 즉시 해석하지 못합니다. 따라서 중계 서버를 거쳐 세그먼트를 10초 내외의 잘게 잘린 조각 조각 비디오 세그먼트로 바꾸어 주는 HLS(HTTP Live Streaming) 구조로 리패키징 프로세싱합니다.

아래 첨부된 상세 아키텍처 다이어그램을 보며 흐름을 익혀봅시다:

아키텍처 상세 다이어그램: LucidChart (클릭 시 전체 화면으로 감상하기 가능)

이 백엔드 레이어들은 우선 설계의 복잡도 감축과 온디맨드 검토 직관성을 높이기 위해 전체 서버 로직이 통합 운용되는 모놀리식(Monolithic) 아키텍처 기반의 딥러닝 최적화 AWS EC2 AMI (Amazon Machine Image) 1개 인스턴스 안에서 긴밀히 수행됩니다. 각 요소들의 역할을 안내하겠습니다.

AWS S3 버킷: 모의 카메라 환경에 지속적으로 풍부한 장면 변동을 책임질 수 있도록 기존 가공 가이드 MP4 원본 동영상 무더기를 홀딩해 주는 장치입니다.


FFmpeg: 가상 하드웨어 스트리밍 시각화를 주도해 나가며 실질적 트랜스코딩을 단행하는 연산 핵심 엔진입니다:

  1. S3 버킷을 통해 MP4 경로의 자산을 안전히 탐색해 입출력 버퍼링합니다.

  2. (-stream_loop -1) 처리를 주어 원본 영상의 끝에 닿으면 즉시 롤백 루프 기동합니다.

  3. 그리고 가장 중요하게, 이렇게 연속 구동되는 화소 정보들을 즉각 규격 포맷인 RTSP 파이프로 인코딩 처리해 전달해 줍니다.

💡학습 팁: RTSP는 기존 상업용 하이엔드 스마트 보안 카메라 및 IP 카메라 십중팔구가 활용하는 공용 통신 규격 프로토콜입니다. FFmpeg를 활용해 가짜 루프 피드를 RTSP로 전환해 둠으로써 네트워크 상에서는 실제 최고 사양의 감시 카메라가 24시간 실시간 망방송 중인 것과 네트워크상에서 완전히 무구별하게 고도 시뮬레이션됩니다. 참고글: RTSP 기반 지능형 보안 카메라의 동작 원리와 원거리 클라우드 미디어 컨트롤


MediaMTX: 들어오는 멀티미디어 규격을 범용 브라우저 웹 규격으로 유연하게 가시화하여 다릴 스트림 변환 중계 허브입니다. 왜 필요할까요? 일반 상용 크롬이나 사파리 브라우저는 날것 그대로 전달되어 오는 고유 RTSP 데이터를 다이렉트 디코딩 처리하여 렌더링 할 수 없습니다. 이 까다로운 프로토콜 세팅을 MediaMTX 오픈소스 패키지가 내부에서 즉각 실시간 변환 처리 보완해 줍니다:

  1. 입수되는 유일한 FFmpeg 채널 소스를 안전성 있게 수신(Ingest)합니다.

  2. 웹 브라우저가 다이렉트로 가동할 수 있는 파일 포맷으로 고속 재가공합니다.

우리 프로젝트에서는 현대 모바일 장치와 브라우저 생태계의 교과서인 HLS(HTTP Live Streaming)를 메인으로 삼았습니다. MediaMTX는 흐르는 실시간 비디오를 10초 전후 단위 미세 파일 조각(.ts)으로 세분 저장한 뒤, 이를 찾아가 순서대로 수신 재생시킬 타임 플레이리스트 정보가 수록된 (.m3u8) 메인 로더 정보를 인벤토리에 실시간 구성함으로써 어떠한 모바일이나 웹 기반의 플레이어 브라우저로 접속해도 버벅임 없이 수월하게 청크 재생하도록 서포트합니다.


미세조정된 YOLO 모델: 이전 단계에서 완성한 우리의 최적화 비용 절감 감지 로직입니다! FFmpeg가 연속 변환하며 매초 보내주는 실시간 라이브 채널 피드를 인터셉트하여 현장 감지 상태를 파악하기 위해 구동됩니다.


Cloudflare SSH 터널: 복잡한 인바운드 방화벽 세팅 없이 외부에 안전하게 주소를 바인딩시켜 줄 통로입니다. 본 EC2 인스턴스는 외벽의 개방형 인바운드 포트를 전부 걸어 잠가 해커나 상시 침입 위협 세력의 대외 스캔 경로 노출에 대한 완벽한 선제 차단체계를 실현했습니다.

💡학습 팁: 내부 비접촉 보안 통제 속에서 브라우저 미디어 전송을 어떻게 퍼블릭하게 연결할까요? Cloudflare의 고유 경량 패키지 데몬인 cloudflared가 통행 키를 쥔 상태로 내부 서버 측에서 출발해 Cloudflare 외부 기간 거점으로만 향하는 안전 보안 전용 아웃바운드 터널 통로를 성사시켜 둡니다. 그 뒤 Cloudflare를 퍼블릭 웹 프론트 엔트리로 바인딩하여 live.myproject.com 같은 암호화가 완비된 SSL 주소를 고정 IP 세팅 없이 완전 무결하게 제공합니다.


최종 산출물은 안전함이 극대화된 HTTPS 규격의 HLS 스트리밍 피드이며, 어떤 표준 웹 기반의 비디오 플레이어나 일반 사이트로든 가볍게 삽입될 수 있는 강력함을 보장합니다.

방금 Cloudflare 터널을 통해 확보한 스트리밍 피드 주소를 사설 플레이어 도큐먼트 사이트 hlsplayer.net에 붙여 넣었더니 즉시 쾌적하게 로딩되어 구동되는 결과를 보실 수 있습니다 ☺️! 이는 출력 처리된 결과 소스가 정통 규격화 준수된 .m3u8 형식에 맞추어 제대로 호환 공급되고 있다는 명백한 강력함의 증거입니다.


NVIDIA VSS와의 통합

좋습니다. 이제 원격 카메라 피드가 송출 가능해졌고 사전 비용 감쇠용 감시 비전 모델까지 클라우드로 안전하게 탑재되었습니다. 마지막 퍼즐 조각은 현장에서 일어나는 기계식 사고나 복잡한 규정 준수 위반 맥락을 고도로 정교하게 인식할 수 있는 맥락 추론 기반의 비디오 이해 인공지능을 완성하는 것입니다. 여기서 바로 NVIDIA VSS 전용 TwelveLabs 연동 플러그인이 해결사로 나섭니다.

공식 연동 깃허브 저장소: james-le-twelve-labs/nvidia-vss: 대규모 실시간 라이브 영상 및 보관 영상을 인덱싱하고 분석, 요약, 문답(Q&A)에 최적화된 인사이트를 제공하기 위한 인프라 프로토타입


💡학습 팁: 실제 구현 실습과 코드를 보기 전에, 과연 NVIDIA VSS가 정확히 어떤 유용성을 자아내며, NVIDIA GPU 기반 환경에서 소프트웨어를 개발하는 엔지니어들에게 어떠한 특별한 유틸 클래스를 보증하는지 정립할 필요가 있습니다.

VSS는 Video Search and Summarization(비디오 검색 및 요약)의 약칭입니다. 이것은 CUDA와 같은 저수준 단일 라이브러리가 아니라, 개발자가 영상 정보의 서술 및 탐색 능력이 특화된 강력한 인프라를 빠르게 현업 서비스로 빌드할 수 있게 돕는 NVIDIA AI Blueprint(블루프린트) 프레임워크입니다. 다음과 같은 차세대 파트들로 유기적으로 연합되어 작용합니다:

  1. VLM(비전 언어 모델, Vision Language Models): 비디오 속 물체 형상과 상호작용 및 변화 흐름을 텍스트 수준으로 읽고 교정해 내는 눈의 영역입니다. VSS는 원시 파일 혹은 실시간 RTSP 프레임 세그먼트를 VLM에 순차적으로 로드한 다음 각 청킹 영역마다 풍부한 의미 분석 묘사(밀도 높은 캡셔닝 설명글)를 추출해 주무르는 기본 전처리 흐름을 연동합니다.

  1. LLM(대형 언어 모델, Large Language Models): 확보된 영상 서사 내역을 최종 대화문과 과업 의도에 매칭해 논증하고 재서술하는 브레인 영역입니다. VLM을 경유해 도출해 둔 객체 기술 텍스트 문맥들을 LLM과 피딩시킴으로써 긴 사건 요약 및 대화형 자연어 질의응답을 물 흐르듯 가능케 합니다.

  1. RAG(검색 증강 생성, Retrieval-Augmented Generation): 임의로 유추하는 환각 현상을 덜어내도록 RAG 아키텍처를 전방위 채용합니다. 산출된 자구 기술문을 벡터 데이터베이스 영역에 긴밀하게 인덱스 영구 저장해 두고, 유저가 현장 내용에 대해 구체적인 물음표를 제시하면 가장 밀접하게 매칭되는 해당 부분 영상 프래그먼트를 참조 맥락(Context)으로 주입 연동하여 최고 수준의 높은 사실 검증 기반 답변 신뢰도를 자아냅니다.

  1. GPU 가속 기반 인제스팅(Video Ingestion) 구조: 대용량 동영상 피드를 멀티 쓰레드 수준 하드웨어 가속 트래픽으로 안전 수신하고 초고속으로 실시간 디코딩을 주도하여 AI 연산 버퍼로 넘겨주는 최적의 전처리 파이프라인을 지원합니다.

  1. 전통 컴퓨터 비전(CV) 모듈 연동: 딥러닝 영상 처리는 종래의 일반 탐지 객체 고속 연산 모델과 협업할 때 더욱 강력해집니다. YOLO 등 물체 추적(Tracking) 스크립트 데이터를 매칭 주입하여 개별 인스턴스에 고유값 ID를 부여하는 지능형 DeepStream SDK 데이터와 완벽 연동되도록 지원합니다.

  1. 오디오 전사 처리(Whisper 외): 비단 기조 영상 신호뿐 아니라, 미디어 속의 음향 및 사람 음성 스피치를 정밀 인식 변환하여 자막화 텍스트 메타를 추가 탑재함으로써 고해상 지능형 검색의 가치를 극대화합니다.

  1. NVIDIA NIMs(NVIDIA Inference Microservices): 모델 성능 가속 최적화를 위해 무리하게 수많은 오케스트레이션 구성을 개별 코딩하느라 골치 아플 필요가 없도록, 도커 이미지처럼 안전하게 패키징이 끝마쳐진 컨테이너형 지능화 추론 엔진 단위로 공급됩니다.

이러한 NVIDIA VSS 아키텍처 설계는 가히 압도적이지만, 보시는 바와 같이 정작 단일 기업 개발팀이 이를 개별 구축, 미세 튜닝, 서빙 배포 및 모니터링 관리하려면 거대한 리소스가 소모될 우려가 다분합니다.

이때 바로 TwelveLabs의 원클릭 클라우드 인프라가 믿을 수 없을 만큼 든든한 날개를 달아 드리는 치트키로 기능합니다.

*TwelveLabs 공식 관리자 콘솔 플레이그라운드의 정교한 자연어 멀티모달 비디오 검색 기능 시각화 (TwelveLabs | 홈)*

각기 따로 놀던 VLM 세팅, RAG용 고유 인덱싱, LLM 오케스트레이션 가속 튜닝, 오디오 Whisper 전사 처리 로직, 그리고 복잡한 미디어 인제스천 인프라를 개별적으로 조립할 필요가 없어집니다. TwelveLabs가 매니지드 오프프레미스 원격 배포 형태로 이 가치 사슬 전체를 완결형 단일 API로 번들이 통합 관리해 줍니다. 개발자는 단지 영상 경로 혹은 스트림 바인딩 파라미터만 넘겨주면, TwelveLabs가 최정상급 모델들을 유기적으로 실행하여 완벽히 정리된 다차원 검색 정보를 답장으로 건네줍니다.

그렇다고 기존에 구성 중이던 하드웨어 전용 가속 환경을 전부 허물어뜨릴 필요조차 전혀 없습니다.

핵심 강점은 역시 지극히 세련된 모듈러 스타일(Modularity) 인터페이스를 완비하고 있어, 원하시는 바에 따라 자체 NVIDIA GPU 기반 환경과 하이브리드 파이프라인으로 구성해 융합하기에도 아주 자유롭다는 점입니다.


이러한 기본 배경지식을 기반으로 하여, NVIDIA VSS 내부 도커 컨테이너 속에서 어떠한 연동 처리로 당사 API를 무구별하게 결함 없이 승화시켰는지 연쇄적인 세부 연동도를 확인해 보세요.

*기술 아키텍처 다이어그램: LucidChart (클릭 시 풀사이즈 이미지 관람 가능)*

매우 손쉬운 구조입니다. 앞단의 경량 탐지 전처리 단계에서 잘려 나와 전송된 비디오 자산 조각은 안전하게 다음 두 계통으로 전달됩니다.

  1. AWS S3 임시 아카이브 버킷 (nvidia-vss-streams): 클라우드 보존 스토리지를 분리해 두어 향후 현장의 정밀 법적 감사 필요성이나 장기 트렌드 조사를 위한 영상 수사 데이터 아카이빙을 영구 관장하게 만듭니다.

  1. NVIDIA VSS TwelveLabs 연동 모듈: 전달된 영상 스트림 프래그먼트는 API에 안전히 승인되어 순식간에 분석 코어 레이어로 전송 및 구조화됩니다:

이제 이 클라우드 지능을 갖춘 핵심 엔드포인트를 기반으로 구축된 환상적인 시연 기능 두 가지를 구경해 보세요.

대표 기능 예시 1: 다이내믹 AI 규정 자문 어시스턴트 — Jade. 

아래 캡쳐 이미지 우측 화면 패널에서 가동하고 있으며, 현장 공장 관리자가 복잡한 기술 코드나 프로그래밍 쿼리 없이, 일반 메신저를 쓰듯 편하게 사안에 대해 심문 형태의 자유로운 질의를 나누며 위협적 요인에 대해 조언을 얻는 기능입니다. 공장의 위치 좌표, 주 정부 및 지방 자치 규범 등에 기인해 상황에 맞춘 OSHA 적용 표준 자문안을 맞춤식 브리핑해 줍니다.

이 혁신은 대화 전문 Pegasus 멀티모달 프레프트 연작 엔진에, 개발자가 사전에 세심하게 역사와 환경 맥락을 엮어둔 채팅 히스토리 프롬프팅 구조를 가미해 완비된 모습입니다!

/frontend/src/app/components/ClipChat.js (라인 49-72)

const typingId = Date.now();
        setChatHistory(prev => [...prev, { role: 'assistant', text: '', date: Date.now(), typing: true, _id: typingId }]);


        try {
            const prompt = `You are Jade, an expert safety and compliance officer.
       
            Here is the chat history: ${chatHistory.map(m => `${m.role}: ${m.text}`).join('\n')};


            The user asks: ${message};
           
            The user's geolocation is unknown, please reference general safety and compliance standards.


            If the user asks about safety, compliance, or improvements, you should always reference the user's geolocation and the laws in that area when providing your response.
            Do not mention the coordinates, just the location and city.
           
            Be highly detailed and specific, by referencing specific machines, processes, and equipment you see in the video and the second.


            `;


            const resp = await fetch('/api/analysis', {
                method: 'POST',
                headers: { 'Content-Type': 'application/json' },
                body: JSON.stringify({ videoId, userQuery: prompt })
            });

* 주의 깊게 관찰해 보세요: TwelveLabs 원격 호스트 분석 모델 덕분에, 코드 단 4줄 이하만으로도 방대한 인덱싱 비디오 데이터에 대해 정교하고 깊이 있는 자연어 질의를 지연 없이 전달할 수 있습니다.

대표 기능 예시 2: 온디맨드 즉석 보건 안전 리포트 생성 및 자동 메타데이터 추출.

경영진이나 안전 점검 위원 등은 본 기능을 클릭해 즉시 비즈니스 프리젠테이션급으로 포맷 정리가 완료된 원스톱 현장 감동 보고서를 제공받으며, 위배 소지가 있는 벌금 관련 추정 액수 산정이나 공정 시정 지침도 한 눈에 취득하게 됩니다.

/frontend/src/app/clips/[id]/page.js (라인 328 - 331)

const response = await fetch(`/api/analysis/${clipData['pegasusId']}`, {
    method: 'GET',
    headers: { 'Content-Type': 'application/json' }
})

이 시스템 또한 TwelveLabs 고유의 검증된 문단 생성 지능인 Marengo 엔진의 파워를 계승한 덕에, 복잡한 사용자 설정 프롬프트 룰을 주어 상황에 맞춰진 완전한 설명 조서를 번거로운 포스트 프로세싱 없이 훌륭히 자아냅니다!

축하합니다! 이제 여러분은 NVIDIA VSS와 TwelveLabs 통합 모델을 활용해 추가 하드웨어, 외장 GPU 호스트, 머신 러닝 훈련 소모 비용 없이 라이브 비디오 흐름을 대화와 검색이 완비된 지적 자산으로 실시간 변환해 나가는 완벽한 플랫폼을 손수 빌드해 보는 뜻깊은 여정을 통과하셨습니다 🥳.


마무리하며

끝까지 깊이 있게 몰입해 주셔서 대단히 감사드립니다! 여러분은 이번 학습을 통하여 실시간 관제 수준의 대규모 인프라 아키텍처 실무 역량을 강화하는 것은 물론, 엔비디아가 제시하는 미래 지향형 생태계 NVIDIA VSS 및 TwelveLabs 연동 플러그인이 어떻게 여러분의 상상 속 영감을 단 몇 시간 만에 실전 코드로 옮길 수 있는지 체감하셨으리라 확신합니다.

상세 구조 분석이나 더 디테일하고 폭넓은 공식 참고자료들은 아래에서 간편히 둘러보실 수 있습니다:

  1. 설계 아키텍처 시각화 이미지: LucidApp

  2. 공식 상세 제품 백서: [NVIDIA GTC 특별 기획] - 제조업 공장 자율 자동화 지능 연동 아키텍처 기획 문서 

  3. NVIDIA VSS TwelveLabs 연동 깃허브 소스 코드: james-le-twelve-labs/nvidia-vss: 대규모 실시간 라이브 영상 및 보관 영상을 인덱싱하고 분석, 요약, 문답(Q&A)에 최적화된 인사이트를 제공하기 위한 인프라 프로토타입

  4. 당사 메인 프로젝트 개발 저장소: nathanchess/twelvelabs-nvidia-vss-sample

  5. 하이라이트 비디오 데모 감상: NVIDIA VSS TwelveLabs 연동: 실시간 제조업 지능화 관제 데모

이 튜토리얼에서는 공장, 건설 현장 등 다양한 작업장의 실시간 CCTV 카메라를 모니터링하여 위험한 직원 행동이나 위험한 기계류, OSHA(미국 산업안전보건청) 규정 준수 위반, 효율성 격차를 실시간에 가깝게 감지할 수 있는 비디오 인텔리전스 플랫폼 개발 방법을 배우게 됩니다. 또한, 대용량 비디오 데이터의 분석 및 요약을 하드웨어와 NVIDIA 기반의 다양한 솔루션 상에서 처리할 수 있도록 설계된 최신 TwelveLabs의 NVIDIA VSS 연동 기술에 대해서도 깊이 있게 학습하게 될 것입니다.


소개

작업장 내 CCTV 카메라가 완전히 자율적으로 변해 연중무휴 24시간 감시를 통해 보안 리스크를 보고할 뿐만 아니라 구체적인 OSHA 규정 준수 문제, 효율성 격차, 그리고 리스크 평가 등을 상세히 보고서로 만들어 준다면 어떨까요? 📃

마치 마법처럼 들릴 수도 있지만, 이는 최근 개최된 NVIDIA GTC DC 2025 컨퍼런스에서 TwelveLabs의 비디오 인텔리전스 모델이 컴퓨터의 비정형 데이터 이해 방식을 어떻게 혁신하고 있는지 선보이기 위해 저희가 직접 개발한 결과물입니다. 그뿐만 아니라, 저희 모델들은 기존의 NVIDIA 프레임워크 및 NVIDIA Video Search and Summarization (VSS)과 같은 하드웨어와 전적으로 통합되어 작동합니다.

오늘 이 단계별 가이드를 통해 애플리케이션을 직접 배포해 보는 것은 물론, 이 실시간 비디오 인텔리전스 플랫폼에 적용된 심층적인 기술 아키텍처까지 자세히 익히게 될 것입니다. 구체적으로, 실시간 라이브 스트림을 다음과 같은 가치 있는 정보로 변환해 주는 플랫폼을 구현하게 됩니다:

  1. OSHA 규정 준수 보고서: 특정 법적 규정 및 벌금 조항을 함께 제시하는 보고서가 자동으로 생성됩니다.

  1. 무다(낭비) 요소 제안: 린(Lean) 업무 관리를 지원하고 작업 공간의 효율성을 제고할 수 있도록 최적화 방향을 설계해 줍니다.

  1. 대화형 챗봇: 관리자가 작업 공간과 관련된 상세 질문을 던지면 이에 부합하는 즉각적인 해결책과 웹 기반의 제안을 제공합니다.

  1. 다이내믹한 이벤트 타임라인: 발생한 사건·사고들이 정확히 언제, 어떻게 일어났는지 사용자가 한눈에 파악할 수 있도록 돕습니다.

  1. 맥락 보존형 AI 액션: 비디오의 특정 타임스탬프와 위치 정보 상에 AI가 생성해 낸 버튼을 표시하여 효율성 저해 요소, 규정 준수 문제, 은밀히 일어난 사소한 사고들을 강조합니다.

* 참고: 여기서 소개하는 개념과 기술들은 비단 작업장에만 국한되지 않습니다. 여러분의 산업 분야에서 TwelveLabs가 어떠한 차이를 만들어 낼 수 있는지 더 알고 싶으시다면 본 블로그 끝부분에 있는 Beyond The Workplace 섹션을 꼭 확인해 보시기 바랍니다!


애플리케이션 데모

본격적으로 코딩에 들어가기에 앞서, 우리가 앞으로 구축할 플랫폼의 전반적인 이해를 돕기 위해 아래 탑재된 영상과 이미 배포된 데모를 확인해 보세요.

직접 테스트해 보기: NVIDIA VSS + Twelve Labs 제조업 자동화 데모!

GitHub 저장소: nathanchess/twelvelabs-nvidia-vss-sample

그럼, 자신감을 갖고 시작해 봅시다! 😊


학습 목표

이번 튜토리얼을 통해 다음을 배울 수 있습니다:

  • 개인용 보호 장구(PPE) 분류를 위해 15,000개 이상의 이미지 데이터셋으로 YOLO(You Only Look Once) 객체 탐지 알고리즘 컴퓨터 비전 모델을 미세조정(Fine-tuning)합니다.

  • FFmpeg를 활용해 기존 MP4 동영상 파일을 실시간 RTSP(Real Time Streaming Protocol) 스트림으로 변환하여 가상의 CCTV 카메라 환경을 모방하고 시뮬레이션합니다.

  • TwelveLabs가 어떻게 NVIDIA VSS 및 AWS 환경으로 다이렉트 연동되는지 살펴봅니다.

  • 생각의 사슬(Chain-of-thought)과 같은 고급 프롬프트 엔지니어링 기법을 폭넓게 응용하는 방법을 이해합니다.

  • 비디오 청크 업로드 및 라이브 스트림 피드를 수용하기 위해 비동기 API 동작을 관리하는 Docker 컨테이너를 직접 구동해 봅니다.


사전 준비사항

  1. Node.JS 20+: Node.js — 다운로드 Node.js®

  2. Python 3.8+: Python 다운로드 | Python.org

  3. TwelveLabs API 키: 인증 가이드 | TwelveLabs

  4. TwelveLabs 인덱스: Python SDK | TwelveLabs

  5. AWS 액세스 키: 자격 증명 가이드 - Boto3 1.40.12 문서

  6. Docker 설치: 설치 가이드 | Docker 기술 문서

  7. Python, API 개발, 그리고 JavaScript에 대한 중급 이상의 이해도가 요구됩니다.


로컬 개발 환경 설정

1 - 로컬 개발 환경에 프로젝트 저장소 복제(Clone)

>> git

2 - 로컬 개발 환경에 TwelveLabs 연동이 포함된 NVIDIA VSS 프레임워크 복제(Clone)

>> git

3 - AWS 콘솔로 이동하여 “nvidia-vss-source” 명칭의 신규 S3 버킷을 개설합니다.

  1. 전체 튜토리얼 확인하기: 일반 목적 버킷 만들기 - Amazon Simple Storage Service

  2. 이 버킷은 추후 테스트에 활용될 가상 CCTV 카메라 보관소 역할을 합니다!

4 - frontend 및 rtsp-stream-worker 로컬 디렉토리에 환경변수를 선언해 줍니다.

.env.local (/frontend/)

TWELVE_LABS_API_KEY=...
NEXT_PUBLIC_TWELVELABS_MARENGO_INDEX_ID=...
NEXT_PUBLIC_TWELVELABS_PEGASUS_INDEX_ID=...


AWS_ACCESS_KEY_ID=...
AWS_SECRET_ACCESS_KEY=...
AWS_S3_BUCKET_NAME=nvidia-vss-source
AWS_REGION=us-east-1


NEXT_PUBLIC_RTSP_STREAM_WORKER_URL="http://localhost:8000"
NEXT_PUBLIC_VSS_BASE_URL="http://127.0.0.1:8080"

.env (/rtsp-stream-worker/)

TWELVE_LABS_API_KEY=...


AWS_ACCESS_KEY_ID=...
AWS_SECRET_ACCESS_KEY=...
AWS_S3_BUCKET_NAME=nvidia-vss-source
AWS_REGION=us-east-1


NEXT_PUBLIC_VSS_BASE_URL="http://127.0.0.1:8080"

5 - rtsp-stream-worker 모듈과 NVIDIA VSS 모듈을 위해 Docker 컨테이너들을 빌드 및 실행합니다.

  1. RTSP Stream Worker 빌드 가이드: twelvelabs-nvidia-vss-sample/rtsp-stream-worker at main · nathanchess/twelvelabs-nvidia-vss-sample

  1. NVIDIA VSS 빌드 가이드: nvidia-vss/src/vss-engine/src/models/twelve_labs at main · james-le-twelve-labs/nvidia-vss

6 - NPM(Node Package Manager) 명령어로 프론트엔드 샘플 웹 앱 서비스를 시작합니다.

복제한 로컬 깃 저장소의 frontend 폴더를 콘솔로 열어 아래 커맨드를 입력하십시오:

>> npm

그 후, 웹 브라우저 주소창에 localhost:3000을 입력하여 정상 기동을 테스트합니다.

* 사전에 npm 패키지가 올바르게 세팅되어 있는지 확인하세요: Node.js 및 npm 다운로드 및 설치 가이드 | npm 기술 문서


컴퓨터 비전(CV) 파이프라인 개발

그렇다면 어떻게 끊임없이 흘러 들어오는 실시간 스트림 환경에서 거의 실시간에 준하는 처리를 이끌어 낼 수 있었을까요? 

💡학습 팁: 실시간 라이브 스트림 제어와 대역폭 사용 제한, 망불안정 대치 등은 개발하기 까다로울 뿐 아니라 인프라 연산 비용 또한 무척 높아질 우려가 있습니다!

간단한 수학 계산을 바탕으로 이를 확인해 보겠습니다. TwelveLabs의 멀티모달 모델인 Marengo를 예시로 들어보겠습니다. 만약 하루인 24시간 동안 완곡한 순수 비디오 피드를 통짜로 인덱스에 넣고 분석 처리한다면 비용이 얼마나 발생할까요?

Marengo 기준: ($.042/분 + %.0015/분) * 1440분 = $60.48

  • 비디오 인덱싱 비용: 분당 $0.042

  • 컴퓨트 등 인프라 구동 비용: 분당 $0.0015

카메라 한 대당 일일 $60.48 전후라면, 보안을 위해 현장 전 영역에 다수의 감시 장비를 포진시켜 놓는 실제 기업 및 공공 영역 환경에서는 예산 통제력을 완전히 상실하게 될 위험이 있습니다.

참고: 직접 개별 비용을 시뮬레이션하고 예측해 보시려면 아래 TwelveLabs 공식 프라이싱 계산기를 사용해 보셔도 좋습니다: https://www.twelvelabs.io/pricing-calculator

그럼 이러한 과도한 청구 문제를 해결하려면 어떻게 해야 할까요? 열쇠는 바로 '비디오 소분화(Chunking)'와 '사전 처리(Preprocessing)' 설계 단계에 숨어 있습니다! 물론 직면해 계신 개별 비즈니스의 제약 조건이나 현업 분위기는 다르겠지만, 저는 개인 안전 장비(PPE)를 자동식별하도록 파인튜닝된 YOLO 기반의 사전 모델을 앞단에 심어 두었습니다. 다음 실험 결과 스크린샷 사례를 확인해 보세요:

작업 현장의 상이한 구도, 이질적인 조도 하에서도 정교하게 사람들의 헬멧 유무를 잡아내는 모습을 보실 수 있습니다. 무려 15,000장 이상에 달하는 방대한 이미지 학습 데이터셋을 설계하고, 모델이 다채로운 변수와 조명에 유연히 적응하도록 증강 기법을 녹여 작업복, 안전모, 장갑 및 안전화 등 일반적인 구성품 전체에 대해 90%를 초과하는 전례 없는 실사용 수준 정밀도를 획득했습니다!

💡학습 팁: 이번 블로그 기재 범위 밖의 기술 영역이지만, 커스텀 데이터 학습 스크립트 작성에 참고하시거나 완전히 기초부터 실전 모델을 트레이닝하고자 하시는 분들은 복제한 프로젝트 속 /cv_model 폴더 내 리드미(README) 문서를 방문해 주시길 권장합니다: https://github.com/nathanchess/twelvelabs-nvidia-vss-sample/tree/main/cv_model 

프로젝트 속 소스 중 분석 비용을 획기적으로 낮추며 최적의 비디오 청킹 과정을 설계해 낸 대어입니다:

/rtsp-stream-worker/main.py (라인 357 - 391)

def analyze_video(self, video_source: str):
       
    people_count, ppe_count = 0, 0    


    results = self.model.predict(frame, conf=0.25, iou=0.45, max_det=1000)
    processed_frame = self._draw_boxes(frame, results)


    for box in results[0].boxes:
        class_id = int(box.cls[0])
        class_name = self.model.model.names[class_id]
        if class_name == "Person":
             people_count += 1
        else:
             ppe_count += 1


        # Write frame to output video
        video_writer.write(processed_frame)


        video_capture.release()
        video_writer.release()
        return new_video_source
 else:
        raise FileNotFoundError(f"Video file not found: {video_source}")

상단 로직을 살펴보면 현장의 작업복 미착용자와 정상 검출 건에 대한 수치를 집계해 나갑니다. 이 수집 메타데이터를 사용하여 각 고객사의 운영 시나리오에 완벽히 매칭되는 지능형 청킹 모델로 개량할 수 있습니다. 구체적으로 실제 보호용구 누락 등 문제 제기가 수반되는 특정 구역의 비디오 청크들만 실시간으로 엄선하여 최종 멀티모달 모델 인덱싱으로 발송해 줌으로써, 하루 24시간 분량의 원천 영상을 최종적으로는 아주 단 실시간 연산 몇 분 혹 몇 초 처리 비용으로 감축할 수 있습니다.

안전 및 규제 요건에 따라 요구될 수 있는 다양하고 유연한 가상 조건을 접목해 보세요:

  1. 식료품 제조 공장: 모든 현장 원 직원 대상 특수 보호 위생 장갑 전원 보급 필요.

  2. 메디컬 전문 시설: 전 인원의 덴탈 및 황사 안전 마스크 전원 상시 착용 의무.

  3. 종합 건설 야외 현장: 안전모, 조끼 등을 포함한 안전 규제 올인원 필수 세트 동기화.

이와 같이 고객 맞춤형 룰을 간편히 세팅함으로써, 개별 대규모 조립 및 가공 공장은 초정밀 보안 체계를 유지하면서도 서버 인프라 유지 운용비를 획기적으로 낮출 수 있습니다!

* 참고: 초기 수작업이 많게 보일 수 있지만 기획 단계라면 크게 걱정하지 마세요. 하단의 'NVIDIA VSS 설계 구조 살펴보기' 단락에서 NVIDIA VSS 프레임워크 최적 내장 툴을 통해 이미 내장된 고급 스마트 청킹 기법들을 다루는 법을 마저 소개하겠습니다.


RTSP(실시간 스트리밍 프로토콜) 가상 IP 카메라 구축

좋습니다. 이제 뛰어난 최적화 청킹 기반을 정립했으니 원거리 라이브 피드를 다룰 준비가 되었군요. 그런데 실제 영상 스트림 자체는 어떻게 송출해 줄까요?

인터넷 검색을 해보시면, 실제 공장이나 다양한 기밀 현장에서 작동 중인 온전한 개방형 시뮬레이션 카메라 피드를 수월하게 구하는 것이 꽤나 까다롭다는 점을 발견하실 것입니다. 그렇기에 파이썬으로 가상 피드를 송출해 줄 백그라운드 구조를 저희가 가짜로 개설할 것입니다!

💡학습 팁: 산업 현장을 대체해 줄 가상 네트워크 카메라는 어떤 구성품으로 이루어져 있을까요?

물리 하드웨어 없이 가상으로 24/7 스트리밍 환경을 지상 구현하기 위해선, 콘텐츠 소스, 브로드캐스팅 레이어, 배포 방식의 전송선로 파이프라인 설계가 유기적으로 뒷받침되어야 합니다. 당사와 구성할 세그먼트는 본질적으로 다음 네 영역입니다:

  1. 콘텐츠 (저장된 비디오 파일): 임시 가공 영상 피드가 필요합니다. 무한정 반복 재생되면서 현장의 실시간 감시 풍경과 동일한 움직임을 줄 표준 비디오 파일 하나면 충분합니다.

  2. 가상 IP 카메라 (브로드캐스터 스크립트): 영상을 전달할 기기 자체를 대변해 줄 데몬 프로세스입니다. 미디어 원천 파일을 순차적으로 읽어와 인터넷 망으로 송출합니다.

  3. 카메라 시그널 (스트리밍 표준 프로토콜): 네트워크 전송을 위해 보편적 영상 어댑터 규격을 갖춥니다. 디바이스 간 미디어 전송의 핵심 표준 인프라인 RTSP(Real-Time Streaming Protocol)로 피드를 방출합니다.

  4. 게이트웨이 허브 (미디어 스트리밍 서버): 들어오는 원시 RTSP 포맷을 외부로 전파하고 리스닝 대기할 매니지드 미디어 중계기입니다. 들어오는 RTSP 트래픽을 상시 대기하여 받아들이는 모니터 관제탑입니다.

  5. 웹 송출용 표준 프로토콜 변형 (HLS): 본래 고유 RTSP 날것의 패킷은 보안 시스템 하드웨어로는 완벽하지만 일반 크롬 브라우저, 모바일 기기를 포함한 일반적인 환경에서는 즉시 해석하지 못합니다. 따라서 중계 서버를 거쳐 세그먼트를 10초 내외의 잘게 잘린 조각 조각 비디오 세그먼트로 바꾸어 주는 HLS(HTTP Live Streaming) 구조로 리패키징 프로세싱합니다.

아래 첨부된 상세 아키텍처 다이어그램을 보며 흐름을 익혀봅시다:

아키텍처 상세 다이어그램: LucidChart (클릭 시 전체 화면으로 감상하기 가능)

이 백엔드 레이어들은 우선 설계의 복잡도 감축과 온디맨드 검토 직관성을 높이기 위해 전체 서버 로직이 통합 운용되는 모놀리식(Monolithic) 아키텍처 기반의 딥러닝 최적화 AWS EC2 AMI (Amazon Machine Image) 1개 인스턴스 안에서 긴밀히 수행됩니다. 각 요소들의 역할을 안내하겠습니다.

AWS S3 버킷: 모의 카메라 환경에 지속적으로 풍부한 장면 변동을 책임질 수 있도록 기존 가공 가이드 MP4 원본 동영상 무더기를 홀딩해 주는 장치입니다.


FFmpeg: 가상 하드웨어 스트리밍 시각화를 주도해 나가며 실질적 트랜스코딩을 단행하는 연산 핵심 엔진입니다:

  1. S3 버킷을 통해 MP4 경로의 자산을 안전히 탐색해 입출력 버퍼링합니다.

  2. (-stream_loop -1) 처리를 주어 원본 영상의 끝에 닿으면 즉시 롤백 루프 기동합니다.

  3. 그리고 가장 중요하게, 이렇게 연속 구동되는 화소 정보들을 즉각 규격 포맷인 RTSP 파이프로 인코딩 처리해 전달해 줍니다.

💡학습 팁: RTSP는 기존 상업용 하이엔드 스마트 보안 카메라 및 IP 카메라 십중팔구가 활용하는 공용 통신 규격 프로토콜입니다. FFmpeg를 활용해 가짜 루프 피드를 RTSP로 전환해 둠으로써 네트워크 상에서는 실제 최고 사양의 감시 카메라가 24시간 실시간 망방송 중인 것과 네트워크상에서 완전히 무구별하게 고도 시뮬레이션됩니다. 참고글: RTSP 기반 지능형 보안 카메라의 동작 원리와 원거리 클라우드 미디어 컨트롤


MediaMTX: 들어오는 멀티미디어 규격을 범용 브라우저 웹 규격으로 유연하게 가시화하여 다릴 스트림 변환 중계 허브입니다. 왜 필요할까요? 일반 상용 크롬이나 사파리 브라우저는 날것 그대로 전달되어 오는 고유 RTSP 데이터를 다이렉트 디코딩 처리하여 렌더링 할 수 없습니다. 이 까다로운 프로토콜 세팅을 MediaMTX 오픈소스 패키지가 내부에서 즉각 실시간 변환 처리 보완해 줍니다:

  1. 입수되는 유일한 FFmpeg 채널 소스를 안전성 있게 수신(Ingest)합니다.

  2. 웹 브라우저가 다이렉트로 가동할 수 있는 파일 포맷으로 고속 재가공합니다.

우리 프로젝트에서는 현대 모바일 장치와 브라우저 생태계의 교과서인 HLS(HTTP Live Streaming)를 메인으로 삼았습니다. MediaMTX는 흐르는 실시간 비디오를 10초 전후 단위 미세 파일 조각(.ts)으로 세분 저장한 뒤, 이를 찾아가 순서대로 수신 재생시킬 타임 플레이리스트 정보가 수록된 (.m3u8) 메인 로더 정보를 인벤토리에 실시간 구성함으로써 어떠한 모바일이나 웹 기반의 플레이어 브라우저로 접속해도 버벅임 없이 수월하게 청크 재생하도록 서포트합니다.


미세조정된 YOLO 모델: 이전 단계에서 완성한 우리의 최적화 비용 절감 감지 로직입니다! FFmpeg가 연속 변환하며 매초 보내주는 실시간 라이브 채널 피드를 인터셉트하여 현장 감지 상태를 파악하기 위해 구동됩니다.


Cloudflare SSH 터널: 복잡한 인바운드 방화벽 세팅 없이 외부에 안전하게 주소를 바인딩시켜 줄 통로입니다. 본 EC2 인스턴스는 외벽의 개방형 인바운드 포트를 전부 걸어 잠가 해커나 상시 침입 위협 세력의 대외 스캔 경로 노출에 대한 완벽한 선제 차단체계를 실현했습니다.

💡학습 팁: 내부 비접촉 보안 통제 속에서 브라우저 미디어 전송을 어떻게 퍼블릭하게 연결할까요? Cloudflare의 고유 경량 패키지 데몬인 cloudflared가 통행 키를 쥔 상태로 내부 서버 측에서 출발해 Cloudflare 외부 기간 거점으로만 향하는 안전 보안 전용 아웃바운드 터널 통로를 성사시켜 둡니다. 그 뒤 Cloudflare를 퍼블릭 웹 프론트 엔트리로 바인딩하여 live.myproject.com 같은 암호화가 완비된 SSL 주소를 고정 IP 세팅 없이 완전 무결하게 제공합니다.


최종 산출물은 안전함이 극대화된 HTTPS 규격의 HLS 스트리밍 피드이며, 어떤 표준 웹 기반의 비디오 플레이어나 일반 사이트로든 가볍게 삽입될 수 있는 강력함을 보장합니다.

방금 Cloudflare 터널을 통해 확보한 스트리밍 피드 주소를 사설 플레이어 도큐먼트 사이트 hlsplayer.net에 붙여 넣었더니 즉시 쾌적하게 로딩되어 구동되는 결과를 보실 수 있습니다 ☺️! 이는 출력 처리된 결과 소스가 정통 규격화 준수된 .m3u8 형식에 맞추어 제대로 호환 공급되고 있다는 명백한 강력함의 증거입니다.


NVIDIA VSS와의 통합

좋습니다. 이제 원격 카메라 피드가 송출 가능해졌고 사전 비용 감쇠용 감시 비전 모델까지 클라우드로 안전하게 탑재되었습니다. 마지막 퍼즐 조각은 현장에서 일어나는 기계식 사고나 복잡한 규정 준수 위반 맥락을 고도로 정교하게 인식할 수 있는 맥락 추론 기반의 비디오 이해 인공지능을 완성하는 것입니다. 여기서 바로 NVIDIA VSS 전용 TwelveLabs 연동 플러그인이 해결사로 나섭니다.

공식 연동 깃허브 저장소: james-le-twelve-labs/nvidia-vss: 대규모 실시간 라이브 영상 및 보관 영상을 인덱싱하고 분석, 요약, 문답(Q&A)에 최적화된 인사이트를 제공하기 위한 인프라 프로토타입


💡학습 팁: 실제 구현 실습과 코드를 보기 전에, 과연 NVIDIA VSS가 정확히 어떤 유용성을 자아내며, NVIDIA GPU 기반 환경에서 소프트웨어를 개발하는 엔지니어들에게 어떠한 특별한 유틸 클래스를 보증하는지 정립할 필요가 있습니다.

VSS는 Video Search and Summarization(비디오 검색 및 요약)의 약칭입니다. 이것은 CUDA와 같은 저수준 단일 라이브러리가 아니라, 개발자가 영상 정보의 서술 및 탐색 능력이 특화된 강력한 인프라를 빠르게 현업 서비스로 빌드할 수 있게 돕는 NVIDIA AI Blueprint(블루프린트) 프레임워크입니다. 다음과 같은 차세대 파트들로 유기적으로 연합되어 작용합니다:

  1. VLM(비전 언어 모델, Vision Language Models): 비디오 속 물체 형상과 상호작용 및 변화 흐름을 텍스트 수준으로 읽고 교정해 내는 눈의 영역입니다. VSS는 원시 파일 혹은 실시간 RTSP 프레임 세그먼트를 VLM에 순차적으로 로드한 다음 각 청킹 영역마다 풍부한 의미 분석 묘사(밀도 높은 캡셔닝 설명글)를 추출해 주무르는 기본 전처리 흐름을 연동합니다.

  1. LLM(대형 언어 모델, Large Language Models): 확보된 영상 서사 내역을 최종 대화문과 과업 의도에 매칭해 논증하고 재서술하는 브레인 영역입니다. VLM을 경유해 도출해 둔 객체 기술 텍스트 문맥들을 LLM과 피딩시킴으로써 긴 사건 요약 및 대화형 자연어 질의응답을 물 흐르듯 가능케 합니다.

  1. RAG(검색 증강 생성, Retrieval-Augmented Generation): 임의로 유추하는 환각 현상을 덜어내도록 RAG 아키텍처를 전방위 채용합니다. 산출된 자구 기술문을 벡터 데이터베이스 영역에 긴밀하게 인덱스 영구 저장해 두고, 유저가 현장 내용에 대해 구체적인 물음표를 제시하면 가장 밀접하게 매칭되는 해당 부분 영상 프래그먼트를 참조 맥락(Context)으로 주입 연동하여 최고 수준의 높은 사실 검증 기반 답변 신뢰도를 자아냅니다.

  1. GPU 가속 기반 인제스팅(Video Ingestion) 구조: 대용량 동영상 피드를 멀티 쓰레드 수준 하드웨어 가속 트래픽으로 안전 수신하고 초고속으로 실시간 디코딩을 주도하여 AI 연산 버퍼로 넘겨주는 최적의 전처리 파이프라인을 지원합니다.

  1. 전통 컴퓨터 비전(CV) 모듈 연동: 딥러닝 영상 처리는 종래의 일반 탐지 객체 고속 연산 모델과 협업할 때 더욱 강력해집니다. YOLO 등 물체 추적(Tracking) 스크립트 데이터를 매칭 주입하여 개별 인스턴스에 고유값 ID를 부여하는 지능형 DeepStream SDK 데이터와 완벽 연동되도록 지원합니다.

  1. 오디오 전사 처리(Whisper 외): 비단 기조 영상 신호뿐 아니라, 미디어 속의 음향 및 사람 음성 스피치를 정밀 인식 변환하여 자막화 텍스트 메타를 추가 탑재함으로써 고해상 지능형 검색의 가치를 극대화합니다.

  1. NVIDIA NIMs(NVIDIA Inference Microservices): 모델 성능 가속 최적화를 위해 무리하게 수많은 오케스트레이션 구성을 개별 코딩하느라 골치 아플 필요가 없도록, 도커 이미지처럼 안전하게 패키징이 끝마쳐진 컨테이너형 지능화 추론 엔진 단위로 공급됩니다.

이러한 NVIDIA VSS 아키텍처 설계는 가히 압도적이지만, 보시는 바와 같이 정작 단일 기업 개발팀이 이를 개별 구축, 미세 튜닝, 서빙 배포 및 모니터링 관리하려면 거대한 리소스가 소모될 우려가 다분합니다.

이때 바로 TwelveLabs의 원클릭 클라우드 인프라가 믿을 수 없을 만큼 든든한 날개를 달아 드리는 치트키로 기능합니다.

*TwelveLabs 공식 관리자 콘솔 플레이그라운드의 정교한 자연어 멀티모달 비디오 검색 기능 시각화 (TwelveLabs | 홈)*

각기 따로 놀던 VLM 세팅, RAG용 고유 인덱싱, LLM 오케스트레이션 가속 튜닝, 오디오 Whisper 전사 처리 로직, 그리고 복잡한 미디어 인제스천 인프라를 개별적으로 조립할 필요가 없어집니다. TwelveLabs가 매니지드 오프프레미스 원격 배포 형태로 이 가치 사슬 전체를 완결형 단일 API로 번들이 통합 관리해 줍니다. 개발자는 단지 영상 경로 혹은 스트림 바인딩 파라미터만 넘겨주면, TwelveLabs가 최정상급 모델들을 유기적으로 실행하여 완벽히 정리된 다차원 검색 정보를 답장으로 건네줍니다.

그렇다고 기존에 구성 중이던 하드웨어 전용 가속 환경을 전부 허물어뜨릴 필요조차 전혀 없습니다.

핵심 강점은 역시 지극히 세련된 모듈러 스타일(Modularity) 인터페이스를 완비하고 있어, 원하시는 바에 따라 자체 NVIDIA GPU 기반 환경과 하이브리드 파이프라인으로 구성해 융합하기에도 아주 자유롭다는 점입니다.


이러한 기본 배경지식을 기반으로 하여, NVIDIA VSS 내부 도커 컨테이너 속에서 어떠한 연동 처리로 당사 API를 무구별하게 결함 없이 승화시켰는지 연쇄적인 세부 연동도를 확인해 보세요.

*기술 아키텍처 다이어그램: LucidChart (클릭 시 풀사이즈 이미지 관람 가능)*

매우 손쉬운 구조입니다. 앞단의 경량 탐지 전처리 단계에서 잘려 나와 전송된 비디오 자산 조각은 안전하게 다음 두 계통으로 전달됩니다.

  1. AWS S3 임시 아카이브 버킷 (nvidia-vss-streams): 클라우드 보존 스토리지를 분리해 두어 향후 현장의 정밀 법적 감사 필요성이나 장기 트렌드 조사를 위한 영상 수사 데이터 아카이빙을 영구 관장하게 만듭니다.

  1. NVIDIA VSS TwelveLabs 연동 모듈: 전달된 영상 스트림 프래그먼트는 API에 안전히 승인되어 순식간에 분석 코어 레이어로 전송 및 구조화됩니다:

이제 이 클라우드 지능을 갖춘 핵심 엔드포인트를 기반으로 구축된 환상적인 시연 기능 두 가지를 구경해 보세요.

대표 기능 예시 1: 다이내믹 AI 규정 자문 어시스턴트 — Jade. 

아래 캡쳐 이미지 우측 화면 패널에서 가동하고 있으며, 현장 공장 관리자가 복잡한 기술 코드나 프로그래밍 쿼리 없이, 일반 메신저를 쓰듯 편하게 사안에 대해 심문 형태의 자유로운 질의를 나누며 위협적 요인에 대해 조언을 얻는 기능입니다. 공장의 위치 좌표, 주 정부 및 지방 자치 규범 등에 기인해 상황에 맞춘 OSHA 적용 표준 자문안을 맞춤식 브리핑해 줍니다.

이 혁신은 대화 전문 Pegasus 멀티모달 프레프트 연작 엔진에, 개발자가 사전에 세심하게 역사와 환경 맥락을 엮어둔 채팅 히스토리 프롬프팅 구조를 가미해 완비된 모습입니다!

/frontend/src/app/components/ClipChat.js (라인 49-72)

const typingId = Date.now();
        setChatHistory(prev => [...prev, { role: 'assistant', text: '', date: Date.now(), typing: true, _id: typingId }]);


        try {
            const prompt = `You are Jade, an expert safety and compliance officer.
       
            Here is the chat history: ${chatHistory.map(m => `${m.role}: ${m.text}`).join('\n')};


            The user asks: ${message};
           
            The user's geolocation is unknown, please reference general safety and compliance standards.


            If the user asks about safety, compliance, or improvements, you should always reference the user's geolocation and the laws in that area when providing your response.
            Do not mention the coordinates, just the location and city.
           
            Be highly detailed and specific, by referencing specific machines, processes, and equipment you see in the video and the second.


            `;


            const resp = await fetch('/api/analysis', {
                method: 'POST',
                headers: { 'Content-Type': 'application/json' },
                body: JSON.stringify({ videoId, userQuery: prompt })
            });

* 주의 깊게 관찰해 보세요: TwelveLabs 원격 호스트 분석 모델 덕분에, 코드 단 4줄 이하만으로도 방대한 인덱싱 비디오 데이터에 대해 정교하고 깊이 있는 자연어 질의를 지연 없이 전달할 수 있습니다.

대표 기능 예시 2: 온디맨드 즉석 보건 안전 리포트 생성 및 자동 메타데이터 추출.

경영진이나 안전 점검 위원 등은 본 기능을 클릭해 즉시 비즈니스 프리젠테이션급으로 포맷 정리가 완료된 원스톱 현장 감동 보고서를 제공받으며, 위배 소지가 있는 벌금 관련 추정 액수 산정이나 공정 시정 지침도 한 눈에 취득하게 됩니다.

/frontend/src/app/clips/[id]/page.js (라인 328 - 331)

const response = await fetch(`/api/analysis/${clipData['pegasusId']}`, {
    method: 'GET',
    headers: { 'Content-Type': 'application/json' }
})

이 시스템 또한 TwelveLabs 고유의 검증된 문단 생성 지능인 Marengo 엔진의 파워를 계승한 덕에, 복잡한 사용자 설정 프롬프트 룰을 주어 상황에 맞춰진 완전한 설명 조서를 번거로운 포스트 프로세싱 없이 훌륭히 자아냅니다!

축하합니다! 이제 여러분은 NVIDIA VSS와 TwelveLabs 통합 모델을 활용해 추가 하드웨어, 외장 GPU 호스트, 머신 러닝 훈련 소모 비용 없이 라이브 비디오 흐름을 대화와 검색이 완비된 지적 자산으로 실시간 변환해 나가는 완벽한 플랫폼을 손수 빌드해 보는 뜻깊은 여정을 통과하셨습니다 🥳.


마무리하며

끝까지 깊이 있게 몰입해 주셔서 대단히 감사드립니다! 여러분은 이번 학습을 통하여 실시간 관제 수준의 대규모 인프라 아키텍처 실무 역량을 강화하는 것은 물론, 엔비디아가 제시하는 미래 지향형 생태계 NVIDIA VSS 및 TwelveLabs 연동 플러그인이 어떻게 여러분의 상상 속 영감을 단 몇 시간 만에 실전 코드로 옮길 수 있는지 체감하셨으리라 확신합니다.

상세 구조 분석이나 더 디테일하고 폭넓은 공식 참고자료들은 아래에서 간편히 둘러보실 수 있습니다:

  1. 설계 아키텍처 시각화 이미지: LucidApp

  2. 공식 상세 제품 백서: [NVIDIA GTC 특별 기획] - 제조업 공장 자율 자동화 지능 연동 아키텍처 기획 문서 

  3. NVIDIA VSS TwelveLabs 연동 깃허브 소스 코드: james-le-twelve-labs/nvidia-vss: 대규모 실시간 라이브 영상 및 보관 영상을 인덱싱하고 분석, 요약, 문답(Q&A)에 최적화된 인사이트를 제공하기 위한 인프라 프로토타입

  4. 당사 메인 프로젝트 개발 저장소: nathanchess/twelvelabs-nvidia-vss-sample

  5. 하이라이트 비디오 데모 감상: NVIDIA VSS TwelveLabs 연동: 실시간 제조업 지능화 관제 데모