Research-first and human-centered.

Our brains continually process sensory input – helping us understand what has happened and predict what might happen next. This ability, known as perceptual reasoning, forms the basis of human intelligence.
AI, as rolled out so far, has bypassed a crucial learning step: creating a robust world representation through video, which closely resembles the sensory input that gives rise to human perception.
At TwelveLabs, we’re bridging this gap by training cutting-edge foundation models to learn rich, multimodal representations from video data, then using these representations for high-level reasoning tasks involving language.
Through video-native AI, we’re helping machines learn about the world – and enabling humans to retrieve, capture, and tell their visual stories better.
The Art of Detail
Perception: Capturing the sensory details through a video-native encoder
영상에 최적화된 AI로
클라우드 대기업과
오픈소스 모델을 능가합니다.
THE POWER OF ALIGNMENT
Reasoning: Inducing the perceptual reasoning capability through video and language alignment
True video understanding requires the ability to reason about what is perceived. This is where our video-language model, Pegasus, comes into play.
Pegasus merges the reasoning skills learned from large language models (text data) with the perceptual understanding gained from our video encoder model (video data). By aligning these two modalities, Pegasus can perform cross-modal reasoning, inferring meaning and intent from Marengo's rich, multimodal representations.
It’s the synergy between Marengo and Pegasus — the alignment of video and language – that enables perceptual reasoning capabilities in our AI systems. Building on the strengths of both models, we can develop systems that not only perceive and understand the visual world, but also reason about it in a way that resembles human cognition.
Recognition
Our science team has a background in video and language throughout their careers, with 5+ wins in global competitions and 100+ publications in top AI conferences on video and language.
Rethinking how an AI thinks.

Pegasus 1.5 구축: 클립 기반 QA에서 시간 기반 메타데이터까지

Marengo 3.0: 비디오 인텔리전스로 비디오를 전략적 자산으로 전환하기

모든 비디오 혁명은 우리가 전할 수 있는 이야기를 진화시켰습니다

비디오 이해를 위한 컨텍스트 엔지니어링

비디오 인텔리전스, 에이전트 시대로의 진화

Pegasus 1.2: 대규모 애플리케이션을 위한 산업용 비디오 언어 모델

비디오-언어 모델의 현재와 미래: 제1회 NeurIPS 워크숍에서 얻은 연구 인사이트

Marengo 2.7: 고도화된 비디오 이해를 위한 선도적인 멀티 벡터 임베딩

TwelveLabs Embed API Beta

TWLV-I: 비디오 기반 모델의 종합적 평가를 통한 분석 및 통찰

Jockey: TwelveLabs API와 LangGraph 기반의 대화형 비디오 에이전트
포스트 프로덕션 시대를 위한 시맨틱 콘텐츠 검색

Pegasus 1 Beta: 비디오-언어 모델링의 새로운 기준을 제시

Marengo 2.6: Any-to-Any 검색을 위한 최첨단 비디오 기반 모델

Video-to-Text 및 Pegasus-1(80B)을 소개합니다

비디오 이해 유스케이스 둘러보기

벡터 임베딩의 멀티모달 진화

멀티모달 AI란 무엇인가요?

비디오 이해 기술 스택의 과거, 현재, 그리고 미래

파운데이션 모델이 특별한 이유는 무엇일까요?

파운데이션 모델이 멀티모달로 나아가고 있습니다











