会社情報
私がTwelve Labsに入社した理由

パリトシュ・モハン
Twelve Labsは、ビデオ理解プラットフォームのグローバルな規模拡大に伴い、Marengo、Pegasus、およびJockeyを支えるエンジニアリング・インフラストラクチャを率いるため、大規模分散システムのバックグラウンドを持つ新しいエンジニアリング担当副社長(VP of Engineering)を採用しました。
Twelve Labsは、ビデオ理解プラットフォームのグローバルな規模拡大に伴い、Marengo、Pegasus、およびJockeyを支えるエンジニアリング・インフラストラクチャを率いるため、大規模分散システムのバックグラウンドを持つ新しいエンジニアリング担当副社長(VP of Engineering)を採用しました。

この記事の内容
ニュースレターに登録する
ニュースレターに登録する
ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします
ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします
AIを活用してビデオを検索、分析、探索します。
2025/10/01
4分
記事へのリンクをコピー
AIにおける次のフロンティアは、人間と同じように機械が世界を理解できるようにすることです。それが、私がエンジニアリング担当副社長(VP of Engineering)としてTwelveLabsに加わった理由です。
世界に隠されたデータセット
動画は世界のデジタル化されたデータの90%を占めていますが、そのほとんどはストレージに眠ったままで、事実上目に見えない状態にあります。組織はメディアアーカイブから自動運転、企業のナレッジに至るまで、果てしない映像を収集していますが、これらのデータセットを構造化された情報や知識に変換するためのツールが不足しています。
私たちはテキストを大規模に処理することを学んできましたが、大規模な動画の処理は、その多次元的な性質と情報の密度の低さから、桁違いに複雑です。動画は、時間経過とともに空間的、音声的、視覚的なコンテキストを組み合わせます。人間の知能はこれをシームレスに処理するように進化しましたが(私たちの最も古い記憶は言葉ではなく動く映像です)、AIモデルにとって、その飛躍ははるかに複雑です。
これが、私がTwelveLabsに惹きつけられた理由です。
私はこれまで、1日に数十億件のリクエストを処理する大規模な分散システムを構築する機会に恵まれてきました。ミリ秒単位の処理が求められるインフラや、予測不可能なワークロードの下で弾力性とミッションクリティカルな信頼性が要求されるプラットフォームに携わってきました。大規模な機械学習がどのように業界を変革できるかを目の当たりにしてきましたが、同時に、インフラがスケールを考慮して設計されていない場合、いかに早く複雑さが障壁になり得るかも身をもって知っています。
これらの経験から、AIの画期的な進歩には優れたモデル以上のものが必要であるという確信を得ました。それには、卓越したエンジニアリング、システムレベルの思考、そして使いやすさへのフォーカスが必要です。それこそが、私がTwelveLabsに興奮している理由です。最先端のマルチモーダル&推論AI研究とプロダクションレベルのエンジニアリングを組み合わせることで、動画理解を単なるデモではなく、企業、政府、開発者、そしてクリエイターのための日常的なツールにするチャンスがあるのです。
未来のための研究基盤
TwelveLabsでは、マルチモーダル情報の基盤を再考しています:
Marengo:当社のマルチモーダル動画エンコーダーは、視覚的詳細、動き、音声、さらには画面上のテキストなど、動画のさまざまな側面を捉えるマルチベクトル埋め込みアーキテクチャを先駆けて開発し、検索およびリトリーバルの精度において重要なブレイクスルーをもたらしました。
Pegasus:当社の産業レベルの動画言語モデルは、長時間の動画に対して最先端の時間的推論を提供し、低遅延かつ高精度で数時間に及ぶ動画までスケールします。現実世界における動画理解には、時間経過に伴う因果関係の結びつけが必要であるため、これは極めて重要です。
そして現在、当社のエージェント型動画インテリジェンスフレームワークである Jockey により、認識と推論を橋渡しし、AIシステムが単なる分析を超えて人間と協力し、インサイトやクリエイティブな成果物を生成できるようにしています。
これらのシステムが連携することで、動画を検索可能、ナビゲート可能、そして実用可能にします。コンテンツ発見やメディアのワークフローから、安全性、セキュリティ、学術研究に至るまで、あらゆるものの基盤となります。
大規模エンジニアリング
現在の課題は、このインテリジェンスをグローバルにスケールさせるAIおよび分散システムインフラを構築することです。遅延、コスト、耐障害性のバランスを取るインテelligentシステムを設計してきた私のバックグラウンドは、TwelveLabsの次のフェーズにおける私の考え方に影響を与えています。それは、開発者に優しく企業に対応した状態を維持しながら、数ペタバイトの動画をリアルタイムで取り込み、理解し、推論できるシステムを構築することです。
これは、AIのフロンティアにおける科学とシステムの両方を形作る稀有な機会です。
私は、Aiden Lee、Jae Lee、Soyoung Lee、Yoon KimをはじめとするTwelveLabsのチームメンバーとともに、世代を代表する企業になると信じている企業の構築に参画できることを光栄に思います。私たちは新しい時代の入り口に立っています。AIが単に読むだけでなく、私たちの周りの視覚世界を真に見て、理解する時代です。
採用活動中!
TwelveLabsは今、転換期にあります。
基盤モデルの研究やエンジニアリング、大規模なビジョン問題、あるいは分散システムエンジニアリングに興味がある方は、ぜひつながりましょう。当社の募集職種については、 twelvelabs.io/careersをご覧ください。ぴったりの職種が見つからなくても、Twelve Labsがまさに求めていた場所だと感じた場合は、LinkedInでメッセージを送ってください。
AIにおける次のフロンティアは、人間と同じように機械が世界を理解できるようにすることです。それが、私がエンジニアリング担当副社長(VP of Engineering)としてTwelveLabsに加わった理由です。
世界に隠されたデータセット
動画は世界のデジタル化されたデータの90%を占めていますが、そのほとんどはストレージに眠ったままで、事実上目に見えない状態にあります。組織はメディアアーカイブから自動運転、企業のナレッジに至るまで、果てしない映像を収集していますが、これらのデータセットを構造化された情報や知識に変換するためのツールが不足しています。
私たちはテキストを大規模に処理することを学んできましたが、大規模な動画の処理は、その多次元的な性質と情報の密度の低さから、桁違いに複雑です。動画は、時間経過とともに空間的、音声的、視覚的なコンテキストを組み合わせます。人間の知能はこれをシームレスに処理するように進化しましたが(私たちの最も古い記憶は言葉ではなく動く映像です)、AIモデルにとって、その飛躍ははるかに複雑です。
これが、私がTwelveLabsに惹きつけられた理由です。
私はこれまで、1日に数十億件のリクエストを処理する大規模な分散システムを構築する機会に恵まれてきました。ミリ秒単位の処理が求められるインフラや、予測不可能なワークロードの下で弾力性とミッションクリティカルな信頼性が要求されるプラットフォームに携わってきました。大規模な機械学習がどのように業界を変革できるかを目の当たりにしてきましたが、同時に、インフラがスケールを考慮して設計されていない場合、いかに早く複雑さが障壁になり得るかも身をもって知っています。
これらの経験から、AIの画期的な進歩には優れたモデル以上のものが必要であるという確信を得ました。それには、卓越したエンジニアリング、システムレベルの思考、そして使いやすさへのフォーカスが必要です。それこそが、私がTwelveLabsに興奮している理由です。最先端のマルチモーダル&推論AI研究とプロダクションレベルのエンジニアリングを組み合わせることで、動画理解を単なるデモではなく、企業、政府、開発者、そしてクリエイターのための日常的なツールにするチャンスがあるのです。
未来のための研究基盤
TwelveLabsでは、マルチモーダル情報の基盤を再考しています:
Marengo:当社のマルチモーダル動画エンコーダーは、視覚的詳細、動き、音声、さらには画面上のテキストなど、動画のさまざまな側面を捉えるマルチベクトル埋め込みアーキテクチャを先駆けて開発し、検索およびリトリーバルの精度において重要なブレイクスルーをもたらしました。
Pegasus:当社の産業レベルの動画言語モデルは、長時間の動画に対して最先端の時間的推論を提供し、低遅延かつ高精度で数時間に及ぶ動画までスケールします。現実世界における動画理解には、時間経過に伴う因果関係の結びつけが必要であるため、これは極めて重要です。
そして現在、当社のエージェント型動画インテリジェンスフレームワークである Jockey により、認識と推論を橋渡しし、AIシステムが単なる分析を超えて人間と協力し、インサイトやクリエイティブな成果物を生成できるようにしています。
これらのシステムが連携することで、動画を検索可能、ナビゲート可能、そして実用可能にします。コンテンツ発見やメディアのワークフローから、安全性、セキュリティ、学術研究に至るまで、あらゆるものの基盤となります。
大規模エンジニアリング
現在の課題は、このインテリジェンスをグローバルにスケールさせるAIおよび分散システムインフラを構築することです。遅延、コスト、耐障害性のバランスを取るインテelligentシステムを設計してきた私のバックグラウンドは、TwelveLabsの次のフェーズにおける私の考え方に影響を与えています。それは、開発者に優しく企業に対応した状態を維持しながら、数ペタバイトの動画をリアルタイムで取り込み、理解し、推論できるシステムを構築することです。
これは、AIのフロンティアにおける科学とシステムの両方を形作る稀有な機会です。
私は、Aiden Lee、Jae Lee、Soyoung Lee、Yoon KimをはじめとするTwelveLabsのチームメンバーとともに、世代を代表する企業になると信じている企業の構築に参画できることを光栄に思います。私たちは新しい時代の入り口に立っています。AIが単に読むだけでなく、私たちの周りの視覚世界を真に見て、理解する時代です。
採用活動中!
TwelveLabsは今、転換期にあります。
基盤モデルの研究やエンジニアリング、大規模なビジョン問題、あるいは分散システムエンジニアリングに興味がある方は、ぜひつながりましょう。当社の募集職種については、 twelvelabs.io/careersをご覧ください。ぴったりの職種が見つからなくても、Twelve Labsがまさに求めていた場所だと感じた場合は、LinkedInでメッセージを送ってください。




