トゥエルブラップス
どんなに優れたモデルであっても、使われなければ「不思議だ」で終わってしまいます

SJ・キム、スー・キム
「世界を理解するAIを作りたい」という思いからスタートしたエンジニア。Twelve LabsのPegasusエンジニアリングリードであるSJ氏が、映像データの可能性と限界、そしてプロダクトと結びついたAI開発がなぜ重要なのかについて語ります。
「世界を理解するAIを作りたい」という思いからスタートしたエンジニア。Twelve LabsのPegasusエンジニアリングリードであるSJ氏が、映像データの可能性と限界、そしてプロダクトと結びついたAI開発がなぜ重要なのかについて語ります。

この記事の内容
ニュースレターに登録する
ニュースレターに登録する
ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします
ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします
AIを活用してビデオを検索、分析、探索します。
2026/03/20
5分
記事へのリンクをコピー
SJは、AIと初めて出会ったときから映像とともにあった。言語モデルを先に学び、その後に映像へと移行したのではなく、最初から映像だった。そのためか、彼がこの仕事を説明する方法は、技術スタックやベンチマークの数値よりも、はるかに根本的な問いから始まる。「世界を理解するとはどういうことか」。そして、「そのために私たちは何を創るべきなのか」。
Q. 映像分野に飛び込むことになったきっかけはありますか?
映像そのものに最初から惹かれたというよりは、世界を理解するAIを創りたかったんです。そのためには、世界を最もよく表しているデータが必要ですが、現在私たちが大規模に保有しているものの中で、それが映像なのです。LiDAR(ライダー)やセンサーデータもありますが、すでに世界中に蓄積され、誰もが作成し消費する形になっているものは映像しかありませんから。
ただ、正直に言うと、映像が世界を理解するのに最適なデータであると考えつつも、まだそれを完全に上手く活用する方法は見出せていないと思っています。今、その課題を解いているところです。
Q. 映像をAIに学習させることが、なぜそれほど難しいのでしょうか?
言語モデルが爆発的に発展できた核心的な理由が一つあります。単語の次に来る単語を予測するように学習する構造だからです。そうすると、インターネット上にあるすべての文章が、すでにラベル付けされたデータと同等になります。人間が直接アノテーション(ラベル付け)する必要がないのです。そのため、大容量のデータを迅速に学習させることができました。
映像は異なります。 だから、50MBの映像を一つ学習に使うだけでも、まずはイメージフレームにすべて展開しなければなりません。その瞬間、1〜2GBになります。保存も、処理も、リソースの配分も、すべてが一度に爆発的に巨大化するのです。ユーザー規模はまだそのレベルに達していないにもかかわらず、大手プラットフォームレベルのエンジニアリングが最初から求められます。
そして、それを学習に使える高品質なデータにするために、複雑なパイプラインを設計し、精製し、繰り返さなければなりません。自動化は可能ですが、非常に複雑でエンジニアリングの負荷が重いです。AIのケイパビリティとヘビーなエンジニアリングの両方を同時に要求される仕事です。
そうなると、世界中でこの課題にこの深さで取り組んでいるチームは、本当に数えるほどしかありません。私の見解では、事実上Googleだけです。GoogleはYouTubeもあり、検索エンジンもあり、エンジニアリングのDNAそのものが異なるため、自然に実現できたのです。それ以外のほとんどのAI企業は、この問題に深く取り組むにはDNAが少し異なります。
Q. その難しいことをやりながら、方向性はどのように決めていますか?
私はその部分における基準が一つだけあります。 「実際に使われているか」です。
どんなに斬新で、世の中に存在するものの中で最も優れていたとしても、実際のユースケースにおいて意味がなければ、「ただ珍しくて面白い」だけで終わってしまいます。私たちのVideo Analysisチームが、現在ユースケースに適合するパフォーマンスに集中しているのもそれが理由です。オープンな問いに対して漠然と発展させるのではなく、「実際のユーザーが最も求めていることを、正確に高い精度でやろう」ということです。
興味深いことに、私たちに合流するMLエンジニアの方々に「なぜ来たいと思ったのですか?」と尋ねると、ほぼ共通して「プロダクトと繋がったAIを創りたいから」とおっしゃいます。フロンティアモデルそのものを創ることだけでは、何か物足りないという感覚を持っている方々が集まっているように感じます。
私もその感覚に共感します。どんなにモデルが優れていても、誰も使わなければ、ただの面白い実験で終わってしまうからです。実際に稼働するものを創ることが、私にとってはるかに意味があります。
その2つは、実際には衝突しませんか?フロンティアモデルとプロダクトフォーカス。
ユーザーが望むものを創るからといって、フロンティアモデルの研究を諦めたわけではありません。むしろ、実用的なマイルストーンを積み重ねながら、同じ方向に向かっているのだと考えています。私が最近本当に素晴らしい例だと思うのが「Claude Code」です。言語モデルの発展が真に加速したのは、実際の製品に繋がったときでした。ユーザーのフィードバックがモデルに返り、方向性が生まれ、その好循環が急速に回ることで、発展のスピードそのものが変わりました。製品から切り離された研究は、方向性を見失うか、誰も使わないものを創るかのどちらかになります。
Q. チームについて少し教えてください。ソウルオフィスではどのように働いていますか?
私たちの韓国MLEチームは、完全にグローカライズされています。データの設計から学習、サービング、GA(一般提供)まで、ライフサイクル全体を一つのチームが責任を持ちます。タイムゾーンを跨ぐ必要もなく、意思決定がチーム内で完結するため、自ずとスピーディーになります。
以前は「SF(サンフランシスコ)チームと協業する」ということが一つのアピールポイントでした。ですが、私の考えは少し変わりました。SFと繋がっているからグローバルなチームなのではなく、このチーム自体がフロンティアレベルの競争力を備えれば、それこそが真のグローバルチームだと考えています。その方向へ進んでいきたいです。
Q. 最後に、参画を検討している方々へメッセージをお願いします。
(少し考えてから)
スピード感があり、密度が高く、学べることが多いです。でも、それだけではありません。
世界でも数少ない希少な課題を扱っており、それが実際のプロダクトに直結し、その中で最初から最後までオーナーシップを持って働くことができます。参画したメンバーの中に、あらかじめ映像AIを経験してきた人は一人もいませんでした。それでも、ここに来て急速に学び、一緒に創り上げています。
世界を理解するAIを創りたい人、それが実際に使われるところまで見届けたい人なら、韓国においてここがその答えに最も近い場所だと信じています。
SJはTwelve Labsの共同創業者であり、Pegasusチームのエンジニアリングリード(MLE)です。Twelve Labsでは、共に挑戦するエンジニアを募集しています。 → twelvelabs.io/ko/careers
SJは、AIと初めて出会ったときから映像とともにあった。言語モデルを先に学び、その後に映像へと移行したのではなく、最初から映像だった。そのためか、彼がこの仕事を説明する方法は、技術スタックやベンチマークの数値よりも、はるかに根本的な問いから始まる。「世界を理解するとはどういうことか」。そして、「そのために私たちは何を創るべきなのか」。
Q. 映像分野に飛び込むことになったきっかけはありますか?
映像そのものに最初から惹かれたというよりは、世界を理解するAIを創りたかったんです。そのためには、世界を最もよく表しているデータが必要ですが、現在私たちが大規模に保有しているものの中で、それが映像なのです。LiDAR(ライダー)やセンサーデータもありますが、すでに世界中に蓄積され、誰もが作成し消費する形になっているものは映像しかありませんから。
ただ、正直に言うと、映像が世界を理解するのに最適なデータであると考えつつも、まだそれを完全に上手く活用する方法は見出せていないと思っています。今、その課題を解いているところです。
Q. 映像をAIに学習させることが、なぜそれほど難しいのでしょうか?
言語モデルが爆発的に発展できた核心的な理由が一つあります。単語の次に来る単語を予測するように学習する構造だからです。そうすると、インターネット上にあるすべての文章が、すでにラベル付けされたデータと同等になります。人間が直接アノテーション(ラベル付け)する必要がないのです。そのため、大容量のデータを迅速に学習させることができました。
映像は異なります。 だから、50MBの映像を一つ学習に使うだけでも、まずはイメージフレームにすべて展開しなければなりません。その瞬間、1〜2GBになります。保存も、処理も、リソースの配分も、すべてが一度に爆発的に巨大化するのです。ユーザー規模はまだそのレベルに達していないにもかかわらず、大手プラットフォームレベルのエンジニアリングが最初から求められます。
そして、それを学習に使える高品質なデータにするために、複雑なパイプラインを設計し、精製し、繰り返さなければなりません。自動化は可能ですが、非常に複雑でエンジニアリングの負荷が重いです。AIのケイパビリティとヘビーなエンジニアリングの両方を同時に要求される仕事です。
そうなると、世界中でこの課題にこの深さで取り組んでいるチームは、本当に数えるほどしかありません。私の見解では、事実上Googleだけです。GoogleはYouTubeもあり、検索エンジンもあり、エンジニアリングのDNAそのものが異なるため、自然に実現できたのです。それ以外のほとんどのAI企業は、この問題に深く取り組むにはDNAが少し異なります。
Q. その難しいことをやりながら、方向性はどのように決めていますか?
私はその部分における基準が一つだけあります。 「実際に使われているか」です。
どんなに斬新で、世の中に存在するものの中で最も優れていたとしても、実際のユースケースにおいて意味がなければ、「ただ珍しくて面白い」だけで終わってしまいます。私たちのVideo Analysisチームが、現在ユースケースに適合するパフォーマンスに集中しているのもそれが理由です。オープンな問いに対して漠然と発展させるのではなく、「実際のユーザーが最も求めていることを、正確に高い精度でやろう」ということです。
興味深いことに、私たちに合流するMLエンジニアの方々に「なぜ来たいと思ったのですか?」と尋ねると、ほぼ共通して「プロダクトと繋がったAIを創りたいから」とおっしゃいます。フロンティアモデルそのものを創ることだけでは、何か物足りないという感覚を持っている方々が集まっているように感じます。
私もその感覚に共感します。どんなにモデルが優れていても、誰も使わなければ、ただの面白い実験で終わってしまうからです。実際に稼働するものを創ることが、私にとってはるかに意味があります。
その2つは、実際には衝突しませんか?フロンティアモデルとプロダクトフォーカス。
ユーザーが望むものを創るからといって、フロンティアモデルの研究を諦めたわけではありません。むしろ、実用的なマイルストーンを積み重ねながら、同じ方向に向かっているのだと考えています。私が最近本当に素晴らしい例だと思うのが「Claude Code」です。言語モデルの発展が真に加速したのは、実際の製品に繋がったときでした。ユーザーのフィードバックがモデルに返り、方向性が生まれ、その好循環が急速に回ることで、発展のスピードそのものが変わりました。製品から切り離された研究は、方向性を見失うか、誰も使わないものを創るかのどちらかになります。
Q. チームについて少し教えてください。ソウルオフィスではどのように働いていますか?
私たちの韓国MLEチームは、完全にグローカライズされています。データの設計から学習、サービング、GA(一般提供)まで、ライフサイクル全体を一つのチームが責任を持ちます。タイムゾーンを跨ぐ必要もなく、意思決定がチーム内で完結するため、自ずとスピーディーになります。
以前は「SF(サンフランシスコ)チームと協業する」ということが一つのアピールポイントでした。ですが、私の考えは少し変わりました。SFと繋がっているからグローバルなチームなのではなく、このチーム自体がフロンティアレベルの競争力を備えれば、それこそが真のグローバルチームだと考えています。その方向へ進んでいきたいです。
Q. 最後に、参画を検討している方々へメッセージをお願いします。
(少し考えてから)
スピード感があり、密度が高く、学べることが多いです。でも、それだけではありません。
世界でも数少ない希少な課題を扱っており、それが実際のプロダクトに直結し、その中で最初から最後までオーナーシップを持って働くことができます。参画したメンバーの中に、あらかじめ映像AIを経験してきた人は一人もいませんでした。それでも、ここに来て急速に学び、一緒に創り上げています。
世界を理解するAIを創りたい人、それが実際に使われるところまで見届けたい人なら、韓国においてここがその答えに最も近い場所だと信じています。
SJはTwelve Labsの共同創業者であり、Pegasusチームのエンジニアリングリード(MLE)です。Twelve Labsでは、共に挑戦するエンジニアを募集しています。 → twelvelabs.io/ko/careers




