会社情報
Nvidiaが出資するTwelve Labs、人間のように動画を理解するAIを開発中

朝鮮日報
韓国のAIスタートアップ企業「Twelve Labs」は、動画分野における「ChatGPT」のような転換期の到来(モーメント)を目指している
韓国のAIスタートアップ企業「Twelve Labs」は、動画分野における「ChatGPT」のような転換期の到来(モーメント)を目指している

この記事の内容
ニュースレターに登録する
ニュースレターに登録する
ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします
ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします
AIを活用してビデオを検索、分析、探索します。
2024/04/08
3分
記事へのリンクをコピー
韓国の生成型人工知能(AI)スタートアップであるTwelve Labs(トゥエルブ・ラボ)は、昨年米国のテック大手エヌビディア(Nvidia)から投資を獲得したことで注目を集めました。ソウルとサンフランシスコに拠点を置き、同社は動画を分析し理解するAI技術を専門としています。昨年10月、エヌビディア、インテル、そして他2社が共同でTwelve Labsに1,000万ドルを投資しました。
「OpenAIのChatGPTがテキストベースの生成型AIの領域を切り開いたように、Twelve Labsは動画AIの進歩のための道を切り開くことを目指しています」と、Twelve Labsの共同創業者兼CEOであるイ・ジェソン氏(30)は、4月8日の朝鮮日報とのビデオインタビューで語りました。
Twelve Labsは、動画を理解するマルチモーダルAIを開発しています。同社のAIモデルは、動画内のすべての映像と音声を分析し、人間の言語と一致させます。たとえば、このAIモデルは、1時間の動画から「オフィスでペンを持つ男性」のシーンを数秒以内に特定することができます。
2020年にイ氏がTwelve Labsを設立した当時、急成長していたAI市場は主にテキストや画像に焦点を当てていました。「AIスタートアップはChatGPTのような大規模言語モデルの開発に莫大な資金提供を受けていました」とイ氏は語ります。「私たちは、限られた投資であっても違いを生み出せる分野が動画であると考えたのです」。
UCバークレーでコンピュータサイエンスを専攻し、サムスン電子やアマゾンでインターンを経験したイ氏は、兵役の義務を果たすために韓国に戻りました。そこで、彼は将来のTwelve Labsの共同創業者たちと出会います。国防部サイバー作戦司令部で服務中、同じくAIに情熱を傾けていたイ氏と同僚たちは、研究論文を議論し、AIテクノロジーを探索することに時間を費やし、最終的に2020年に共にTwelve Labsを立ち上げました。
「兵役を最初に終えた私の共同創業者があまりにも熱心で、一緒にAIを勉強するために定期的に私たちを訪ねてくれました」とイ氏は振り返りました。「将来をあまり心配しすぎず、情熱に基づいてこの会社を立ち上げたことは、良いアイデアだったと分かりました」。
Twelve Labsは現在、長い動画をテキストに要約し、ユーザーと動画に関する質問に答えることができる動画言語財団モデル「Pegasus(ペガサス)」と、動画、画像、音声を理解するマルチモーダルAIモデル「Marengo(マレンゴ)」を運営しています。3万以上の開発者や企業がこれらのAIモデルを使用しています。同社の最も顕著なパートナーシップの一つは、ナショナル・フットボール・リーグ(NFL)との提携です。
「NFLのような組織は、1世紀以上にわたるビデオコンテンツの宝庫を蓄積してきましたが、創出されたそのようなコンテンツを収益化するには、高度な動画検索技術が必要です」とイ氏は述べました。「膨大なデータアーカイブを持つ企業が、Twelve LabsのAI技術を求めています」。
配信 2024.04.08. 16:04
韓国の生成型人工知能(AI)スタートアップであるTwelve Labs(トゥエルブ・ラボ)は、昨年米国のテック大手エヌビディア(Nvidia)から投資を獲得したことで注目を集めました。ソウルとサンフランシスコに拠点を置き、同社は動画を分析し理解するAI技術を専門としています。昨年10月、エヌビディア、インテル、そして他2社が共同でTwelve Labsに1,000万ドルを投資しました。
「OpenAIのChatGPTがテキストベースの生成型AIの領域を切り開いたように、Twelve Labsは動画AIの進歩のための道を切り開くことを目指しています」と、Twelve Labsの共同創業者兼CEOであるイ・ジェソン氏(30)は、4月8日の朝鮮日報とのビデオインタビューで語りました。
Twelve Labsは、動画を理解するマルチモーダルAIを開発しています。同社のAIモデルは、動画内のすべての映像と音声を分析し、人間の言語と一致させます。たとえば、このAIモデルは、1時間の動画から「オフィスでペンを持つ男性」のシーンを数秒以内に特定することができます。
2020年にイ氏がTwelve Labsを設立した当時、急成長していたAI市場は主にテキストや画像に焦点を当てていました。「AIスタートアップはChatGPTのような大規模言語モデルの開発に莫大な資金提供を受けていました」とイ氏は語ります。「私たちは、限られた投資であっても違いを生み出せる分野が動画であると考えたのです」。
UCバークレーでコンピュータサイエンスを専攻し、サムスン電子やアマゾンでインターンを経験したイ氏は、兵役の義務を果たすために韓国に戻りました。そこで、彼は将来のTwelve Labsの共同創業者たちと出会います。国防部サイバー作戦司令部で服務中、同じくAIに情熱を傾けていたイ氏と同僚たちは、研究論文を議論し、AIテクノロジーを探索することに時間を費やし、最終的に2020年に共にTwelve Labsを立ち上げました。
「兵役を最初に終えた私の共同創業者があまりにも熱心で、一緒にAIを勉強するために定期的に私たちを訪ねてくれました」とイ氏は振り返りました。「将来をあまり心配しすぎず、情熱に基づいてこの会社を立ち上げたことは、良いアイデアだったと分かりました」。
Twelve Labsは現在、長い動画をテキストに要約し、ユーザーと動画に関する質問に答えることができる動画言語財団モデル「Pegasus(ペガサス)」と、動画、画像、音声を理解するマルチモーダルAIモデル「Marengo(マレンゴ)」を運営しています。3万以上の開発者や企業がこれらのAIモデルを使用しています。同社の最も顕著なパートナーシップの一つは、ナショナル・フットボール・リーグ(NFL)との提携です。
「NFLのような組織は、1世紀以上にわたるビデオコンテンツの宝庫を蓄積してきましたが、創出されたそのようなコンテンツを収益化するには、高度な動画検索技術が必要です」とイ氏は述べました。「膨大なデータアーカイブを持つ企業が、Twelve LabsのAI技術を求めています」。
配信 2024.04.08. 16:04




