会社情報

ある小さなスタートアップがいかにして世界のテック巨人を打ち破り、動画検索で第1位に輝いたのか(第1部:動機編)

エイデン・リー

知恵があり、目的意識を持った弱者は、常に最後には勝利を収めるものです。

知恵があり、目的意識を持った弱者は、常に最後には勝利を収めるものです。

この記事の内容

No headings found on page

ニュースレターに登録する

ニュースレターに登録する

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします

AIを活用してビデオを検索、分析、探索します。

2022/03/16

3分

記事へのリンクをコピー

顧客や投資家からよく受ける質問が1つあります。

「御社の技術は、GoogleやMicrosoftと比べてどうなのですか?」

彼らが「本当に」聞きたかったのは、きっとこういうことでしょう…

「御社の技術は、GoogleやMicrosoftよりも優れているのですか?」

これは答えるのが難しい質問です。ディープテック分野のAIスタートアップにとっては、特に創業者が論文発表などで強力な実績を持っていなかったり、アカデミア出身でなかったりする場合はなおさら困難です。その回答は通常、次の2つのルートのいずれかに落ち着きます。

  1. ブルドーザー戦略「はい、我が社の方が優れています!こちらが競合他社の技術のベンチマーク性能で、こちらが当社のものです。」
    → 反応:疑念、問い詰め、時には反感を買うこともあります。

  2. サイドステップ(かわし)戦略: 「当社はより優れたユーザビリティを提供し、特定の顧客セグメント向けの機能を構築できます。そして、お客様にも大変気に入っていただけています!」(技術ではなく、製品や顧客について語る)
    → 反応:納得はしてくれるかもしれませんが、依然として物足りなさが残ります。

私たちは他社よりも優れたベンチマーク性能を持っていたにもかかわらず、常に2番目のアプローチをとっていました。そうすることで、顧客についてより多く語るための自然な導入ができました。そして何よりも、当社の製品とビジョンを信じてもらおうとしている相手と議論をするようなことは、絶対に避けたかったからです!

AIの研究と製品開発をリードする技術系創業者として、私は度々気落ちしていました。同じ質問が何度も何度も繰り返されるのを耳にするたび、神経衰弱に陥るほど無力感を覚えました。私たちが持っている優れた技術を構築するために、昼夜を問わず働いてくれたチームに対して、私は心の中で常に「申し訳ない」と言い続けていました。

その時、Microsoftが主催する ICCV VALUE(Video-And-Language-Understanding-Evaluation)チャレンジ に参加しなければならないと確信しました。コンペティションはすでに2週間前から始まっていましたが、そんなことは関係ありません。これこそが、自らを証明する絶好の機会だったのです。

理由は3つありました。

  1. コンペティションのタスクが、動画検索AIモデルの性能を評価する動画検索(video retrieval)であり、まさに私たちの得意分野そのものだったこと。

  2. 評価が、4つの異なる多様な領域のベンチマーク動画データセットを使用する、客観的かつ網羅的なものであること。

  3. Microsoft、Tencent、Baiduといった最も権威あるAI機関やテック巨頭が主催・参加しており、彼らと直接競い合う機会が得られること。

もしこのコンペティションで優勝できれば、信頼性、ブランディング、PR、採用、自信など、得られるものは計り知れません。そして何よりも、「Googleより優れているのか?」といった質問をされたときに、顧客や投資家に対して突きつけられる、強力な「ブルドーザー」式の回答を手に入れることができるのです。

優勝できれば素晴らしい機会が待っていると想像したものの、状況は明らかに私たちに不利でした。

  1. 複数のモデルを同時に学習させるために利用できる クラウドGPUリソースが限られていたこと。当時、コンペティションに割ける予算は5万ドルしかありませんでした。Techstarsに参加した際に10万ドル相当のAWS無料クレジットを受け取っていましたが、すでに5万ドルを使い果たしていました。この規模のコンペティションにおいて、5万ドルの計算資源は、実質的に計算資源が全くないに等しい状態でした。

  2. 人的「労働力」が限られていたこと。会社全体の人数は10人未満でした。10人から、非エンジニア、そしてベータ版顧客との製品対応やPoC(概念実証)タスクに集中しなければならないエンジニアを差し引くと…? 残されたのは、私を含めてわずか3人のエンジニアだけでした。

  3. モデルの学習に使用できるデータセットが限られていたこと。モデルの事前学習用に無限に近い動画を所有しているテック大手とは異なり、私たちの唯一の選択肢は、誰でも利用できる公開動画データセットを活用することだけでした。

そのため、勝てる見込みは10%未満だと思っていましたが、それでも参加を決意しました。どのスタートアップにもいつか訪れるように、私たちも信念を持って一歩を踏み出し、勝ちにいくマインドセットを装備する必要がありました。スタートアップの格言にあるように、何もしなければ可能性は常に0%のままなのですから。

次の投稿:パート2 — ICCV VALUE チャレンジの基本と詳細

顧客や投資家からよく受ける質問が1つあります。

「御社の技術は、GoogleやMicrosoftと比べてどうなのですか?」

彼らが「本当に」聞きたかったのは、きっとこういうことでしょう…

「御社の技術は、GoogleやMicrosoftよりも優れているのですか?」

これは答えるのが難しい質問です。ディープテック分野のAIスタートアップにとっては、特に創業者が論文発表などで強力な実績を持っていなかったり、アカデミア出身でなかったりする場合はなおさら困難です。その回答は通常、次の2つのルートのいずれかに落ち着きます。

  1. ブルドーザー戦略「はい、我が社の方が優れています!こちらが競合他社の技術のベンチマーク性能で、こちらが当社のものです。」
    → 反応:疑念、問い詰め、時には反感を買うこともあります。

  2. サイドステップ(かわし)戦略: 「当社はより優れたユーザビリティを提供し、特定の顧客セグメント向けの機能を構築できます。そして、お客様にも大変気に入っていただけています!」(技術ではなく、製品や顧客について語る)
    → 反応:納得はしてくれるかもしれませんが、依然として物足りなさが残ります。

私たちは他社よりも優れたベンチマーク性能を持っていたにもかかわらず、常に2番目のアプローチをとっていました。そうすることで、顧客についてより多く語るための自然な導入ができました。そして何よりも、当社の製品とビジョンを信じてもらおうとしている相手と議論をするようなことは、絶対に避けたかったからです!

AIの研究と製品開発をリードする技術系創業者として、私は度々気落ちしていました。同じ質問が何度も何度も繰り返されるのを耳にするたび、神経衰弱に陥るほど無力感を覚えました。私たちが持っている優れた技術を構築するために、昼夜を問わず働いてくれたチームに対して、私は心の中で常に「申し訳ない」と言い続けていました。

その時、Microsoftが主催する ICCV VALUE(Video-And-Language-Understanding-Evaluation)チャレンジ に参加しなければならないと確信しました。コンペティションはすでに2週間前から始まっていましたが、そんなことは関係ありません。これこそが、自らを証明する絶好の機会だったのです。

理由は3つありました。

  1. コンペティションのタスクが、動画検索AIモデルの性能を評価する動画検索(video retrieval)であり、まさに私たちの得意分野そのものだったこと。

  2. 評価が、4つの異なる多様な領域のベンチマーク動画データセットを使用する、客観的かつ網羅的なものであること。

  3. Microsoft、Tencent、Baiduといった最も権威あるAI機関やテック巨頭が主催・参加しており、彼らと直接競い合う機会が得られること。

もしこのコンペティションで優勝できれば、信頼性、ブランディング、PR、採用、自信など、得られるものは計り知れません。そして何よりも、「Googleより優れているのか?」といった質問をされたときに、顧客や投資家に対して突きつけられる、強力な「ブルドーザー」式の回答を手に入れることができるのです。

優勝できれば素晴らしい機会が待っていると想像したものの、状況は明らかに私たちに不利でした。

  1. 複数のモデルを同時に学習させるために利用できる クラウドGPUリソースが限られていたこと。当時、コンペティションに割ける予算は5万ドルしかありませんでした。Techstarsに参加した際に10万ドル相当のAWS無料クレジットを受け取っていましたが、すでに5万ドルを使い果たしていました。この規模のコンペティションにおいて、5万ドルの計算資源は、実質的に計算資源が全くないに等しい状態でした。

  2. 人的「労働力」が限られていたこと。会社全体の人数は10人未満でした。10人から、非エンジニア、そしてベータ版顧客との製品対応やPoC(概念実証)タスクに集中しなければならないエンジニアを差し引くと…? 残されたのは、私を含めてわずか3人のエンジニアだけでした。

  3. モデルの学習に使用できるデータセットが限られていたこと。モデルの事前学習用に無限に近い動画を所有しているテック大手とは異なり、私たちの唯一の選択肢は、誰でも利用できる公開動画データセットを活用することだけでした。

そのため、勝てる見込みは10%未満だと思っていましたが、それでも参加を決意しました。どのスタートアップにもいつか訪れるように、私たちも信念を持って一歩を踏み出し、勝ちにいくマインドセットを装備する必要がありました。スタートアップの格言にあるように、何もしなければ可能性は常に0%のままなのですから。

次の投稿:パート2 — ICCV VALUE チャレンジの基本と詳細