プレス
NAB 2024: 展示会で見落とされているかもしれない大胆なイノベーション

SVG
Twelve Labsは、人間のようにビデオコンテンツを理解する能力が評価され、NAB 2024でより注目されるべき数少ないマルチモーダルAI企業の一つとして取り上げられました。
Twelve Labsは、人間のようにビデオコンテンツを理解する能力が評価され、NAB 2024でより注目されるべき数少ないマルチモーダルAI企業の一つとして取り上げられました。

この記事の内容
ニュースレターに登録する
ニュースレターに登録する
ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします
ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします
AIを活用してビデオを検索、分析、探索します。
2024/04/19
7分
記事へのリンクをコピー
ローコード、第2世代AI(生成AI)、クローズドキャプション、パブリッククラウドマルチキャストは、もっと注目されるべきであった
ブライアン・L・リング(SVGコントリビューター)著
2024年4月19日金曜日 11:42 am
NAB 2024は「新しさ」の観点から少し物足りない面もあったものの、放送技術の未来に対する私の期待は膨らむばかりだ。今年は真に画期的なイノベーションを展示フロアで見つけ出すために、少々深く探索する必要があった。確かに生成AI(gen AI)は至る所で話題になっていたが、マルチモーダルへの言及はほとんどなく、様々なLLM(大規模言語モデル)を対比させるようなデモもなかった。OpenAI以外の驚くほど多様で膨大なLLM群について語った業界リーダーは、SiriusXMのEVP/最高製品・技術責任者であるジョー・インゼリロ氏を除いてほとんど見られなかった。私たちは少々、変化のスピードが遅すぎる。だからこそ、私にとって、このコラムは年間を通じて最もお気に入りのものなのだ。NAB 2024で見落としがちだった、4つの主要動向を紹介しよう:
1. 確たるカテゴリながら、歩みは緩慢:ローコード
展示会を訪れるにあたり、私が一番期待していたのは、次の革命的なイタレーションとなるワークフローおよびメディア供給チェーンに驚かされること、そしてその進化版を目にすることだった。ノーコードと呼ばれる場合もあるが、より正確にはローコードと表現され、過去10年以上に渡り期待を浴び続けてきた。しかし、今年ようやく、その実用化が本格期を迎えたと実感している。つい先週、Zapierのワークフローの構築に成功し、真に自動化されコンテンツを重視した広告プレートやフィラーを生成できたからこそ、実感を伴ってそう言えるのだ。
そしてそれは、単なるローコードではない。プログラム的な動画編集プロセスと、生成AIが融合し、さらなる進化を遂げた姿なのだ。
そうした経験を踏まえ、NAB 2024の会場では、多くのベンダーがノーコードかローコードのどちらが適切なバズワードであるか、または、メディア企業が対抗的・監督的なコンテンツワークフローにおいてモデル同士を競わせるワークフローを構築する際、複数のLLM間でどのような原則のもとに相互作用を管理すべきかといった議論が盛んに行われているだろうと私は予想していた。
しかし、期待は裏切られた。ブースの看板に「放送品質のローコード」という文字を掲げているケースは皆無で、素晴らしいソフトウェアを持つ5大隠れた至宝を見つけ出すためには、綿密に探し回る必要があった。
これらは、大手メディア企業のCTOたちにとって極めて重要なトレンドだ。その一人は、土曜日のDevoncroft Executive Summitで登壇しノーコードに言及した、NBCのメディアオペレーション担当SVP、メーガン・モーク氏だ。(これは、私たちがこれまでに克服せざるを得なかった困難な外的経済要因に関して発言され、収益性を高めるアプローチの1つとして触れられた)。
業界への手厳しい意見はさておき、順不同で、非常に良い軌道に乗っている5大イノベーターを紹介しよう: Tedial、 Ateliere、Norsk、Qibb、そして Blue Lacy。受賞チームのみなさん、おめでとう! あなたがたは新しいソフトウェアカテゴリを切り拓いており、メディアプラットフォームの底上げを促し、より優れたテレビ体験を創出させ、私たちの手法に再び経済的健全性をもたらす鍵となるでしょう。
2. 生成AI? それはもう古いトレンド
度重なる業界への苦言をお許しいただきたいが、皆が「生成AI」で盛り上がっているように見えた一方で、「マルチモーダル」な生成AIの重要性に関する言及は非常に少なかった。この用語自体はNAB 2024のステージでも使われており、今回はPGAゴルフやNFLを特集した印象的なAWS主催のイベントでも登場した。しかし、誇りに思えるようなデモリポートを提供してくれた優秀なベンダーは、わずか2社だけだった。
1つ目はTwelve Labs。音声クローニングのリーダーであるEleven Labsと混同しないよう注意されたい。また、Newsbridgeから大胆なリブランディングを遂げたMoments Labとも異なる。(なぜラボ、「Labs」だらけなのだろうか?)
Twelve LabsのWebサイトには、すべてを集約する力強い言葉が並んでいる。「人間と同じようにビデオを理解する」。
非常にシンプルだ。しかし、途方もない力強さを秘めている。少し手を休めてイメージしてほしい。あなたは、オフィスのリクライニングチェアに座っている。Vision Proのゴーグルを装着しており、目の前には、100のチャンネルが24時間365日流れる巨大なマルチビュー(多分割画面)が広がっている。
たとえば、あなたの仕事が、ただそれらのチャンネルを監視することだと想定していただきたい。あるいは、CTV広告の販売を担当し、アプローチすべき目的ブランドのために各社のコマーシャル動画広告をモニタリングしているとしよう。その作業を代行してくれるシステムが存在する状況を想像してほしい。どれほど多くのミッションを与えられタスクがどれほど複雑であろうとも、人間と同等以上に業務を全うしてくれるシステムを。
こうしたマルチモーダル生成AIシステムは、それほどのパワーを誇るようになる。そしてもちろん、忘れてはならないのが、要約試合(ハイライト)や次世代動画ハイライトの自動生成だ。
状況を補足すると、私は2年間、AI活用型メタデータのビジネスに従事した経験があるが、それは約8年も前のことだ。Thuuz Sports社(および同社が持つ興奮評価の知的財産)は、好みの試合時間や、お気に入りの選手、チームといった情報を利用者の好みに応じて選別した配信ストリームを構成することができた。同社は長年にわたるAI 1.0の闘いにおいて、大健闘の末、今日の市場主導者であるWSC Sportsに敗れ、最終的にStatsPerform社に買収された。
(スポーツハイライトの領域において、マルチモーダル生成AIにより完全に新時代が幕を開けたことを喜んでレポートしたい。AI 1.0世代のアプローチが、2.0世代に比べてどのような優位性を持ち得るのかはまだ見通せていない。)
NAB 2024に参加したベンダーの中で、少なくとも1社は完全に生成AIを「自らのもの」にしており、長年私が夢描き続けていた素晴らしいスポーツハイライトのデモを披露してくれた。Moments Labは、エディター向けに最も重要となる絶好のタイミングで、生実況コメンテーターによる重要かつ印象的なコメントを抽出。私には、動画を大量に楽しみたいプレミアム課金のスーパーファンのユーザーにも強く好まれる手法のように感じられ、極めて生産性の高い方法でコンテンツを享受させることができる。スポーツファンは、よりスムーズに動画を楽しみたいと考えており、Moments Labはマルチモーダル生成AIを駆使してそれを実現している。
同様に印象的だったのは、この分野に対する同社のコミットメントだ。まずは、全面的なブランド刷新(リブランディング)、そして、優れたメッセージや顧客企業のロゴ、市場進出(GTM)のポジショニングがブース外部に鮮やかに描かれた美しい展示である。以前の社名は、Newsbridgeだった。
率直に言って、マルチモーダル生成AIによる高負荷なメタデータログ作成以上に、短期的な将来性を期待できるような成長事例を私は見たことがない。
3. 退屈なユーティリティから「キングメーカー」への転身? クローズドキャプション
ここまで読んで眠ってしまってはいないだろうか? どうか持ちこたえてほしい。字幕データ(クローザドキャプション)は決して華やかなセクターではないが、今日においては多くのワークフローと密接に絡み合っており、その多くは、遵守しないと巨額の制裁金を科されるような規制ポリシーにも関連している。しかし、自動翻訳や文字起こし、音声合成音声による多言語吹き替えといった技術に、高度な生成AIが適用されるようになり、私が最も大切にしているコンセプト「大胆かつ有意義な技術革新」において他社を先行リードしている企業が1社見られた。
Caption Hubは、レイテンシー(遅延)という「レモン」を、贅沢な「レモネード」へと昇華させるような、特許出願中の革新的技術を実演してみせた。ABR(アダプティブ・ビットレート・ストリーミング・テクノロジー)により、ストリーミングTV配信に20〜30秒間の遅延が発生することはご承知の通りだ。Caption Hubはまさに、この時間を最大限に活用してキャプションを精細に生成処理し、さらなる「猶予データ処理時間」を利用して字幕の品質をさらに向上させたり、字幕の再生位置を画面内のアクションにより完全一致させたり、放送後の様々な拡張ワークフローへと応用させていく。
たとえば、Caption Hubは生成AIによる多言語ボイスオーバー音声合成も可能にしている。これは厳密な意味での完全な「AI吹替」とは異なるが、世界規模で番組を配信・展開していくにあたり、多くの場面で大いに活用できるだろう。
4. パブリッククラウドへ、そしてパブリッククラウドによるマルチキャストルーティング
SwXtch.ioは、メディア処理ソフトウェアのパートナー企業であるCinnafilmとともに、クラウド・スイッチ(オーバーレイファブリック構造)を製品化しており、これにより大容量で複雑化したパブリッククラウドにおける映像配信/投稿ワークフローに対して、マルチキャストが持つ多大なメリットを容易に適用できるようになる。
現在、クラウド配信ワークフローの中央を通るライブ動画フィードのほとんどは、Point-to-Point(1対1)のユニキャスト接続を使って送信および受信処理されている。ネットワーク環境にまつわる重要な制約・制限などから、主要パブリッククラウドはマルチキャスト(1対多配信などの放送向け配信フロー)にそのまま対応していないのだ。
しかしながら、適切な特徴を適応させることで、現在の1対1接続を上回る高品質なパフォーマンスを発揮できるようなオーバーレイ・ネットワーク網を構築することができる。これにより、俊敏性の向上や運用の簡素化、場合によってはリソース効率化(ストリームを2つから1つに低減する)など、多大なメリットがもたらされる。
ご意見・ご質問はありますか? フィードバックは Brian@RingDigital.tv までお寄せください。
ローコード、第2世代AI(生成AI)、クローズドキャプション、パブリッククラウドマルチキャストは、もっと注目されるべきであった
ブライアン・L・リング(SVGコントリビューター)著
2024年4月19日金曜日 11:42 am
NAB 2024は「新しさ」の観点から少し物足りない面もあったものの、放送技術の未来に対する私の期待は膨らむばかりだ。今年は真に画期的なイノベーションを展示フロアで見つけ出すために、少々深く探索する必要があった。確かに生成AI(gen AI)は至る所で話題になっていたが、マルチモーダルへの言及はほとんどなく、様々なLLM(大規模言語モデル)を対比させるようなデモもなかった。OpenAI以外の驚くほど多様で膨大なLLM群について語った業界リーダーは、SiriusXMのEVP/最高製品・技術責任者であるジョー・インゼリロ氏を除いてほとんど見られなかった。私たちは少々、変化のスピードが遅すぎる。だからこそ、私にとって、このコラムは年間を通じて最もお気に入りのものなのだ。NAB 2024で見落としがちだった、4つの主要動向を紹介しよう:
1. 確たるカテゴリながら、歩みは緩慢:ローコード
展示会を訪れるにあたり、私が一番期待していたのは、次の革命的なイタレーションとなるワークフローおよびメディア供給チェーンに驚かされること、そしてその進化版を目にすることだった。ノーコードと呼ばれる場合もあるが、より正確にはローコードと表現され、過去10年以上に渡り期待を浴び続けてきた。しかし、今年ようやく、その実用化が本格期を迎えたと実感している。つい先週、Zapierのワークフローの構築に成功し、真に自動化されコンテンツを重視した広告プレートやフィラーを生成できたからこそ、実感を伴ってそう言えるのだ。
そしてそれは、単なるローコードではない。プログラム的な動画編集プロセスと、生成AIが融合し、さらなる進化を遂げた姿なのだ。
そうした経験を踏まえ、NAB 2024の会場では、多くのベンダーがノーコードかローコードのどちらが適切なバズワードであるか、または、メディア企業が対抗的・監督的なコンテンツワークフローにおいてモデル同士を競わせるワークフローを構築する際、複数のLLM間でどのような原則のもとに相互作用を管理すべきかといった議論が盛んに行われているだろうと私は予想していた。
しかし、期待は裏切られた。ブースの看板に「放送品質のローコード」という文字を掲げているケースは皆無で、素晴らしいソフトウェアを持つ5大隠れた至宝を見つけ出すためには、綿密に探し回る必要があった。
これらは、大手メディア企業のCTOたちにとって極めて重要なトレンドだ。その一人は、土曜日のDevoncroft Executive Summitで登壇しノーコードに言及した、NBCのメディアオペレーション担当SVP、メーガン・モーク氏だ。(これは、私たちがこれまでに克服せざるを得なかった困難な外的経済要因に関して発言され、収益性を高めるアプローチの1つとして触れられた)。
業界への手厳しい意見はさておき、順不同で、非常に良い軌道に乗っている5大イノベーターを紹介しよう: Tedial、 Ateliere、Norsk、Qibb、そして Blue Lacy。受賞チームのみなさん、おめでとう! あなたがたは新しいソフトウェアカテゴリを切り拓いており、メディアプラットフォームの底上げを促し、より優れたテレビ体験を創出させ、私たちの手法に再び経済的健全性をもたらす鍵となるでしょう。
2. 生成AI? それはもう古いトレンド
度重なる業界への苦言をお許しいただきたいが、皆が「生成AI」で盛り上がっているように見えた一方で、「マルチモーダル」な生成AIの重要性に関する言及は非常に少なかった。この用語自体はNAB 2024のステージでも使われており、今回はPGAゴルフやNFLを特集した印象的なAWS主催のイベントでも登場した。しかし、誇りに思えるようなデモリポートを提供してくれた優秀なベンダーは、わずか2社だけだった。
1つ目はTwelve Labs。音声クローニングのリーダーであるEleven Labsと混同しないよう注意されたい。また、Newsbridgeから大胆なリブランディングを遂げたMoments Labとも異なる。(なぜラボ、「Labs」だらけなのだろうか?)
Twelve LabsのWebサイトには、すべてを集約する力強い言葉が並んでいる。「人間と同じようにビデオを理解する」。
非常にシンプルだ。しかし、途方もない力強さを秘めている。少し手を休めてイメージしてほしい。あなたは、オフィスのリクライニングチェアに座っている。Vision Proのゴーグルを装着しており、目の前には、100のチャンネルが24時間365日流れる巨大なマルチビュー(多分割画面)が広がっている。
たとえば、あなたの仕事が、ただそれらのチャンネルを監視することだと想定していただきたい。あるいは、CTV広告の販売を担当し、アプローチすべき目的ブランドのために各社のコマーシャル動画広告をモニタリングしているとしよう。その作業を代行してくれるシステムが存在する状況を想像してほしい。どれほど多くのミッションを与えられタスクがどれほど複雑であろうとも、人間と同等以上に業務を全うしてくれるシステムを。
こうしたマルチモーダル生成AIシステムは、それほどのパワーを誇るようになる。そしてもちろん、忘れてはならないのが、要約試合(ハイライト)や次世代動画ハイライトの自動生成だ。
状況を補足すると、私は2年間、AI活用型メタデータのビジネスに従事した経験があるが、それは約8年も前のことだ。Thuuz Sports社(および同社が持つ興奮評価の知的財産)は、好みの試合時間や、お気に入りの選手、チームといった情報を利用者の好みに応じて選別した配信ストリームを構成することができた。同社は長年にわたるAI 1.0の闘いにおいて、大健闘の末、今日の市場主導者であるWSC Sportsに敗れ、最終的にStatsPerform社に買収された。
(スポーツハイライトの領域において、マルチモーダル生成AIにより完全に新時代が幕を開けたことを喜んでレポートしたい。AI 1.0世代のアプローチが、2.0世代に比べてどのような優位性を持ち得るのかはまだ見通せていない。)
NAB 2024に参加したベンダーの中で、少なくとも1社は完全に生成AIを「自らのもの」にしており、長年私が夢描き続けていた素晴らしいスポーツハイライトのデモを披露してくれた。Moments Labは、エディター向けに最も重要となる絶好のタイミングで、生実況コメンテーターによる重要かつ印象的なコメントを抽出。私には、動画を大量に楽しみたいプレミアム課金のスーパーファンのユーザーにも強く好まれる手法のように感じられ、極めて生産性の高い方法でコンテンツを享受させることができる。スポーツファンは、よりスムーズに動画を楽しみたいと考えており、Moments Labはマルチモーダル生成AIを駆使してそれを実現している。
同様に印象的だったのは、この分野に対する同社のコミットメントだ。まずは、全面的なブランド刷新(リブランディング)、そして、優れたメッセージや顧客企業のロゴ、市場進出(GTM)のポジショニングがブース外部に鮮やかに描かれた美しい展示である。以前の社名は、Newsbridgeだった。
率直に言って、マルチモーダル生成AIによる高負荷なメタデータログ作成以上に、短期的な将来性を期待できるような成長事例を私は見たことがない。
3. 退屈なユーティリティから「キングメーカー」への転身? クローズドキャプション
ここまで読んで眠ってしまってはいないだろうか? どうか持ちこたえてほしい。字幕データ(クローザドキャプション)は決して華やかなセクターではないが、今日においては多くのワークフローと密接に絡み合っており、その多くは、遵守しないと巨額の制裁金を科されるような規制ポリシーにも関連している。しかし、自動翻訳や文字起こし、音声合成音声による多言語吹き替えといった技術に、高度な生成AIが適用されるようになり、私が最も大切にしているコンセプト「大胆かつ有意義な技術革新」において他社を先行リードしている企業が1社見られた。
Caption Hubは、レイテンシー(遅延)という「レモン」を、贅沢な「レモネード」へと昇華させるような、特許出願中の革新的技術を実演してみせた。ABR(アダプティブ・ビットレート・ストリーミング・テクノロジー)により、ストリーミングTV配信に20〜30秒間の遅延が発生することはご承知の通りだ。Caption Hubはまさに、この時間を最大限に活用してキャプションを精細に生成処理し、さらなる「猶予データ処理時間」を利用して字幕の品質をさらに向上させたり、字幕の再生位置を画面内のアクションにより完全一致させたり、放送後の様々な拡張ワークフローへと応用させていく。
たとえば、Caption Hubは生成AIによる多言語ボイスオーバー音声合成も可能にしている。これは厳密な意味での完全な「AI吹替」とは異なるが、世界規模で番組を配信・展開していくにあたり、多くの場面で大いに活用できるだろう。
4. パブリッククラウドへ、そしてパブリッククラウドによるマルチキャストルーティング
SwXtch.ioは、メディア処理ソフトウェアのパートナー企業であるCinnafilmとともに、クラウド・スイッチ(オーバーレイファブリック構造)を製品化しており、これにより大容量で複雑化したパブリッククラウドにおける映像配信/投稿ワークフローに対して、マルチキャストが持つ多大なメリットを容易に適用できるようになる。
現在、クラウド配信ワークフローの中央を通るライブ動画フィードのほとんどは、Point-to-Point(1対1)のユニキャスト接続を使って送信および受信処理されている。ネットワーク環境にまつわる重要な制約・制限などから、主要パブリッククラウドはマルチキャスト(1対多配信などの放送向け配信フロー)にそのまま対応していないのだ。
しかしながら、適切な特徴を適応させることで、現在の1対1接続を上回る高品質なパフォーマンスを発揮できるようなオーバーレイ・ネットワーク網を構築することができる。これにより、俊敏性の向上や運用の簡素化、場合によってはリソース効率化(ストリームを2つから1つに低減する)など、多大なメリットがもたらされる。
ご意見・ご質問はありますか? フィードバックは Brian@RingDigital.tv までお寄せください。




