
リサーチ
すべての映像革命は、私たちが語ることのできる物語を進化させてきた

ライアン・クラーナ
フィルムリールからテープ、そしてデジタル編集に至るまで、ビデオテクノロジーの新たな波が訪れるたびに、単に制作スピードが向上しただけでなく、まったく新しいナラティブ(語り口)の形が解き放たれてきました。AIによるビデオ理解技術も同様であり、これまでマルチパースペクティブ(多角的視点)なストーリーテリングや、文脈に基づく編集用検索、アンビエントプロダクション(環境一体型制作)などを経済的に不可能にしていた、人間の処理能力という制約を取り除くことで、同じような進化をもたらそうとしています。
フィルムリールからテープ、そしてデジタル編集に至るまで、ビデオテクノロジーの新たな波が訪れるたびに、単に制作スピードが向上しただけでなく、まったく新しいナラティブ(語り口)の形が解き放たれてきました。AIによるビデオ理解技術も同様であり、これまでマルチパースペクティブ(多角的視点)なストーリーテリングや、文脈に基づく編集用検索、アンビエントプロダクション(環境一体型制作)などを経済的に不可能にしていた、人間の処理能力という制約を取り除くことで、同じような進化をもたらそうとしています。

この記事の内容
No headings found on page
ニュースレターに登録する
ニュースレターに登録する
ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします
ビデオ理解に関する最新の技術進歩、チュートリアル、業界の動向をお届けします
AIを活用してビデオを検索、分析、探索します。
2025/10/16
10分
記事へのリンクをコピー
マーシャル・マクルーハンは、かつて次のような有名な言葉を残しました。「変化をもたらすのは、各テクノロジーに備わっている枠組み(システム構成)自体であり、枠組みの中に映し出される映像にとどまらない。」 ビデオ制作において、この洞察が先見の明であったことが証明されています。技術の進歩は単に編集プロセスをスピードアップさせただけでなく、これまで見落とされていた新しい表現スタイルの可能性を広げました。それらは適切なツールが登場し、形にできるようになるのを待ち望んでいたのです。
今日、私たちはもう一つの根本的な変化を目撃しています。しかし、新たな制約を課した過去の革命とは異なり、AIによるビデオ理解は、すべてのボトネックの中で最も古いもの、すなわち映像を理解するための人間の処理能力という限界を解消します。これはワークフローを高速化することではなく、理論的には可能であっても経済的には不可能であったストーリーがついに実現可能になることを意味しています。
パターン:新しい技術 → 新しいボトルネック → 新しいコンテンツの文法
1950年代〜1960年代:フィルムリールが規定したストーリー構造
テレビの黎明期、ルシル・ボールとデジ・アーナズは、その後のシットコムの標準となる『アイ・ラブ・ルーシー』を開拓しました。3台のカメラのセットアップ、生観客、そしてリアルタイムでの35mmフィルム撮影は、何十年もの間、定番となりました。この番組のナラティブ構造は、フィルムリールが約11分の映像しか保持できなかったという事実によって規定されており、脚本家はリールの交換に合わせてシーンを構成することを余儀なくされました。フィルム素材のコストが高かったため、エピソードはほぼリアルタイムで撮影され、デシルのプロダクションはわずか60分間の撮影で22分のエピソードを撮り終えることができました。

出典:https://picryl.com/media/filming-a-television-program-at-frenckells-studio-in-tampere-121965-1b5285
その結果、編集が最小限に抑えられた、舞台劇のような緻密な脚本の演技が生まれました。テレビ局は録画にほとんど価値を見出さなかったため、1950年代から1970年代にかけてのBBCの放送内容の60%〜70%は単純に消去されました。コンテンツはデザイン上、一時的なものであったのです。
『アイ・ラブ・ルーシー』が開拓した3台のカメラ形式は、今でもシットコムの主流であり、フィルムリールとプロジェクターの限界が課した物語の3部構成は、すべての物語の従来の標準であり続けています。度重なる技術革命は、かつてのクリエイティブな表現形式を廃止したのではなく、他の形式も繁栄できるようにしたのです。
1970年代〜1980年代:テープ革命が生み出すライブテレビと24時間編成
磁気テープは、テレビの演劇的な制約を打ち砕きました。突然、より多くの撮影を行うことがはるかに安価になり、カメラ自体も小型化できるようになりました。1974年のソニーのU-maticフォーマットはポータブルビデオを可能にし、撮影から放送までの時間を数時間から数分へと短縮しました。突然、「ニュース速報」が一つのフォーマットになりました。「現場から生中継」がジャンルになりました。インスタントリプレイはスポーツに不可欠なものとなりました。
パイプがプログラムそのものになりました。24時間ニュースは単にニュースが増えただけではなく、カメラがいつでも、どこにでも存在できるという前提の上に構築された、根本的に異なる性質のものでした。
その間、1982年のベタカムはカメラとレコーダーを一体化し、フィールドプロダクションをさらに機敏にしました。Quantel Paintbox(1981年)は、テレビを「グラフィックスペース」へと変貌させ、これはMTVの美学や現代のスポーツ放送に不可欠なものとなりました。

出典:https://commons.wikimedia.org/wiki/File:Sony_Betacam_SP_with_Fujinon_lense_20080830.jpg
そして決定的なことに、VCRと1984年のベータマックス判決がタイムシフト(時間シフト視聴)を合法化しました。視聴者は今や時間そのものを手に入れることができるようになり、ホームビデオの全く新しい市場を作り出し、再放送の経済学を根本的に変えました。
1990年代〜2000年代:デジタルアーカイブが解き放つ自己言及的なストーリーテリング
1989年のAvidの非線形編集(ノンリニア編集)システムの導入により、物理からデジタルへの移行が完了しました。突然、映像を無限に保存し、瞬時に検索し、無限にリミックスできるようになりました。アーカイブは無価値なものから価値あるものへと変貌を遂げ、古いエピソードは再放送、DVDセット、そしてストリーミングライブラリの中で新たな命を吹き込まれました。1990年代と2000年代には「クリップショー(総集編)」が急増し、過去のエピソードを掘り起こしてベスト盤が作成されました。
この技術的シフトは、新たなコンテンツ形式を生み出しました。『LOST』(2004〜2010年)のような番組は、フラッシュバック、フラッシュフォワード、そしてパラレルリアリティといった複数のタイムラインを、線形編集では不可能だった精度で織り交ぜることができました。『24 -TWENTY FOUR-』(2001〜2010年)は、分割画面で複数の場所における同時進行のアクションを示す、リアルタイムのストーリーテリングを開拓しました。『THE WIRE/ザ・ワイヤー』(2002〜2008年)は、数年前に放送されたエピソードの細部まで言及する、シーズンにわたる物語の構想を構築しました。これらは単にストーリーを速く伝える方法ではなく、ノンリニア編集なしには存在し得なかったナラティブ構造でした。Avidはストーリーテラーに、時間そのものを変化可能なストーリー要素として扱う能力を与えたのです。

出典:https://commons.wikimedia.org/wiki/File:المونتاج_التلفزيوني_الخطي.jpg
ノンリニア編集がビデオコンテンツに与えた変革的な影響を過大評価することは困難です。スタンリー・キューブリックは、編集こそが映画という独自の言語が他の芸術と一線を画する貢献であると述べたことで有名です。しかし、線形(リニア)編集の時代には、監督がそのプロセスを完全にコントロールすることができました。ノンリニア編集の登場により、編集の技術が確立され、編集という分野独自のクリエイティブな表現法へと拡大していきました。編集者は、監督のビジョンを実行するだけの存在から、プロセスに独自のスタイルや創造的なセンスを加えられる存在になったのです。
2000年代〜2010s年代:安価なカメラが生み出すリアリティ番組の「創り出された」物語
デジタルカメラが手頃な価格になると、プロデューサーは何十台ものカメラを配置して継続的に撮影できるようになりました。リアリティ番組が爆発的に増加しましたが、本当の革新は撮影ではなく、ポストプロダクションにありました。『ザ・バチェラー』のような番組では、1つのエピソードのために何百時間もの映像を撮影することがありますが、撮影終了後に物語を「見つけ出す」ために映像を精査する、ロガーやストーリープロデューサーの集団こそが、番組を魅力的なものにしているのです。
ボトルネックはカメラのコストから、人間がレビューする時間へとシフトしました。しかし、この制約が新しい芸術形式を生み出しました。それは、本物の瞬間から後から作り上げられたストーリーであり、実際には慎重に構築された編集上の物語である「リアリティ」を視聴者に提供することです。
2010年代〜2020年代:スマートフォンとパーソナライズが可能にしたコンテンツの爆発的増加
スマートフォンを通じて数十億人がポケットカメラを手に入れると、InstagramやTikTokなどのプラットフォームが、モバイルネイティブなフォーマット(縦型、エフェメラル、超短尺)とともに台頭しました。小さな画面と短い注意持続時間という制約は、線形プログラムではなくアルゴリズムによる配信に最適化された、ジャンプカット、デュエット、チャレンジといった新しい文法を生み出しました。
インターネットメディア消費の台頭は、各ユーザーにパーソナライズされた、より能動的なコンテンツ推薦の台頭ももたらしました。Netflixは各ユーザーに推奨される映画や番組を表示するだけでなく、エンゲージメントを高めるために各コンテンツのビジュアルをパーソナライズし始めました。TikTokの「おすすめ(FYP)」は、視聴時間主導のループを作り出し、コンテンツを個人の好みに急速に適合させました。メタデータ、書き起こし、ビジュアルコンテンツを活用したこれらの推薦エンジンは、コンテンツを再び変革しようとしているビデオ理解モデルの価値を消費者に裏付けるものとなりました。
現在の革命:分解から深い理解へ
AIによるビデオ理解を根本的に異なるものにしているのは以下の点です:従来のインタラクションは、ビデオを構成要素(文字起こし、オブジェクト、フレーム)に分解し、その後意味を再構築しようとするものでした。これは、各楽器を個別に分析することによって交響曲を理解しようとするようなものです。
ビデオネイティブモデルは、視覚的、時間的、そして文脈的な要素の間の相互作用を同時に理解します。彼らは、並置によるコメディ、タイミングによる緊張感、動きによる意味など、相互作用の中にのみ存在する創発的な特性を捉えます。

例えば、ホラーとコメディが同等に混ざり合った『ショーン・オブ・ザ・デッド』のこのシーケンスを見てみましょう。手前でのショーンのルーティン行動と、背景でのゾンビの発生はどちらも真剣に描写されていますが、その並置がコメディを生み出しています。ユーモアは、視覚情報(ありふれた行動)だけ、音声(日常の音)だけ、あるいはストーリー(仕事の支度をする)だけで成り立っているわけではありません。

TwelveLabsのPegasusモデルは、ショーンが無自覚であることが、彼の周囲でのゾンビ発生の明らかな兆候と対照的であることを識別できました。ビデオの構成要素をセグメント化する従来のビデオ分析のアプローチが、測定可能なものに焦点を当てた結果として失ってしまったものを、ビデオ理解モデルは回収します。

これは、ショーンがゾンビの黙示録について警告されている最中に急速にチャンネルを切り替えるテレビのシーケンスのユーモアを説明する能力において、最も明確に実証されています。ショーンが認識し損ねた各チャンネルに価値あるコンテンツが表示されていることを、モデルは理解していました。チャンネル切り替えに伴う一貫した警告といったいくつかの繊細な点を見逃したものの、何かが「おかしい」ことが起きているためにそれが面白いのだという、より根本的な部分を把握していました。
これは漸進的な改善ではありません。「人間」と「ゾンビ」を識別できるシステムと、それらの関係がコメディを生み出すことを理解するシステムとの違いです。
私たちはまだビデオ理解の初期段階にいますが、モデルが向上し続ける一方で、もう一つの重要な革新は、これまでは存在しなかった能力を中心に物語のフォーマットを構築するアーリーアダプターたちの創造性にあります。
過去の技術革命は制約を課し、それがイノベーションを強制しました。AI理解は、特定のフォーマットを経済的に不可能にしていた、人間の処理能力という制約を取り除きます。以下のようなことが実現可能になります:
マルチパースペクティブ(多角的視点)ストーリー:
Netflixが2013年に『アレステッド・ディベロップメント』シーズン4をリリースした際、各エピソードは同じ期間を生きる単一のキャラクターを追っていました。この実験は大胆で、視聴者は理論的にはどの順序でも視聴でき、より大きな物語をパズルのように組み立てることができました。しかし、視聴者の反応は芳しくありませんでした。
Netflixは数百万ドルを投じて、シーズン全体を時系列に再編集した「シーズン4 リミックス:運命の結末」を作成しました。これにより、編集者はすべてのシーンの時間的位置を手動で追跡し、物語の依存関係を特定し、15のエピソードを22のエピソードに再構築する必要がありました。コストは?何百時間もの編集作業に加えて、一貫性を維持するためのミッチ・ハーウィッツの直接的な関与が必要でした。

出典:https://www.reddit.com/r/arresteddevelopment/comments/1g5y0k/arrested_development_season_4_timeline_warning/(『アレステッド・ディベロップメント』S4において、キャラクター特定のタイムラインを時系列にマッピングし直す複雑さ)
ビデオ理解があれば、これら2つのフォーマットを入れ替えることができるようになります。制作中、ビデオ理解が撮影素材(デイリー)をリアルタイムで分析し、特定のストーリー展開において、どのキャラクターの視点がまだ撮影されていないかを指摘することができます。複数の物語経路を念頭に置いて絵コンテを起草することができます。ポストプロダクションでは、手動で再構築することなく、時系列、キャラクター重視、テーマ別など、何十通りもの構成をテストすることができます。最も重要なのは、処理速度の向上により、視聴者が自分の視聴体験を選択できるようになり、選択された経路に関係なくシステムが物語の一貫性を確保できることです。
同じストーリーが真に複数のストーリーとなり、それぞれが有効で完全なものになります。
マイクロパターンの発見:
ストリーミングサービスは、ユーザーにまさにどのコンテンツを推奨すべきかを突き止めるために何十億ドルも費やしているにもかかわらず、なぜ何百万人もの人々が何か新しいものを見る代わりに『ジ・オフィス』を50回目も繰り返し見るのか、その理由を解明できていないようです。彼らは、あなたが「モキュメンタリー」や「アンサンブルキャスト」といったタグを持つ、「スティーブ・カレル」が出演する「職場コメディ」の9つのシーズンを完走したことは知っています。しかし彼らが捉えられないのは、なぜあなたが実際にその作品に惹きつけられたのかという理由です。
何を推奨すべきかを特定するために、タイトル、文字起こし、メタデータタグだけに頼るのではなく、ビデオ自体を真実のソースにすることができます。ビデオの内部にある意味や関係性には、これまで抽出が困難だった、より多くの情報が含まれています。例えば、注目を集めるのは特定の俳優ではなく、その俳優が特定のタイプのキャラクターを演じている時や、そのコメディスキルを発揮できるシーンがある時に限られるかもしれません。メタデータには見えないこれらのニュアンスが、ビデオ理解によって回収可能になります。
このより深い理解は、個人特定のグラフを作成侵襲的なデータ収集に基づくのではなく、コンテンツと視聴習慣そのものの関係から最良の推薦を提示する、全く新しいコンテンツ推薦の経路を作り出すことができます。
Marengoのエンベディングは、私たちがコンテンツの「フィンガープリント(指紋)」と呼ぶもの、すなわちオブジェクトやアクションだけでなく、視覚的要素、音声手がかり、そして時間的ダイナミクスの間の相互作用を捉えます。この粒度の細かい理解は、コンテンツクリエイターが「なぜ視聴者が特定の瞬間とつながるのか」を最終的に理解できることを意味し、アルゴリズムのトレンドを追いかけるのではなく、より共感を呼ぶストーリーを作り出す力を彼らに与えます。
環境型の撮影(アンビエント・プロダクション):
『ラブ・アイランド』は、80台のロボットカメラと複数のスタジオカメラで参加者を24時間365日撮影し、毎週約168時間の映像を記録しています。これを毎週6時間の番組にするために、このショーは交代制で24時間体制で働く400人のクルーを雇用しています。30人の編集者と20人のプロデューサーが異なる部門で働いています。ストーリーチームは個々の瞬間をシーンにまとめ、スティッチチームはシーンを構成し、エグゼクティブプロデューサーはリアルタイムで放送順を決定します。運営全体が24時間のターンアラウンドで実行され、月曜日のドラマは火曜日の夜までに放送されます。
ネイサン・フィールダーの『リハーサル -ネイサンのハチャメチャ予行演習-』は、ストーリーで制御しきれないほど豊かになった管理環境を作り出すことで、環境型の撮影を新しい領域へと押し上げました。再現されたアリゲーター・ラウンジは非常に細部までこだわり抜かれていたため、セットというよりもストーリー生成エンジンのように機能しました。フィールダーは特定の物語をコントロールするつもりでしたが、環境はそれ自体で動き始めました。エキストラが本物の関係を築き、背景の役者が独自のドラマを作り出し、偽物が本物になりました。コントロールされた世界はコントロールを失い、計画されたシナリオよりも本物の物語(あの番組で何が本当なのかは誰も分かりませんが…)を生成しました。
ビデオ理解があれば、この膨大な映像を管理しやすくなります。何をマークするかについて二者択一の決定を下すロガーの集団の代わりに、AIが物語の可能性を理解する「スマートデイリー」を生成できます。単に「午前2時47分の口論」ではなく、「キャラクターXとYの間に生じている緊張感」といった具合です。システムは、何週間にもわたる関係性の変化を追跡し、疲れ果てたロガーには見えないパターンを特定し、現在の制作が見落としている、じわじわと展開するストーリーを表に引き出すことができます。
番組全体をこの機能を中心に設計することができ、制作費を抑え、より効率的な制作プロセスで『ラブ・アイランド』の成功したフォーマットを拡大することができます。事前に「主人公」を選定して彼らがドラマを生み出すことを期待する代わりに、制作陣は網を広げて、環境から自然にストーリーが生まれるようにすることができます。物語は、演出によって無理に作られるのではなく、環境の撮影の中から発見されるものになります。
セマンティック・エディトリアル(意味論的編集):
ドキュメンタリー『ラストダンス』では、編集者が10,000時間以上のアーカイブ映像をレビューする必要がありました。制作現場は、アシスタントエディターのチームを雇い、彼らは何ヶ月もかけてキーワード、説明、タイムコードを含む詳細なログを作成しました。この大規模な投資を行っても、人間の手による記録ではすべてのニュアンスを捉えることができないため、編集者は依然として適切な瞬間を見逃していました。
Adobe Premiereの文字起こし機能のような現在のテキストベースの編集ツールは、編集者が対話を検索することを可能にしますが、視覚的なストーリーテリングを理解することはできません。「ジョーダンとチームメイトの間の緊張感」を探している編集者は、誰かがそれらの主観的な瞬間を記録していることに頼るか、自分自身で映像をくまなく探す必要があります。
ビデオ理解は、これをキーワード検索から意味検索へと変化させます。編集者は「ジョーダンがチームメイトから物理的に孤立している瞬間を見つけて」や「ジョーダンが話した後に選手たちが目を合わせないリアクションショットを見せて」と要求できます。システムはオブジェクトやアクションだけでなく、関係性や感情も理解します。
『ラストダンス』において、これは人間の記録係では捉えられない微妙なダイナミクスを明らかにできたかもしれません。シーズンを通じた身体言語のパターン、空間や位置取りに見える進化するチームのダイナミクス、系統的に見て初めて明らかになる言葉にされない緊張感などです。物語の考古学のためのアーカイブの価値が爆発的に高まります。
インフィニット・バージョニング(無限のバージョニング):
グローバルなデジタル世界において、あるテレビ番組や映画の「正しいバージョン」が1つだけであることは稀です。一部のコンテンツは、特定のペース、文化的背景、または製品映り込みの好みを反映して、異なる市場向けに国際化されます。また、映画館、航空機、そして子供向けのバージョンに適した形に安全に翻案されるものもあります。あのおしゃべりな傭兵のように。各バージョンには手動の再編集が必要で、1市場あたり数十万ドルのコストがかかっていました。
ビデオ理解は、大規模な動的バージョニングを可能にします。固定された代替編集を作成する代わりに、制作陣はパラメーター(ペースの好み、コンテンツのしきい値、文化的強調)を定義し、リアルタイムでバージョンを生成できます。日本語版の『イカゲーム』は、仮定ではなく実際の視聴パターンに基づいて、英語版とは異なるキャラクターの瞬間を強調することができます。
さらに画期的なことに、バージョンを個々の視聴者に適応させることができます。侵襲的なデータ収集を通じてではなく、視聴パターンがコンテンツのフィンガープリントとどのように相関しているかを理解することによってです。同じソース素材が何千もの潜在的な体験となり、それぞれが共鳴を最適化しながら物語の一貫性を維持します。
結論
機械がビデオを理解するのが得意になるにつれて、人間の創造性は、重要性が低くなるのではなく、より重要になります。何千時間もの映像から「絶望から生まれる希望の瞬間」を検索できるとき、他との差別化要因は映像を見つけることではなく、「何を探す価値があるのか」を知ることです。
テンプレートベースのAIツールは、コンテンツをあらかじめ決められた枠にはめ込みます。ビデオ理解はその逆を行います。そこにあるものを明らかにし、発見されるのを待ちます。理解という圧倒的な機械的負担を処理し、整理された可能性を人間のクリエイターに渡し、最終的な創造へと導きます。
私たちはまだ初期段階にいます。現在のモデルは、抽象的なユーモア、文化的なニュアンス、概念的なメタファーに苦戦しています。何かが起きていることは理解していますが、なぜそれが重要なのかを常に理解しているわけではありません。しかし、これらの不完全な能力であっても、真に新しい創造的な形式を可能にする基準を超えています。
歴史が示すように、アーティストは完璧なツールを待ちません。彼らは不完全なツールを予期せぬ方法で活用します。問題は、ビデオ理解が完璧に完成して到来したかどうかではありません。現在の能力が、そのすべての限界を抱えながらも、これまで語れなかったストーリーを可能にするかどうかです。
答えは「YES」です。
TwelveLabsでは、ストーリーを語るツールを構築しているのではありません。ストーリーテラーが、そこにあるストーリーを発見し、適切なテクノロジーによってそれを可視化できるようにするためのインフラを構築しています。
枠組みは変化しています。その中で、あなたはどのような新しいストーリー(映像)を描きますか?
ビデオ理解があなたのコンテンツと出会うとき、何が可能になるか探求する準備はできていますか?ビデオ理解APIの詳細を見る、または実際のモデルの動作を確認してください。
マーシャル・マクルーハンは、かつて次のような有名な言葉を残しました。「変化をもたらすのは、各テクノロジーに備わっている枠組み(システム構成)自体であり、枠組みの中に映し出される映像にとどまらない。」 ビデオ制作において、この洞察が先見の明であったことが証明されています。技術の進歩は単に編集プロセスをスピードアップさせただけでなく、これまで見落とされていた新しい表現スタイルの可能性を広げました。それらは適切なツールが登場し、形にできるようになるのを待ち望んでいたのです。
今日、私たちはもう一つの根本的な変化を目撃しています。しかし、新たな制約を課した過去の革命とは異なり、AIによるビデオ理解は、すべてのボトネックの中で最も古いもの、すなわち映像を理解するための人間の処理能力という限界を解消します。これはワークフローを高速化することではなく、理論的には可能であっても経済的には不可能であったストーリーがついに実現可能になることを意味しています。
パターン:新しい技術 → 新しいボトルネック → 新しいコンテンツの文法
1950年代〜1960年代:フィルムリールが規定したストーリー構造
テレビの黎明期、ルシル・ボールとデジ・アーナズは、その後のシットコムの標準となる『アイ・ラブ・ルーシー』を開拓しました。3台のカメラのセットアップ、生観客、そしてリアルタイムでの35mmフィルム撮影は、何十年もの間、定番となりました。この番組のナラティブ構造は、フィルムリールが約11分の映像しか保持できなかったという事実によって規定されており、脚本家はリールの交換に合わせてシーンを構成することを余儀なくされました。フィルム素材のコストが高かったため、エピソードはほぼリアルタイムで撮影され、デシルのプロダクションはわずか60分間の撮影で22分のエピソードを撮り終えることができました。

出典:https://picryl.com/media/filming-a-television-program-at-frenckells-studio-in-tampere-121965-1b5285
その結果、編集が最小限に抑えられた、舞台劇のような緻密な脚本の演技が生まれました。テレビ局は録画にほとんど価値を見出さなかったため、1950年代から1970年代にかけてのBBCの放送内容の60%〜70%は単純に消去されました。コンテンツはデザイン上、一時的なものであったのです。
『アイ・ラブ・ルーシー』が開拓した3台のカメラ形式は、今でもシットコムの主流であり、フィルムリールとプロジェクターの限界が課した物語の3部構成は、すべての物語の従来の標準であり続けています。度重なる技術革命は、かつてのクリエイティブな表現形式を廃止したのではなく、他の形式も繁栄できるようにしたのです。
1970年代〜1980年代:テープ革命が生み出すライブテレビと24時間編成
磁気テープは、テレビの演劇的な制約を打ち砕きました。突然、より多くの撮影を行うことがはるかに安価になり、カメラ自体も小型化できるようになりました。1974年のソニーのU-maticフォーマットはポータブルビデオを可能にし、撮影から放送までの時間を数時間から数分へと短縮しました。突然、「ニュース速報」が一つのフォーマットになりました。「現場から生中継」がジャンルになりました。インスタントリプレイはスポーツに不可欠なものとなりました。
パイプがプログラムそのものになりました。24時間ニュースは単にニュースが増えただけではなく、カメラがいつでも、どこにでも存在できるという前提の上に構築された、根本的に異なる性質のものでした。
その間、1982年のベタカムはカメラとレコーダーを一体化し、フィールドプロダクションをさらに機敏にしました。Quantel Paintbox(1981年)は、テレビを「グラフィックスペース」へと変貌させ、これはMTVの美学や現代のスポーツ放送に不可欠なものとなりました。

出典:https://commons.wikimedia.org/wiki/File:Sony_Betacam_SP_with_Fujinon_lense_20080830.jpg
そして決定的なことに、VCRと1984年のベータマックス判決がタイムシフト(時間シフト視聴)を合法化しました。視聴者は今や時間そのものを手に入れることができるようになり、ホームビデオの全く新しい市場を作り出し、再放送の経済学を根本的に変えました。
1990年代〜2000年代:デジタルアーカイブが解き放つ自己言及的なストーリーテリング
1989年のAvidの非線形編集(ノンリニア編集)システムの導入により、物理からデジタルへの移行が完了しました。突然、映像を無限に保存し、瞬時に検索し、無限にリミックスできるようになりました。アーカイブは無価値なものから価値あるものへと変貌を遂げ、古いエピソードは再放送、DVDセット、そしてストリーミングライブラリの中で新たな命を吹き込まれました。1990年代と2000年代には「クリップショー(総集編)」が急増し、過去のエピソードを掘り起こしてベスト盤が作成されました。
この技術的シフトは、新たなコンテンツ形式を生み出しました。『LOST』(2004〜2010年)のような番組は、フラッシュバック、フラッシュフォワード、そしてパラレルリアリティといった複数のタイムラインを、線形編集では不可能だった精度で織り交ぜることができました。『24 -TWENTY FOUR-』(2001〜2010年)は、分割画面で複数の場所における同時進行のアクションを示す、リアルタイムのストーリーテリングを開拓しました。『THE WIRE/ザ・ワイヤー』(2002〜2008年)は、数年前に放送されたエピソードの細部まで言及する、シーズンにわたる物語の構想を構築しました。これらは単にストーリーを速く伝える方法ではなく、ノンリニア編集なしには存在し得なかったナラティブ構造でした。Avidはストーリーテラーに、時間そのものを変化可能なストーリー要素として扱う能力を与えたのです。

出典:https://commons.wikimedia.org/wiki/File:المونتاج_التلفزيوني_الخطي.jpg
ノンリニア編集がビデオコンテンツに与えた変革的な影響を過大評価することは困難です。スタンリー・キューブリックは、編集こそが映画という独自の言語が他の芸術と一線を画する貢献であると述べたことで有名です。しかし、線形(リニア)編集の時代には、監督がそのプロセスを完全にコントロールすることができました。ノンリニア編集の登場により、編集の技術が確立され、編集という分野独自のクリエイティブな表現法へと拡大していきました。編集者は、監督のビジョンを実行するだけの存在から、プロセスに独自のスタイルや創造的なセンスを加えられる存在になったのです。
2000年代〜2010s年代:安価なカメラが生み出すリアリティ番組の「創り出された」物語
デジタルカメラが手頃な価格になると、プロデューサーは何十台ものカメラを配置して継続的に撮影できるようになりました。リアリティ番組が爆発的に増加しましたが、本当の革新は撮影ではなく、ポストプロダクションにありました。『ザ・バチェラー』のような番組では、1つのエピソードのために何百時間もの映像を撮影することがありますが、撮影終了後に物語を「見つけ出す」ために映像を精査する、ロガーやストーリープロデューサーの集団こそが、番組を魅力的なものにしているのです。
ボトルネックはカメラのコストから、人間がレビューする時間へとシフトしました。しかし、この制約が新しい芸術形式を生み出しました。それは、本物の瞬間から後から作り上げられたストーリーであり、実際には慎重に構築された編集上の物語である「リアリティ」を視聴者に提供することです。
2010年代〜2020年代:スマートフォンとパーソナライズが可能にしたコンテンツの爆発的増加
スマートフォンを通じて数十億人がポケットカメラを手に入れると、InstagramやTikTokなどのプラットフォームが、モバイルネイティブなフォーマット(縦型、エフェメラル、超短尺)とともに台頭しました。小さな画面と短い注意持続時間という制約は、線形プログラムではなくアルゴリズムによる配信に最適化された、ジャンプカット、デュエット、チャレンジといった新しい文法を生み出しました。
インターネットメディア消費の台頭は、各ユーザーにパーソナライズされた、より能動的なコンテンツ推薦の台頭ももたらしました。Netflixは各ユーザーに推奨される映画や番組を表示するだけでなく、エンゲージメントを高めるために各コンテンツのビジュアルをパーソナライズし始めました。TikTokの「おすすめ(FYP)」は、視聴時間主導のループを作り出し、コンテンツを個人の好みに急速に適合させました。メタデータ、書き起こし、ビジュアルコンテンツを活用したこれらの推薦エンジンは、コンテンツを再び変革しようとしているビデオ理解モデルの価値を消費者に裏付けるものとなりました。
現在の革命:分解から深い理解へ
AIによるビデオ理解を根本的に異なるものにしているのは以下の点です:従来のインタラクションは、ビデオを構成要素(文字起こし、オブジェクト、フレーム)に分解し、その後意味を再構築しようとするものでした。これは、各楽器を個別に分析することによって交響曲を理解しようとするようなものです。
ビデオネイティブモデルは、視覚的、時間的、そして文脈的な要素の間の相互作用を同時に理解します。彼らは、並置によるコメディ、タイミングによる緊張感、動きによる意味など、相互作用の中にのみ存在する創発的な特性を捉えます。

例えば、ホラーとコメディが同等に混ざり合った『ショーン・オブ・ザ・デッド』のこのシーケンスを見てみましょう。手前でのショーンのルーティン行動と、背景でのゾンビの発生はどちらも真剣に描写されていますが、その並置がコメディを生み出しています。ユーモアは、視覚情報(ありふれた行動)だけ、音声(日常の音)だけ、あるいはストーリー(仕事の支度をする)だけで成り立っているわけではありません。

TwelveLabsのPegasusモデルは、ショーンが無自覚であることが、彼の周囲でのゾンビ発生の明らかな兆候と対照的であることを識別できました。ビデオの構成要素をセグメント化する従来のビデオ分析のアプローチが、測定可能なものに焦点を当てた結果として失ってしまったものを、ビデオ理解モデルは回収します。

これは、ショーンがゾンビの黙示録について警告されている最中に急速にチャンネルを切り替えるテレビのシーケンスのユーモアを説明する能力において、最も明確に実証されています。ショーンが認識し損ねた各チャンネルに価値あるコンテンツが表示されていることを、モデルは理解していました。チャンネル切り替えに伴う一貫した警告といったいくつかの繊細な点を見逃したものの、何かが「おかしい」ことが起きているためにそれが面白いのだという、より根本的な部分を把握していました。
これは漸進的な改善ではありません。「人間」と「ゾンビ」を識別できるシステムと、それらの関係がコメディを生み出すことを理解するシステムとの違いです。
私たちはまだビデオ理解の初期段階にいますが、モデルが向上し続ける一方で、もう一つの重要な革新は、これまでは存在しなかった能力を中心に物語のフォーマットを構築するアーリーアダプターたちの創造性にあります。
過去の技術革命は制約を課し、それがイノベーションを強制しました。AI理解は、特定のフォーマットを経済的に不可能にしていた、人間の処理能力という制約を取り除きます。以下のようなことが実現可能になります:
マルチパースペクティブ(多角的視点)ストーリー:
Netflixが2013年に『アレステッド・ディベロップメント』シーズン4をリリースした際、各エピソードは同じ期間を生きる単一のキャラクターを追っていました。この実験は大胆で、視聴者は理論的にはどの順序でも視聴でき、より大きな物語をパズルのように組み立てることができました。しかし、視聴者の反応は芳しくありませんでした。
Netflixは数百万ドルを投じて、シーズン全体を時系列に再編集した「シーズン4 リミックス:運命の結末」を作成しました。これにより、編集者はすべてのシーンの時間的位置を手動で追跡し、物語の依存関係を特定し、15のエピソードを22のエピソードに再構築する必要がありました。コストは?何百時間もの編集作業に加えて、一貫性を維持するためのミッチ・ハーウィッツの直接的な関与が必要でした。

出典:https://www.reddit.com/r/arresteddevelopment/comments/1g5y0k/arrested_development_season_4_timeline_warning/(『アレステッド・ディベロップメント』S4において、キャラクター特定のタイムラインを時系列にマッピングし直す複雑さ)
ビデオ理解があれば、これら2つのフォーマットを入れ替えることができるようになります。制作中、ビデオ理解が撮影素材(デイリー)をリアルタイムで分析し、特定のストーリー展開において、どのキャラクターの視点がまだ撮影されていないかを指摘することができます。複数の物語経路を念頭に置いて絵コンテを起草することができます。ポストプロダクションでは、手動で再構築することなく、時系列、キャラクター重視、テーマ別など、何十通りもの構成をテストすることができます。最も重要なのは、処理速度の向上により、視聴者が自分の視聴体験を選択できるようになり、選択された経路に関係なくシステムが物語の一貫性を確保できることです。
同じストーリーが真に複数のストーリーとなり、それぞれが有効で完全なものになります。
マイクロパターンの発見:
ストリーミングサービスは、ユーザーにまさにどのコンテンツを推奨すべきかを突き止めるために何十億ドルも費やしているにもかかわらず、なぜ何百万人もの人々が何か新しいものを見る代わりに『ジ・オフィス』を50回目も繰り返し見るのか、その理由を解明できていないようです。彼らは、あなたが「モキュメンタリー」や「アンサンブルキャスト」といったタグを持つ、「スティーブ・カレル」が出演する「職場コメディ」の9つのシーズンを完走したことは知っています。しかし彼らが捉えられないのは、なぜあなたが実際にその作品に惹きつけられたのかという理由です。
何を推奨すべきかを特定するために、タイトル、文字起こし、メタデータタグだけに頼るのではなく、ビデオ自体を真実のソースにすることができます。ビデオの内部にある意味や関係性には、これまで抽出が困難だった、より多くの情報が含まれています。例えば、注目を集めるのは特定の俳優ではなく、その俳優が特定のタイプのキャラクターを演じている時や、そのコメディスキルを発揮できるシーンがある時に限られるかもしれません。メタデータには見えないこれらのニュアンスが、ビデオ理解によって回収可能になります。
このより深い理解は、個人特定のグラフを作成侵襲的なデータ収集に基づくのではなく、コンテンツと視聴習慣そのものの関係から最良の推薦を提示する、全く新しいコンテンツ推薦の経路を作り出すことができます。
Marengoのエンベディングは、私たちがコンテンツの「フィンガープリント(指紋)」と呼ぶもの、すなわちオブジェクトやアクションだけでなく、視覚的要素、音声手がかり、そして時間的ダイナミクスの間の相互作用を捉えます。この粒度の細かい理解は、コンテンツクリエイターが「なぜ視聴者が特定の瞬間とつながるのか」を最終的に理解できることを意味し、アルゴリズムのトレンドを追いかけるのではなく、より共感を呼ぶストーリーを作り出す力を彼らに与えます。
環境型の撮影(アンビエント・プロダクション):
『ラブ・アイランド』は、80台のロボットカメラと複数のスタジオカメラで参加者を24時間365日撮影し、毎週約168時間の映像を記録しています。これを毎週6時間の番組にするために、このショーは交代制で24時間体制で働く400人のクルーを雇用しています。30人の編集者と20人のプロデューサーが異なる部門で働いています。ストーリーチームは個々の瞬間をシーンにまとめ、スティッチチームはシーンを構成し、エグゼクティブプロデューサーはリアルタイムで放送順を決定します。運営全体が24時間のターンアラウンドで実行され、月曜日のドラマは火曜日の夜までに放送されます。
ネイサン・フィールダーの『リハーサル -ネイサンのハチャメチャ予行演習-』は、ストーリーで制御しきれないほど豊かになった管理環境を作り出すことで、環境型の撮影を新しい領域へと押し上げました。再現されたアリゲーター・ラウンジは非常に細部までこだわり抜かれていたため、セットというよりもストーリー生成エンジンのように機能しました。フィールダーは特定の物語をコントロールするつもりでしたが、環境はそれ自体で動き始めました。エキストラが本物の関係を築き、背景の役者が独自のドラマを作り出し、偽物が本物になりました。コントロールされた世界はコントロールを失い、計画されたシナリオよりも本物の物語(あの番組で何が本当なのかは誰も分かりませんが…)を生成しました。
ビデオ理解があれば、この膨大な映像を管理しやすくなります。何をマークするかについて二者択一の決定を下すロガーの集団の代わりに、AIが物語の可能性を理解する「スマートデイリー」を生成できます。単に「午前2時47分の口論」ではなく、「キャラクターXとYの間に生じている緊張感」といった具合です。システムは、何週間にもわたる関係性の変化を追跡し、疲れ果てたロガーには見えないパターンを特定し、現在の制作が見落としている、じわじわと展開するストーリーを表に引き出すことができます。
番組全体をこの機能を中心に設計することができ、制作費を抑え、より効率的な制作プロセスで『ラブ・アイランド』の成功したフォーマットを拡大することができます。事前に「主人公」を選定して彼らがドラマを生み出すことを期待する代わりに、制作陣は網を広げて、環境から自然にストーリーが生まれるようにすることができます。物語は、演出によって無理に作られるのではなく、環境の撮影の中から発見されるものになります。
セマンティック・エディトリアル(意味論的編集):
ドキュメンタリー『ラストダンス』では、編集者が10,000時間以上のアーカイブ映像をレビューする必要がありました。制作現場は、アシスタントエディターのチームを雇い、彼らは何ヶ月もかけてキーワード、説明、タイムコードを含む詳細なログを作成しました。この大規模な投資を行っても、人間の手による記録ではすべてのニュアンスを捉えることができないため、編集者は依然として適切な瞬間を見逃していました。
Adobe Premiereの文字起こし機能のような現在のテキストベースの編集ツールは、編集者が対話を検索することを可能にしますが、視覚的なストーリーテリングを理解することはできません。「ジョーダンとチームメイトの間の緊張感」を探している編集者は、誰かがそれらの主観的な瞬間を記録していることに頼るか、自分自身で映像をくまなく探す必要があります。
ビデオ理解は、これをキーワード検索から意味検索へと変化させます。編集者は「ジョーダンがチームメイトから物理的に孤立している瞬間を見つけて」や「ジョーダンが話した後に選手たちが目を合わせないリアクションショットを見せて」と要求できます。システムはオブジェクトやアクションだけでなく、関係性や感情も理解します。
『ラストダンス』において、これは人間の記録係では捉えられない微妙なダイナミクスを明らかにできたかもしれません。シーズンを通じた身体言語のパターン、空間や位置取りに見える進化するチームのダイナミクス、系統的に見て初めて明らかになる言葉にされない緊張感などです。物語の考古学のためのアーカイブの価値が爆発的に高まります。
インフィニット・バージョニング(無限のバージョニング):
グローバルなデジタル世界において、あるテレビ番組や映画の「正しいバージョン」が1つだけであることは稀です。一部のコンテンツは、特定のペース、文化的背景、または製品映り込みの好みを反映して、異なる市場向けに国際化されます。また、映画館、航空機、そして子供向けのバージョンに適した形に安全に翻案されるものもあります。あのおしゃべりな傭兵のように。各バージョンには手動の再編集が必要で、1市場あたり数十万ドルのコストがかかっていました。
ビデオ理解は、大規模な動的バージョニングを可能にします。固定された代替編集を作成する代わりに、制作陣はパラメーター(ペースの好み、コンテンツのしきい値、文化的強調)を定義し、リアルタイムでバージョンを生成できます。日本語版の『イカゲーム』は、仮定ではなく実際の視聴パターンに基づいて、英語版とは異なるキャラクターの瞬間を強調することができます。
さらに画期的なことに、バージョンを個々の視聴者に適応させることができます。侵襲的なデータ収集を通じてではなく、視聴パターンがコンテンツのフィンガープリントとどのように相関しているかを理解することによってです。同じソース素材が何千もの潜在的な体験となり、それぞれが共鳴を最適化しながら物語の一貫性を維持します。
結論
機械がビデオを理解するのが得意になるにつれて、人間の創造性は、重要性が低くなるのではなく、より重要になります。何千時間もの映像から「絶望から生まれる希望の瞬間」を検索できるとき、他との差別化要因は映像を見つけることではなく、「何を探す価値があるのか」を知ることです。
テンプレートベースのAIツールは、コンテンツをあらかじめ決められた枠にはめ込みます。ビデオ理解はその逆を行います。そこにあるものを明らかにし、発見されるのを待ちます。理解という圧倒的な機械的負担を処理し、整理された可能性を人間のクリエイターに渡し、最終的な創造へと導きます。
私たちはまだ初期段階にいます。現在のモデルは、抽象的なユーモア、文化的なニュアンス、概念的なメタファーに苦戦しています。何かが起きていることは理解していますが、なぜそれが重要なのかを常に理解しているわけではありません。しかし、これらの不完全な能力であっても、真に新しい創造的な形式を可能にする基準を超えています。
歴史が示すように、アーティストは完璧なツールを待ちません。彼らは不完全なツールを予期せぬ方法で活用します。問題は、ビデオ理解が完璧に完成して到来したかどうかではありません。現在の能力が、そのすべての限界を抱えながらも、これまで語れなかったストーリーを可能にするかどうかです。
答えは「YES」です。
TwelveLabsでは、ストーリーを語るツールを構築しているのではありません。ストーリーテラーが、そこにあるストーリーを発見し、適切なテクノロジーによってそれを可視化できるようにするためのインフラを構築しています。
枠組みは変化しています。その中で、あなたはどのような新しいストーリー(映像)を描きますか?
ビデオ理解があなたのコンテンツと出会うとき、何が可能になるか探求する準備はできていますか?ビデオ理解APIの詳細を見る、または実際のモデルの動作を確認してください。




