Gen AI Times 第13回

【一気にわかる!!】動画生成AIが構築する世界の「現在」と「未来予想」

本記事は、生成AIコミュニティ「IKIGAI lab.」に所属するメンバーが、生成AIに関するニュースを紹介＆深掘りしながら、AIがもたらす「半歩先」の未来に皆さんをご案内します。

2024年8月29日 6:30

はじめに

本連載は、生成AIコミュニティ「IKIGAI lab.」で活動している6名で運営しています。注目されている生成AIに関するニュースを収集し、個性豊かなメンバーによる記事の深堀りから、半歩先の未来の想像を共有していきます。この記事を通して、ぜひ皆さまも各々の半歩先の未来を想像しながら、色々な価値観を楽しんでいただけると嬉しいです。

前回は「【注目】パリ五輪に学ぶ、生成AIの進化と課題」と題して、オリンピックでの生成AIの活用について紹介しました。しかし、生成AIは詐欺サイトや偽動画の作成にも利用されており、ディープフェイクと呼ばれる技術が問題視されています。ディープフェイクとは、ディープラーニング技術を用いて人工的に作成された合成映像や音声、文章などのメディアコンテンツを指します。

今回は、生成AI技術を正しく理解し、利用するために、動画生成AIの「現在」について詳しく探っていきたいと思います。

2023年4月、SNSで世界中の注目を浴びた動画があります。「ウィル・スミスがパスタを食べる」姿を映したその動画は、動画生成AIで作成されたものでした。

当時Forbesが「‘Demonic’ AI-Generated ‘Will Smith Eating Spaghetti’ Clip Goes Viral」(「悪魔的」なAI生成の「ウィル・スミスがスパゲッティを食べる」動画が話題に)というタイトルで、この現象を取り上げました。

そのわずか10ヶ月後の2024年2月15日(米国時間)、OpenAIは画期的な動画生成AI「Sora」を発表しました。高品質な出力の結果に多くの人が新時代の到来を感じとったことは言うに及びません。

このように生成AIの進化のスピードは凄まじく、その用途は様々な分野に広がっています。

動画生成AIとは

動画生成AIは、テキストや画像を入力するとAIが自動的に新たな動画を生成する技術です。与えられた大量の画像や動画データを学習し、それをもとにしてテキストの指示(プロンプト)に沿った新しい動画を生成します。

動画生成AIの基本的な機能は以下の通りです。

Text to Video: テキストプロンプトから動画を生成する機能
Image to Video: 画像を基に動画を生成する機能
Video to Video: 既存の動画を基に新しい動画を生成する機能

さらに、様々な機能があります。

Motion Brush: 動画内の特定の動きを編集するためのツール
Camera Controls: カメラの動きやアングルを詳細に設定可能
Lip Sync: キャラクターに音声を同期させる機能
Expand Canvas: 動画のフレームを超えて、シーンを拡張する機能
Extend Video Length: 動画の長さを自由に調整する機能

このように、基本的な機能と共に様々な機能が追加されることで、動画をより自由に希望に沿った形で生成することが可能になっています。

動画生成AI技術は急速に進化しており、多くの企業がこの分野に参入して競争が激化しています。2024年2月にOpenAIがSoraを発表したことでこの技術への注目がさらに高まり、他の様々な企業も独自の動画生成AIサービスの開発やリリースを加速させています。

それでは、代表的な動画生成AIを最新ニュースと併せて確認していきましょう。

代表的な動画生成AI

Runway

「Runway」はアメリカのテック企業Runway AIによって開発されたツールです。創造的なアプリケーションのために設計された高度なAIモデルを提供しており、特に映像制作やエンターテインメント業界での利用が期待されています。

最新モデルの「Gen-3 Alpha」はRunwayの技術をさらに進化させています。このモデルは、複雑なシーンの変化や映画的な選択肢、詳細なアートディレクションを可能にしています。また、ビデオとイメージを統合的にトレーニングすることで、より高精細で制御可能なビデオ生成を実現しています。これにより、ユーザーはより柔軟かつ高品質な動画を制作できます。

●2024年7月9日 CGWORLD.JP
Runwayの動画生成AI「Gen-3 Alpha」が有料プランユーザー向けに公開! プロンプト作成のチュートリアル動画も用意
●2024年8月6日 WEEL
Runway、AI生成ビデオ「Gen-3 Alpha」新機能を発表

Pika

「Pika」はアメリカのPika Labsによって開発されたツールで、2023年12月に正式にサービスが開始されました。最大の特徴は、ユーザーが簡単なテキスト入力やプロンプトを使用するだけで、高品質かつ創造的な動画を生成できる点です。

Pikaの技術力と市場潜在力が評価され、2024年6月5日にPika LabsはシリーズB資金調達で8000万ドル(約126億円)を獲得しました。この大規模な資金調達は、動画生成AI市場における「 Pika」の位置づけが一層強化されました。

●2024年6月24日東洋経済ONLINE
｢中国系頭脳｣が"米国に流出"生成AIの熾烈な争い動画生成｢Pika｣は華人･華僑の女性達が起業

Dream Machine

「Dream Machine」はアメリカのスタートアップLuma Labsによって開発されたツールで、テキストや画像を入力として使用し、高品質な動画を生成できます。同社は2024年1月10日に3Dモデル生成AI「Genie 1.0」をリリースしました。このツールの特徴は、テキストプロンプトから3Dモデルを生成できる点です。

●2024年2月8日 AI Tech
Luma AIテキストから3Dモデルを作れる新機能「GENIE」を使ってみた!
●2024年7月24日 ATPARTNERS
AIビデオ生成Luma AIの新機能「Loops」がデジタルマーケティングを変革

Stable Video

「Stable Video」を開発したStability AIは2020年にイギリスで設立されたAIスタートアップ企業で、生成AI技術の開発に特化しています。同社は画像生成AI「Stable Diffusion」を提供した企業として広く知られています。

Stability AIの革新的な取り組みは動画生成の分野にも及んでいます。同社が開発した「Stable Video Diffusion」は、画像生成技術を動画に応用した最新のAIモデルです。注目すべき点は、このモデルが研究やその他の非商業的な目的のために、モデルコードおよび重みを含めて自由に利用可能となっていることです(【参考】「Stability AI 初のオープンビデオモデル」)。

●2024年7月25日 stability.ai
Stable Video 4D：ダイナミックなマルチアングル映像生成のための最新AIモデルを発表

Vidu

2024年8月4日、中国のスタートアップ企業「生数科技(Shengshu-AI)」が新たな動画生成AI「Vidu」をリリースしました。特筆すべき点は、最新のAI技術「U-ViT(Universal Vision Transformer)」を採用していることです。U-ViTは画像処理および動画処理タスクに特化したトランスフォーマーモデルで、高度な視覚認識能力を持っています。

この先進的な技術を基盤とすることで、Viduは最長16秒・解像度1080Pの高画質動画を短時間で生成することが可能です。

●2024年8月5日 HowTo AI
テキストから動画生成! 動画生成AI「Vidu」グローバル公開

KLING

「KLING」は中国の大手ソーシャルメディア企業「快手(Kuaishou)」が開発した革新的なAIモデルです。最大の特徴は、テキストや画像から高品質な動画を生成できる点にあります。KLINGは最大2分間の1080p高画質動画を作成することが可能で、1秒間に30フレームという滑らかな動きを実現しています。

現時点でユーザーに毎日66クレジットが付与されるシステムを採用しています。これにより、ユーザーは日々無料で動画生成を試すことができ、KLINGの性能を体験する機会が提供されています。

●2024年7月26日 moomoo
快手は「Kling AI」のフルベータテストをグローバルユーザーに向けて展開し、モデルの機能を向上させました。

Sora

OpenAIが2024年2月15日に発表したSoraは、テキストプロンプトから最長1分間のリアルな動画を生成する革新的な技術です。特筆すべき特徴は単なる視覚表現にとどまらず、物理法則に基づいた正確なシミュレーションを実現できる点にあります。

Soraは物体やキャラクター、環境の物理的な動態を精密に再現できる、いわば「世界シミュレータ」としての機能を持つ動画生成AIと言えます。この高度な能力により高解像度画像生成や複雑なシミュレーション生成を実現し、世界中から注目を集めています。

2024年8月15日時点でSoraは一般公開されておらず一部の限られた人のみ使用できますが、その潜在的な可能性から多くの分野での応用が期待されています。

●2024年2月17日 NEWS PICKS
【特報】OpenAIが放つ異次元の新AI「Sora」徹底解説

Veo

Google DeepMindが開発した最先端の動画生成AI「Veo」が、2024年5月14日に開催された「Google I/O 2024」で発表されました。Veoはテキストや画像を入力することで、1分以上のフルHD動画を生成する革新的な技術です。

Veoの革新的な機能に加え、Googleはコンテンツの信頼性を高めるための重要な取り組みも発表しました。具体的には、Veoが生成したすべての動画に「SynthID」によるデジタルウォーターマークが埋め込まれることになります。

SynthIDは、Google DeepMindが開発したAI生成コンテンツ識別技術です。この技術は画像、動画、音声、テキストなど、様々な形式のAI生成コンテンツに適用可能で、人間の目には見えないが機械的に検出可能なウォーターマークを埋め込みます。これにより、コンテンツの出所追跡が可能になり、不正利用や偽造を防止できます。

SynthIDの導入はAI生成コンテンツの信頼性向上に大きく貢献すると期待されており、特に誤情報の拡散防止において重要な役割を果たすと考えられています。

●2024年5月14日 Google
New generative media models and tools, built with and for creators

動画生成AIの活用事例

動画生成AIは、すでに様々な分野で活用されています。いくつか活用事例を見ていきましょう。

パルコが画像生成AIを使ったキャンペーン広告を公開。モデルもすべてデジタルに

●2023年11月15日美術手帖
パルコが画像生成AIを使ったキャンペーン広告を公開。モデルもすべてデジタルに

PARCOは、2023年10月に生成AIを活用してホリデーキャンペーンのCMを制作しました。このCMではモデル撮影を行わず、生成AIで作成した人物を使用しています。さらに、グラフィックだけでなくムービー、ナレーション、音楽まですべてを生成AIで制作するという革新的なアプローチを採用しました。

この「PARCO HAPPY HOLIDAYS 2023」生成AI広告が、最先端の画像生成AIを活用しながらもパルコの広告の本質である「クリエイティブを追求」したことが評価され、デジタルメディア協会((略称AMD)主催(総務省後援)の「デジタル・コンテンツ・オブ・ジ・イヤー'23／第29回 AMD Award」で年間コンテンツ賞「優秀賞」を受賞しました(【参考】「「HAPPY HOLIDAYS広告」が、AMDアワードで「優秀賞」を受賞」)。

【出典】パルコグループブログ(https://www.parco.co.jp/blog/detail/?id=678)

米トイザらス、AI生成した動画広告が炎上 OpenAI「Sora」で作成

●2024年6月28日 Forbes JAPAN
米トイザらス、AI生成した動画広告が炎上 OpenAI「Sora」で作成

Soraで作成されたトイザらスの動画広告は多くの批判を受けました。その内容は動画生成AIで作成された映像は「一貫性に欠けており表現も不気味である」また、生成AIが子供向け商品のセールスに使用されることに批判的な意見が多いです(【参考】「「First Ever Brand Film Created with SORA」)。

【出典】Toysrus(https://www.toysrus.com/pages/studios)

OpenAIの動画生成AI「Sora」で制作された初の公式ミュージックビデオが公開

●2024年5月4日 HowTo AI
OpenAIの動画生成AI「Sora」で制作された初の公式ミュージックビデオが公開

2024年5月にライター兼ディレクターのポール・トリロが手掛けた、Sora技術を使用した世界初の公式ミュージックビデオが公開されました。このビデオはインディーミュージシャン「Washed Out」(アーネスト・ウェザリー・グリーン・ジュニア)の新曲「The Hardest Part」のプロモーション用に制作されたものです。

映像は連続したズームを特徴とする4分間の作品で、55個の異なるクリップを組み合わせて一貫したズームの錯覚を視覚的に体験できる内容となっています。この独創的なアプローチにより、Sora技術の可能性と創造性が存分に発揮されています。

【出典】YouTube(https://www.youtube.com/watch?v=-Nb-M1GAOX8)

ASMLが展開する革新的なブランドフィルム: AI技術で創り出された未来のビジョン

●2024年2月1日 I.AI
ASMLが展開する革新的なブランドフィルム: AI技術で創り出された未来のビジョン

半導体製造装置メーカーASMLは、2024年のブランドフィルムを生成型AI技術を活用して制作しました。このフィルムは、ASMLの高度なリソグラフィシステムと生成AI技術を組み合わせることで実現されました。具体的には、自然言語プロンプトから画像を生成するMidjourneyと、生成された画像をもとにオリジナル映像を作成するRunwayAIを使用しています。

制作過程では1,963のプロンプトから7,852枚の画像を生成し、それを編集して900を超えるコンピュータでレンダリングしました。最も難しいシーンであるアイザック・ニュートンの場面では、20回以上の試行を経て9,800枚以上のフレームが作成されました。

【出典】YouTube(https://www.youtube.com/watch?v=OPnCbbLYPV4)

ToolがRunwayで商業生産プロセスをどのように再構築しているか

●Runway
How Tool is reimagining the commercial production process with Runway

Toolはクリエイティブなコンテンツ制作を専門とするプロダクション会社です。同社は最新の生成AI技術を活用し、プロボクサーのアンソニー・ジョシュアを起用した広告キャンペーン「Forever is Made Now」を効率的に制作しました。このプロジェクトでは、AI搭載ツールと従来の制作手法を巧みに組み合わせることで、限られた時間と予算内で高品質のコンテンツを実現しました。具体的には、テキストから画像や音声を生成するAI技術や、Runwayなどの最新のクリエイティブプラットフォームを駆使し、制作期間を大幅に短縮しています。

【出典】runway(https://runwayml.com/customers/how-tool-is-reimagining-the-commercial-production-process-with-runway)

マクドナルドがWebCMに生成AI起用 AI美女がポテトセールを告知……しかし世間の評価は向かい風

●2024年8月19日 ITmedia AI＋
マクドナルドがWebCMに生成AI起用 AI美女がポテトセールを告知……しかし世間の評価は向かい風

日本マクドナルドは8月17日、公式XアカウントでAI技術を用いた16秒の広告動画を公開し、「マックフライドポテト」のセールを告知しました。この動画は「カルメン前奏曲」に歌詞を付けた楽曲をバックに、ポテトを持った女性のAIイラストが次々と表示される内容で、AIクリエイター「Kaku Drop 架空飴」が制作しました。動画は高いインプレッション数を記録しましたが、多くのユーザーからは「AIである必要性が感じられない」といった否定的な意見も寄せられています。

【出典】@McDonaldsJapan(https://x.com/McDonaldsJapan/status/1824732901985993214)

Adobe Premiere ProのAIを使用して編集ワークフローを強化

●Adobe
Adobe Premiere ProのAIを使用して編集ワークフローを強化

世界で利用されている動画編集ソフト「Adobe Premiere Pro」においても動画生成AIの活用が期待されており、「生成拡張」「オブジェクトの追加と削除」「ジェネレーティブ B ロール」の機能が追加予定とされています。公式HPの動画中でサードパーティーモデルとして紹介されているのが「OpenAI」「Runway」「Pika」です。Adobeはイメージング、ビデオ、オーディオ、3Dなど、自社が深い専門知識を持つ分野で「Firefly AI 」モデルの開発を継続し、これらのモデルを「Creative Cloud 」と「 Adobe Express 」に統合していきます。

このように、デザインや創作の分野においても生成AIの活用は一般的になっていくことが予想されます(【参考】「「Adobe Previews Breakthrough AI Innovations to Advance Professional Video Workflows Within Adobe Premiere Pro」)。