Gadget Stream Online

マルチモーダルAIは面白さ重視で動画を作り出す!? Google VideoPoetの研究成果を紹介

gds-master + AI

「gdsマスター」は出版業界で編集者のキャリアを経て、コンテンツ制作の仕事をしている記事制作の専門家です。記事はAIによる自動生成ではなく、「gdsマスター」の手によるキュレーションと編集、AIとコラボレーションした執筆によって制作・配信しています。

AIによるビデオ生成への取り組みも急速に進んでいます。Googleは2023年12月19日、GoogleReserchブログにてVideoPoet: ゼロショットビデオ生成のための大規模言語モデルという記事を投稿しました。

まず見て欲しいのが、その動画の出来栄えです。

GoogleReserchブログより引用。

なんといういか、今までないタイプの動画生成ですよね。これはGoogleが得意とする、これにはテキストからビデオへの変換、画像からビデオへの変換、ビデオのスタイル設定、インペインティングとアウトペインティング、ビデオからオーディオという変換に成果です。

この記事は、Google リサーチのソフトウェアエンジニア、Dan KondratyukとDavid Rossによって書かれ、ビデオ生成モデルに関する最新の進展に焦点を当てています。

ビデオ生成の現状と課題

  • 現在のビデオ生成モデル: 美しい画質を持つビデオ生成モデルが登場していますが、これらのモデルは主に小さな動きを生成することに特化しており、大きな動きを生成する際にはアーチファクトが生じる傾向があります。

VideoPoetの概要

  • 大規模言語モデル(LLM): VideoPoetは、さまざまなビデオ生成タスクを実行できる大規模言語モデルです。これにはテキストからビデオへの変換、画像からビデオへの変換、ビデオのスタイル設定、インペインティングとアウトペインティング、さらにビデオからオーディオへの変換が含まれます。
  • LLMの利点: 異なるモダリティ(言語、コード、オーディオなど)をまたぐ強力な学習能力が特徴です。VideoPoetでは、これらの機能を単一のLLM内で統合しています。

ビデオジェネレータとしてのLLMの活用

  • トレーニングの利点: 既存のLLMトレーニングインフラストラクチャを利用することで、効率の向上が図られています。
  • ビデオとオーディオトークナイザー: ビデオクリップとオーディオクリップを離散トークンのシーケンスとしてエンコードし、それを元の表現に変換し直す能力を持っています。
  • マルチトークナイザー: VideoPoetは複数のトークナイザーを活用しています(例:MagVit V2ビデオと画像用、SoundStreamオーディオ用)。

VideoPoetのタスク設計

  • モダリティ間の変換: ビデオ生成のための異なる入力(テキスト、画像、ビデオ)と出力(ビデオ、オーディオ)を処理することで、異なるモダリティ間での変換が可能です。

生成されたサンプルの例

サンプル例も引用します。GoogleReserchブログより引用。

  • テキストからビデオへ: 可変長のビデオ出力が可能で、テキストコンテンツに応じて様々なモーションとスタイルを適用できます。
  • 画像からビデオへ: 入力画像にモーションを適用し、プロンプトでアニメーション化することが可能です。
  • ビデオのスタイライズ: オプティカルフローと深度情報を予測し、追加の入力テキストを用いてビデオにスタイルを適用します。
  • オーディオ生成: ビデオからオーディオへの変換が可能で、テキストガイダンスを使わずにオーディオを予測することもできます。

つまり写真から映像化して、更に動きの指示もできます。

高度な機能

  • 長い動画の生成: VideoPoetは、ビデオの最後の1秒を条件付けし、次の1秒を予測することで、より長いビデオを生成する能力を持っています。
  • インタラクティブなビデオ編集: 既存のビデオクリップを編集し、オブジェクトの動きを変更して新しいアクションを実行できます。

カメラモーションの制御

  • テキストプロンプトを使用して、カメラの動きを精密に制御することができます。

評価結果

  • ベンチマークによる評価: テキストからビデオへの生成に関する様々なベンチマークを用いて、VideoPoetを評価しました。評価では、テキスト忠実度やモーションの面白さにおいて、VideoPoetが他のモデルよりも好まれることが示されました。

結論と今後の方向性

VideoPoetは、ビデオ生成において高品質かつ興味深い動きを作り出す能力を示し、この分野における重要な進歩を表しています。なかでも動きの面白さに対する強い評価は、ビデオ生成技術が単なる技術的精度を超え、クリエイティブな表現とストーリーテリングの可能性を広げていることを示しています。この進展は、将来的には「any-to-any」生成(例えば、テキストからオーディオ、オーディオからビデオ、ビデオキャプションなど)のサポートにつながる可能性があり、ビデオ生成の応用範囲を大きく拡大することが期待されます。面白いコンテンツ制作、或いは短期的には広告などには特に通用しそうな内容ですね。

監修者コメント:Googleのリサーチブログの発表なので技術的な内容メインですが、学生時代に「面白さとはなにか」という部分に興味を持っていた自分にはインパクト絶大。この記事は導入の自分で執筆して、あとはAIによる要約中心に構成、更に一部自分の意見も取り入れてと、いくつもの手段を組み合わせて制作しました。なお、オリジナルのブログには概念図やより多くのサンプルの動画が掲載されているので是非見てみてください!