Google発の超リアルな動画生成AI「Lumiere」。テキストからビデオへ変換

2024年1月25日

gds-master + AI

「gdsマスター」は出版業界で編集者のキャリアを経て、コンテンツ制作の仕事をしている記事制作の専門家です。記事はAIによる自動生成ではなく、「gdsマスター」の手によるキュレーションと編集、AIとコラボレーションした執筆によって制作・配信しています。

Googleの最新の研究プロジェクト「Lumiere」は、AIによるビデオ生成の分野で革新的な進歩をもたらし、日本でも大きな注目を集めています。Lumiereは、最大5秒の長さの非常にリアルな、または高品質のシュールなビデオクリップを作成できます。静止画、またはその一部だけをアニメーション化して、見たいものに関する自然言語のテキストプロンプトに応答できます。

「Lumiere」は、従来のビデオモデルと異なる新しいアプローチを採用し、リアリズムと多様性を兼ね備えた映像生成を可能にします。まずは、下記のサンプルを見てください（Google掲載のものは動いています）。

その詳細について、以下で解説します。

Lumiereは、テキストからビデオへの変換を行う拡散モデルであり、30万本のビデオデータセットとそれらのテキストキャプションを学習素材として使用しています。このモデルは、スペースタイムU-Netアーキテクチャに基づき、従来のビデオモデルが苦労していた大域的な時間的一貫性の維持を実現しています。一般的なビデオモデルは、空間的に離れたキーフレームを生成し、その後に時間的スーパーリゾリューションを用いてそれらを結合しますが、Lumiereはビデオ全体の時間的持続を一度に生成することで、動きの連続性と流動性を高めています。