
Googleの最新の研究プロジェクト「Lumiere」は、AIによるビデオ生成の分野で革新的な進歩をもたらし、日本でも大きな注目を集めています。Lumiereは、最大5秒の長さの非常にリアルな、または高品質のシュールなビデオクリップを作成できます。静止画、またはその一部だけをアニメーション化して、見たいものに関する自然言語のテキストプロンプトに応答できます。
「Lumiere」は、従来のビデオモデルと異なる新しいアプローチを採用し、リアリズムと多様性を兼ね備えた映像生成を可能にします。まずは、下記のサンプルを見てください(Google掲載のものは動いています)。

その詳細について、以下で解説します。
Lumiereは、テキストからビデオへの変換を行う拡散モデルであり、30万本のビデオデータセットとそれらのテキストキャプションを学習素材として使用しています。このモデルは、スペースタイムU-Netアーキテクチャに基づき、従来のビデオモデルが苦労していた大域的な時間的一貫性の維持を実現しています。一般的なビデオモデルは、空間的に離れたキーフレームを生成し、その後に時間的スーパーリゾリューションを用いてそれらを結合しますが、Lumiereはビデオ全体の時間的持続を一度に生成することで、動きの連続性と流動性を高めています。


Lumiereは、以下のような様々な機能を持っています:
- テキストからビデオへの変換:自然言語のプロンプトに基づいて動画を生成します。
- 画像からビデオへの変換:静止画をビデオに変換することができます。
- スタイリッシュな生成:単一の参照画像を使用してターゲットスタイルのビデオを生成します。
- ビデオインペインティング:テキストプロンプトに基づいて、既存のビデオの任意のマスクされた領域をアニメーション化します。
- シネマグラフ:画像の一部を静止させつつ、他の部分に動きを加えることができます。
これらの機能は、ビデオ編集、オブジェクトの挿入・除去、スタイリングなど、多岐にわたる創造的な用途に適しています。また、Lumiereの出力をオフ・ザ・シェルフのビデオフィルタリング技術に直接フィードすることで、時間的に一貫した方法で完全なクリップをスタイリングすることも可能です。
現段階では、Lumiereは研究プロジェクトとしての位置づけであり、より広範な使用に向けたリリースは、様々なポリシー上の考慮事項を解決する必要があるかもしれません。今後の動向に注目が集まっています。
参照元:GoogleReserch
監修者のコメント:AIを活用したニュースベースのまとめです。