Gadget Stream Online

Google、早くもAIモデルの次世代Gemini 1.5を発表。まずはGemini 1.5 Proから。1.5 Proで1.0 Ultraと同レベル

gds-master + AI

「gdsマスター」は出版業界で編集者のキャリアを経て、コンテンツ制作の仕事をしている記事制作の専門家です。記事はAIによる自動生成ではなく、「gdsマスター」の手によるキュレーションと編集、AIとコラボレーションした執筆によって制作・配信しています。

Googleの次世代人工知能モデル「Gemini 1.5」の準備が整ったと発表しました。。このモデルは、Googleが先日発表した「Gemini 1.0 Ultra」というモデルの改良版で、さまざまなタスクに対応できるように最適化されています。2024年2月15日に発表されたこのモデルは、開発者や企業の顧客に限定的に提供されています

Gemini 1.5は、ビデオ、画像、音声、テキストなどのマルチモーダルなデータを処理できます。また、従来のモデルよりも効率的に学習し、品質を維持しながら、トレーニングとサービスを行うことができます。さらに、長期的な文脈の理解においても画期的な機能を持っています。このモデルは、最大100万トークンという巨大なコンテキストウィンドウを持ち、これまでの大規模な基盤モデルの中で最長のコンテキストウィンドウを達成しました。これにより、モデルは、膨大な量の情報を一度に処理し、より一貫性、関連性、有用性の高い出力を生成できます

なお、この記事ではAIで内容をまとめていますが、内容が膨大で専門性が高いので技術的な興味のある方は、発表を読むといいと思います。概要を知りたい人は太字のみ読むといいかもしれません

Gemini 1.5の特徴

Gemini 1.5は、TransformerとMixture-of-Experts(MoE)というアーキテクチャに基づいて構築されています。Transformerは、自然言語処理やコンピュータビジョンなどの分野で広く使われているニューラルネットワークの一種です。MoEは、より小さな「エキスパート」と呼ばれるニューラルネットワークに分割されたモデルで、与えられた入力の種類に応じて、最も関連性の高いエキスパートの経路のみを選択的に活性化することを学習します。この特殊化により、モデルの効率が大幅に向上します。

Gemini 1.5の最初にリリースされたモデルはGemini 1.5 Proです。これは中規模のマルチモーダルモデルであり、幅広いタスクにまたがってスケーリングできるように最適化されており、これまでで最大のモデルであるGemini 1.0 Ultraと同様のレベルでパフォーマンスを発揮します。Gemini 1.5 Proには、標準の128,000トークンのコンテキストウィンドウが付属していますが、一部の開発者や企業の顧客は、最大100万トークンのコンテキストウィンドウで試すことができます。

Gemini 1.5の性能

Gemini 1.5 Proは、テキスト、コード、画像、音声、ビデオなどの様々なモダリティに対して、高度な理解や推論のタスクを行うことができます。例えば、以下のようなことができます。

  • 402ページに及ぶアポロ11号のミッションの書き起こしを与えられたとき、会話や出来事や細部について推論できます。
  • 44分間の無声映画「バスター・キートンの蒸気船」を与えられたとき、様々なプロットポイントやイベントを正確に分析できます。また、映画の中で容易に見逃されるような小さな詳細についても推論できます。
  • 10万行以上のコードを与えられたとき、より関連性の高い問題解決のタスクを行うことができます。例えば、例や修正の提案やコードの動作についての説明を与えることができます。

Gemini 1.5 Proは、大規模な言語モデルの開発に用いられる包括的なパネルの評価において、Gemini 1.0 Proよりも87%のベンチマークで優れた結果を示しました。また、Gemini 1.0 Ultraと同じベンチマークで比較したとき、ほぼ同等のレベルで性能を発揮しました。Gemini 1.5 Proは、コンテキストウィンドウが大きくなっても高い性能を維持します。例えば、特定の事実や主張を含む小さなテキストが長いテキストの中に故意に埋め込まれたときに、そのテキストを見つけることができるかどうかを測るNeedle In A Haystack(NIAH)という評価では、Gemini 1.5 Proは、最大100万トークンのデータブロックの中で、99%の確率で埋め込まれたテキストを見つけることができました。

Gemini 1.5 Proは、インコンテキスト学習というスキルも持っています。これは、長いプロンプトに与えられた情報から新しいスキルを学習できるということです。これは、追加のファインチューニングなしに行うことができます。このスキルは、Machine Translation from One Book(MTOB)というベンチマークでテストしました。これは、モデルが今まで見たことのない情報からどのくらい学習できるかを示すものです。例えば、世界で200人以下の話者しかいないとされるカラマン語の文法書を与えられたとき、モデルは英語からカラマン語への翻訳を、同じ内容から学習する人間と同じレベルで行うことができました。Gemini 1.5 Proの長いコンテキストウィンドウは、大規模なモデルの中で初めてのものであるため、私たちはその新しい能力をテストするための新しい評価やベンチマークを継続的に開発しています。詳細については、Gemini 1.5 Proの技術レポートをご覧ください。

参照元:Google

監修者のコメント:ひとまず速報としてAIでまとめました。AIの最新アーキテクチャ、メモリ関連(更に入力から学習など)新機軸の機能盛りだくさんですね。技術的な興味のある方はオリジナルの発表を参照してください。