
今回は、マイクロソフトの研究者たちが開発したステアリングという技術について紹介します。この記事は、AIのフロンティアモデルにおける新たなプロンプティング戦略に焦点を当てています。これらの戦略は、一般的なGPT-4モデルを専門家のように特定のドメインで優れた性能を発揮させることができるものです。この記事は、マイクロソフトの公式サイトに2023年12月12日に掲載された以下のURLの内容を参考にしたものです。
ステアリングとは何でしょうか。ステアリングとは、プロンプティングという手法を拡張したものです。プロンプティングとは、自然言語処理モデルに対して、入力文や出力文に特定の単語や記号を加えることで、モデルの振る舞いを変えることができる手法です。例えば、文章要約や文章生成などのタスクを行う際に、入力文や出力文に「要約:」や「生成:」という単語を付け加えることで、モデルがそのタスクに適した出力を生成するようになります。
しかし、プロンプティングには限界もあります。プロンプティングでは、モデルが生成する出力の内容や形式を細かく指定することができません。例えば、文章生成の際に、出力文の長さや文体やトーンなどを制御することができません。また、モデルが生成する出力が正しいかどうかを確認することもできません。
そこで、マイクロソフトの研究者たちは、ステアリングという技術を開発しました。ステアリングでは、プロンプティングに加えて、モデルが生成する出力に対してフィードバックを与えることで、出力をより柔軟に制御することができます。フィードバックは、自然言語で書かれたコメントや評価などであり、モデルが生成した出力に対して好意的なものや否定的なものや中立的なものなどがあります。例えば、「この文章は長すぎます」というコメントや「この文章は面白くありません」という評価などです。これらのフィードバックを与えることで、モデルはそのフィードバックに応じて出力を修正したり改善したりすることができます。
フロンティアモデルは、知識と専門知識の多くの領域で抽象化、一般化、合成の能力を持っています。AI研究者たちも、シンプルなゼロショットのプロンプトでこれらのモデルを操作できる能力に感銘を受けています。この記事では、新しいプロンプティング戦略に焦点を当て、Medpromptなどのアプローチを紹介します。これらの戦略はGitHub上のpromptbaseというリソースコレクションで提供されています。私たちの目標は、エンジニアと顧客に基盤モデルから最高のパフォーマンスを引き出すための情報とツールを提供することです。
ステアリングには下記の手法が用いられました。
- フロンティアモデルの操縦:フロンティアモデルとは、多くの知識や専門分野において抽象化、一般化、統合などの能力を持つ大規模な言語モデルのことです。これらのモデルは、ゼロショットやフューショットのプロンプトによって様々なタスクに適応できます。プロンプトとは、モデルに入力する文や質問のことです。
- Medpromptとpromptbase:Medpromptとは、医療分野のタスクに特化したプロンプト設計法のことです。Medpromptは、複数のプロンプトをアンサンブルし、モデルの出力の信頼度を考慮して最終的な回答を決定します。promptbaseとは、GitHub上に公開されたプロンプトの技術やツールの集まりです。promptbaseでは、Medpromptの他にも様々なプロンプト戦略を紹介しています。
- MMLUベンチマークでのSoTA:MMLUとは、基礎数学から歴史、法律、コンピュータサイエンス、医学など57の分野にわたる数万の問題を含む、大規模な言語理解のベンチマークです。GPT-4というフロンティアモデルをMedprompt+という改良版のプロンプト法で操縦すると、MMLUで90.10%という最高のスコアを達成しました。Medprompt+は、単純なプロンプトと複雑なプロンプトを組み合わせて、モデルの信頼度に基づいて回答を選択する方法です。
ステアリングの効果は以下のグラフからも分かります。グラフは以下のURLから引用しました。
具体的な例として、GoogleがGemini Ultraの評価に選んだベンチマークでの最新の成果を紹介します。Measuring Massive Multitask Language Understanding(MMLU)チャレンジは、大規模言語モデルの一般的な知識と推論能力をテストするために設定されました。このベンチマークには、基本的な数学からアメリカの歴史、法律、コンピュータサイエンス、エンジニアリング、医学など、57の異なる領域から成る数万の問題が含まれています。
私たちのMedprompt研究では、医療の課題に焦点を当てましたが、そのプロンプト戦略はより一般的な用途にも適用できることがわかりました。医療の課題に基づいているものの、他のドメインのベンチマークでもその性能を評価しました。結果として、GPT-4を修正したMedpromptのバージョンで、MMLU全体で過去最高のスコアを達成したことを報告しています。
この記事は、プロンプティング戦略の力を示すものであり、GPT-4のような一般的なモデルが特定のドメインで専門家並みの性能を発揮できることを示しています。URLの内容に敬意を払いつつ、記事独自の結論として、プロンプティング戦略は基盤モデルの能力を最大限に引き出すための重要な手段であると言えるでしょう。
この記事は、マイクロソフトの公式サイトに掲載された以下のURLの内容を参考にしたものです。
このURLには、ステアリングに関する詳細な説明や実験結果やデモなどがあります。興味のある方はぜひご覧ください。
監修者のコメント:原文を日本語に翻訳して確認した上で、複数の生成AIの内容を使って記事を合成しています。しかし、元のブログの記事に掲載されている数字をカバーできていないので、正確な情報を得るためには、オリジナルの内容を合わせて参照してください。