Gadget Stream Online

Phi-2: マイクロソフトによるわずか27億のパラメータ小規模言語モデルの驚くべき力

gds-master + AI

「gdsマスター」は出版業界で編集者のキャリアを経て、コンテンツ制作の仕事をしている記事制作の専門家です。記事はAIによる自動生成ではなく、「gdsマスター」の手によるキュレーションと編集、AIとコラボレーションした執筆によって制作・配信しています。

Microsoft Researchは小規模な言語モデル「Phi-2」をリリースしました。このモデルは、わずか27億のパラメータを持ちながら、驚くべき推論能力と言語理解能力を示しています。Phi-2は、機械的な解釈可能性、安全性の向上、さまざまなタスクでの微調整実験などの探求に適しているため、Azureモデルカタログで利用可能です。

Phi-2の特徴

  1. コンパクトなサイズ: Phi-2は、わずか27億のパラメータを持つ小規模な言語モデルです。大規模なモデルと比較して、Phi-2は軽量でありながら高い性能を発揮します。この特性は、リソース制約のある環境やエッジデバイスでの利用に適しています。
  2. モデルのスケーリングとトレーニングデータの最適化: Phi-2は、モデルのスケーリングとトレーニングデータの最適化に新しいアプローチを採用しています。これにより、Phi-2は多様なタスクで優れた性能を発揮できます。特に、自然言語処理タスクにおいて、Phi-2は高い精度を維持しながらも計算コストを削減します。
  3. 言語理解能力の向上: Phi-2は、テキストの意味理解においても優れた性能を発揮します。文脈を考慮した推論や意味の抽出において、Phi-2は高い精度を維持します。これは、情報検索、質問応答、対話システムなどのアプリケーションにおいて有用です。

Phi-2の性能

Phi-2は、基本モデルの中で最先端の性能を示しています。その推論能力と言語理解能力は、研究者や開発者にとって非常に興味深いものです。Phi-2は、機械学習の分野で新たな可能性を切り拓いています。

Microsoft Researchが開発した小規模な言語モデル「Phi-2」は、次の方法でトレーニングされました1

モデルの概要:

  • Phi-2はTransformerベースのモデルであり、次の単語予測を目的としています。
  • トレーニングには合成データとウェブデータの合計1.4兆トークンが使用されました。
  1. トレーニングプロセス:
    • Phi-2は96台のA100 GPUを使用して14日間にわたってトレーニングされました。
    • トレーニングプロセスは高い安全性を維持することに焦点を当てており、毒性や偏見の観点でオープンソースモデルを上回ることを主張しています。
  2. 性能と効率:
    • Phi-2は、わずか27億のパラメータを持ちながら、競合する大規模モデルを凌駕しています。
    • トレーニングプロセスは効率的であり、14日間で1.4兆トークンを処理しています。

Phi-2は、小規模な言語モデルとして驚くべき能力を持っており、研究者や開発者にとって有望な選択肢となっています。1

結論

Phi-2は、小規模な言語モデルとして驚くべき能力を持っており、研究者や開発者にとって有望な選択肢となっています。このモデルは、機械学習の進歩に寄与することで、自然言語処理の分野に新たな展望をもたらすことでしょう。

監修者のコメント:小型モデルはローカル動作も可能で興味深いですね。記事は、Microsoftの公式の発表内容に基づいた記事を複数組み合わせて生成しています。データ参照元のリンクも掲載されているので、そのまま記事にします。