【Metaの新LLM】Llama3とは?【Llama2との違いは?】

LLM

こんにちは!みうです!

Metaから新しいOSSのLLM、Llama3が公開されました!

こちらについて、公開されている情報を解説します!

公式のページ

meta社の解説

https://ai.meta.com/blog/meta-llama-3/

Huggingface

meta-llama/Meta-Llama-3-8B · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.

Llama2からの違いは?

結論から言うと、LLMあまり大きな違いはないようです。

私の感覚だとマイナーチェンジ。GPT4-1106から、GPT4-0125にアップデート、位の印象を受けました⚾️

では、具体的な変更点を見てみましょう

①学習データの増強、高品質化

ここがいちばん大きな変更点のようです!

  • 事前学習において、Llama2の時の7倍、コードは4倍多く含まれる
  • 英語以外の言語も積極的に構成(ただ、英語ほどの性能は出ない)
  • 高品質なSFT(チャット形式の学習データ)
  • PPOとDPO(強化学習による出力傾向の調整)

学習データ自体は公開されておらず、地味な変化ではあるのですが、精度には抜群に貢献する変化です🍎

②モデルアーキテクチャの変更

モデルアーキテクチャは、以下の2点が変更点のようです。

  • Grouped Query Attention(GQA)の(継続)採用
  • Tokenizerに新規トークンを追加

GQAはLlama2でも採用されていた効率的にattention計算する機構です。

Tokenizerと併せてどちらも、性能をあげると言うより、コスパ良く推論することを重視しているようです

公式サイトには、モデルアーキテクチャとありますが、結局はそこまで大きな変更ではないようです

英語性能

高いらしいです!

ただ私の知識だとこのベンチマークがどうなのかは分かりません。また、GPT4とも比較しておらず、おそらく比較の上で負けているため、意図的に公開していない比較なのかなと思います。

日本語性能は?

これは、想定通り、このままだと微妙そうです。

Hugging chatの画面

日本語で質問しても英語で返答してしまいます。これはSFTのデータが英語に偏っていることが原因です。

日本企業による日本語追加学習が楽しみですね♪

Meta社の今後の予定

以下の内容は現在作成中だそうです。

  • 長文化
  • 新機能(画像の読み込みなど?)
  • 別のパラメータのモデル(MoE形式など?)

は今後発表予定との事です!

タイトルとURLをコピーしました