【LLM評価】日本語LLMの日本語評価を公開しているサイト3選📄

LLM

LLMの評価用ベンチマークを公開しているサイトを3つ紹介します!

LLMのベンチマークに使わているデータセットはいくつかあります。基本的にベンチマークのデータセットは公開された後、継続してベンチが打たれることはなく、それぞれの開発者が評価に用いたり、その結果を公表したりします。今回はベンチマークの解説はさており、複数モデルを比較したベンチマークを公開しているサイトを集めました⚽

ベンチマークデータセットの解説は別途行います🎵

【Elyza】ELYZA-tasks-100 評価結果シート

まずElyza社のELYZA-tasks-100でのベンチマークを紹介させていただきます。

■サイトURL

ELYZA-tasks-100 評価結果シート
2024-03-12 評価結果 input(入力),output(正解例),eval_aspect(評価観点),elyza/ELYZA-japanese-Llama-2-70b,eval_elyza/ELYZA-japanese-Llama-2-70b,eval_elyza/ELYZA-japanese-Llama...

(https://huggingface.co/datasets/elyza/ELYZA-tasks-100にある評価結果シートへのリンクが上記URL)

■評価に使うベンチマークテスト

ELYZA-tasks-100

■評価上位のLLM

  • ELYZA-japanese-Llama-2-70b
  • GPT
  • gemini
  • chat-bison
  • claude
  • Swallow
  • karakuri-lm-70b-chat-v0.1

■評価内容について

Elyza-Task-100は、”選択式問題による簡単な正誤判定”と”自由回答によるGPT4を使った評価と、GPT4の気まぐれによる評価の揺れ”に対応した「自由回答だが、GPT4で、しかもLLMの気まぐれが少ない」いい感じのデータセットです。以下のように各問題に評価基準が付与されています

問題

ガラスを使い捨てライターで炙ったら燃えますか?

正解

一般的にガラスは不燃物であり燃えません。
燃焼とは物質が熱と光を発生しながら酸化することであり、ガラスは酸化しにくい物質であるため燃えません。
一方でガラスを炙ると一部のみが熱により膨張し、割れることがあります。

回答基準

– 燃えると答えた: 1点になる
– 燃えないと答えたが、溶けるなどの誤った情報を含む回答: 3点になる
– 燃えない、という回答のみ: 4点になる
– 燃えないことを示したうえで、なぜ燃えないのかなど、この質問をしたユーザーの役に立つ回答も出来ている: 5点になる
といった形です。採点基準があることで、正誤判定以上に、LLMの在り方を評価しようとしています。

個人的には”LLMの良さ”を一番表している直観的なベンチマークです!nejumiリーダーボードのほうが有名かもしれませんが、私は”LLMを評価する”という観点では、このELYZA-Tasks-100が現状もっともよいなと思っています♪

【wandb】nejumi-LLM-Neoベンチマーク

wandbの機能でベンチマークの結果を送ります。推論や評価はローカル環境で行います。

■サイトURL

Weights & Biases
Weights & Biases, developer tools for machine learning

■評価に使うベンチマークテスト

  • llm-jp-eval
  • mt-bench

■評価上位のLLM

  • GPT
  • Claude
  • mistral
  • gemini
  • Swallow
  • Elyza
  • rinna

■評価内容について

llm-jp-evalはLLMのタスク性能を測ります。

llm-jp-evalの例

質問:電子機器で使用される最も主要な電子回路基板の事をなんと言う?

選択肢:0.掲示板,1.パソコン,2.マザーボード,3.ハードディスク,4.まな板

llm-jp-evalが高いLLMほど、こういったクイズ形式で正確な問題を回答できる形になります。

一方、「電子機器で使用される最も主要な電子回路基板を何という?」のようなオープンクエスションの評価は行われていません。そのため、llm-jp-evalはLLMのチャット性能にはあまりフォーカスしていないベンチマークになります。

mt-benchは、「マルチターン(multi-turn)」のmtで、対話形式での性能評価を行う80件のデータセットです。質問の例は以下です。

mt-benchの例

[“以下の映画のレビューを1から5のスケールで評価してください。1は非常に否定的、3は中立、5は非常に肯定的とします:

1. 2019年11月18日に公開されたこの映画は素晴らしい。撮影、演技、プロット、すべてが一流でした。

2. 映画にこんなに失望したことは今までにない。ストーリーは予測可能で、キャラクターは一次元的だった。私の意見では、この映画は2022年に公開された映画の中で最悪の一つだ。

3. 映画はまあまあだった。楽しめた部分もあったが、物足りないと感じた部分もあった。これは2018年2月に公開された、かなり平凡な映画のようだ。

答えを整数のJSON配列として返してください。”, “公開日をJSONコンテンツの一部として含め、前の回答を更新してください。”]

マルチターンですので、1個目と2個目の質問がセットになっていますね。

かなり多くのモデルが評価されており、とても見やすいです!新しいモデルも積極的にベンチされており、信頼感高いです!wandbはLLMを開発しておらず、第3者による評価というのも素敵です✨

【rinna】独自評価サイト

Stability-AI/lm-evaluation-harnessでの評価結果が掲載されています。

■サイトURL

Research Team at rinna Co., Ltd.

■評価に使うベンチマークテスト

lm-evaluation-harness

■評価上位のLLM

  • rinna/nekomata-14b-instruction
  • stabilityai/japanese-stablelm-instruct-beta-70b
  • meta-llama/Llama-2-70b-hf
  • tokyotech-llm/swallow-13b-instruct

このあたりです。Elyza系は載せていませんでした。

■評価内容について

lm-evaluation-harnessもJGRUEを内包しており、llm-jp-evalと内容は似ています。流暢な日本語性能よりも、タスクの性能を測る形で、この上位に来るモデルほどタスク精度が高いと思われます。

一方、出力形式を守ってくれない/やたら長く話すなど、チャットの性能は測れていないかなという印象です。

情報収集の際に発見してしまいました♪ スコアの高い順に色付けもしてあり、比較しやすいですね。

終わりに

LLM作って、公開されるタイミングだとどのモデルも「最高性能」とか「最高水準」とか言います。

こういったベンチマークサイトにあるモデルは少し安心して活用できますね🍳

タイトルとURLをコピーしました