LLMの評価用ベンチマークを公開しているサイトを3つ紹介します!
LLMのベンチマークに使わているデータセットはいくつかあります。基本的にベンチマークのデータセットは公開された後、継続してベンチが打たれることはなく、それぞれの開発者が評価に用いたり、その結果を公表したりします。今回はベンチマークの解説はさており、複数モデルを比較したベンチマークを公開しているサイトを集めました⚽
ベンチマークデータセットの解説は別途行います🎵
【Elyza】ELYZA-tasks-100 評価結果シート
まずElyza社のELYZA-tasks-100でのベンチマークを紹介させていただきます。
■サイトURL
(https://huggingface.co/datasets/elyza/ELYZA-tasks-100にある評価結果シートへのリンクが上記URL)
■評価に使うベンチマークテスト
ELYZA-tasks-100
■評価上位のLLM
- ELYZA-japanese-Llama-2-70b
- GPT
- gemini
- chat-bison
- claude
- Swallow
- karakuri-lm-70b-chat-v0.1
■評価内容について
Elyza-Task-100は、”選択式問題による簡単な正誤判定”と”自由回答によるGPT4を使った評価と、GPT4の気まぐれによる評価の揺れ”に対応した「自由回答だが、GPT4で、しかもLLMの気まぐれが少ない」いい感じのデータセットです。以下のように各問題に評価基準が付与されています
問題
ガラスを使い捨てライターで炙ったら燃えますか?
正解
一般的にガラスは不燃物であり燃えません。
燃焼とは物質が熱と光を発生しながら酸化することであり、ガラスは酸化しにくい物質であるため燃えません。
一方でガラスを炙ると一部のみが熱により膨張し、割れることがあります。
回答基準
– 燃えると答えた: 1点になる
– 燃えないと答えたが、溶けるなどの誤った情報を含む回答: 3点になる
– 燃えない、という回答のみ: 4点になる
– 燃えないことを示したうえで、なぜ燃えないのかなど、この質問をしたユーザーの役に立つ回答も出来ている: 5点になる
といった形です。採点基準があることで、正誤判定以上に、LLMの在り方を評価しようとしています。
個人的には”LLMの良さ”を一番表している直観的なベンチマークです!nejumiリーダーボードのほうが有名かもしれませんが、私は”LLMを評価する”という観点では、このELYZA-Tasks-100が現状もっともよいなと思っています♪
【wandb】nejumi-LLM-Neoベンチマーク
wandbの機能でベンチマークの結果を送ります。推論や評価はローカル環境で行います。
■サイトURL
■評価に使うベンチマークテスト
- llm-jp-eval
- mt-bench
■評価上位のLLM
- GPT
- Claude
- mistral
- gemini
- Swallow
- Elyza
- rinna
■評価内容について
llm-jp-evalはLLMのタスク性能を測ります。
llm-jp-evalの例
質問:電子機器で使用される最も主要な電子回路基板の事をなんと言う?
選択肢:0.掲示板,1.パソコン,2.マザーボード,3.ハードディスク,4.まな板
llm-jp-evalが高いLLMほど、こういったクイズ形式で正確な問題を回答できる形になります。
一方、「電子機器で使用される最も主要な電子回路基板を何という?」のようなオープンクエスションの評価は行われていません。そのため、llm-jp-evalはLLMのチャット性能にはあまりフォーカスしていないベンチマークになります。
mt-benchは、「マルチターン(multi-turn)」のmtで、対話形式での性能評価を行う80件のデータセットです。質問の例は以下です。
mt-benchの例
[“以下の映画のレビューを1から5のスケールで評価してください。1は非常に否定的、3は中立、5は非常に肯定的とします:
1. 2019年11月18日に公開されたこの映画は素晴らしい。撮影、演技、プロット、すべてが一流でした。
2. 映画にこんなに失望したことは今までにない。ストーリーは予測可能で、キャラクターは一次元的だった。私の意見では、この映画は2022年に公開された映画の中で最悪の一つだ。
3. 映画はまあまあだった。楽しめた部分もあったが、物足りないと感じた部分もあった。これは2018年2月に公開された、かなり平凡な映画のようだ。
答えを整数のJSON配列として返してください。”, “公開日をJSONコンテンツの一部として含め、前の回答を更新してください。”]
マルチターンですので、1個目と2個目の質問がセットになっていますね。
かなり多くのモデルが評価されており、とても見やすいです!新しいモデルも積極的にベンチされており、信頼感高いです!wandbはLLMを開発しておらず、第3者による評価というのも素敵です✨
【rinna】独自評価サイト
Stability-AI/lm-evaluation-harnessでの評価結果が掲載されています。
■サイトURL
■評価に使うベンチマークテスト
lm-evaluation-harness
■評価上位のLLM
- rinna/nekomata-14b-instruction
- stabilityai/japanese-stablelm-instruct-beta-70b
- meta-llama/Llama-2-70b-hf
- tokyotech-llm/swallow-13b-instruct
このあたりです。Elyza系は載せていませんでした。
■評価内容について
lm-evaluation-harnessもJGRUEを内包しており、llm-jp-evalと内容は似ています。流暢な日本語性能よりも、タスクの性能を測る形で、この上位に来るモデルほどタスク精度が高いと思われます。
一方、出力形式を守ってくれない/やたら長く話すなど、チャットの性能は測れていないかなという印象です。
情報収集の際に発見してしまいました♪ スコアの高い順に色付けもしてあり、比較しやすいですね。
終わりに
LLM作って、公開されるタイミングだとどのモデルも「最高性能」とか「最高水準」とか言います。
こういったベンチマークサイトにあるモデルは少し安心して活用できますね🍳