【LLM評価】LLMのベンチマークデータセットは何を評価している？【データの中身確認】

LLMの評価は難しいです。その中でもLLMを評価するためのベンチマークが公開されていますが、LLMの評価指標というのはよくわからないですよね。

この記事ではベンチマークの中のデータを覗いてみましょう🏈

とても長い記事になってしまったので、目次からジャンプしてみたい部分だけ確認することを推奨します♪

今回確認するデータセット
1. 最初に結論
【nejumiリーダーボード】llm-jp-eval
【nejumiリーダーボード】japanese-mt-bench
【rinna社のベンチマークサイト等】lm-evaluation-harness
【Elyza評価スプレッドシート】Elyza-task-100
rakuda-benchmark
まとめ

今回確認するデータセット

今回扱うのは

nejumiリーダーボードで扱っている、llm-jp-eval、mt-bench
llm-jp-evalが扱うJampやJaNLIなど16個のデータセット
Elyza-task-100
lm-evaluation-harnessで扱っているJGRUE
rakuda-benchmark

これらの実際のデータと、そのデータで値が高いことの意味をお伝えできればと思ってます♪

最初に結論

今回のまとめを見て、私の個人的な各データセットへの印象は以下です。

データセット名	データの品質	評価の品質	コメント
llm-jp-eval	★★☆	★☆☆	LLM以前の自然言語処理の評価で、参考にはなるが、LLMの腕試しとしてはfitしていなさそう
japanese-mt-bench	★★★	★★☆	マルチターンで入力のデータ品質は良いが、評価の方法を改善して適切にベンチしたい。
lm-evaluation-harness	★★☆	★☆☆	LLM以前の自然言語処理の評価で、参考にはなるが、LLMの腕試しとしてはfitしていなさそう
Elyza-task-100	★★☆	★★★	評価のクオリティはとても高く、目指すべきデータの形をしている。一方、データには少し偏りや意地悪な質問あり。
rakuda-benchmark	★★☆	★★☆	データはLLMで聞かれそうな質問だが、知識を問う性質が強い。また評価も相対評価でモデル間での比較がしづらい。要約やRAGの性質は測れない。

【nejumiリーダーボード】llm-jp-eval

■概要

llm-jp-evalでは、全部で12個の自然言語系のデータを組み合わせて構築されています。

カテゴリー	カテゴリーラベル	名前	評価指標
Natural Language Inference	NLI	Jamp	Exact Match
	NLI	JaNLI	Exact Match
	NLI	JNLI	Exact Match
	NLI	JSeM	Exact Match
	NLI	JSICK	Exact Match
Question Answering	QA	JEMHopQA	Char. F1
	QA	NIILC	Char. F1
Reading Comprehension	RC	JSQuAD	Char. F1
Multiple Choice question answering	MC	JCommonsenseQA	Exact Match
Entity Linking	EL	chABSA	Set F1
Fundamental Analysis	FA	Wikipedia Annotated Corpus	Set F1
Mathematical Reasoning	MR	MAWPS	Exact Match
Semantic Textual Similarity	STS	JSTS	Pearson/Spearman C

うわ。。。ってほどたくさんありますね。1個ずつ見ていきましょう！

参考にした論文

https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/A8-2.pdf

■URL

llm-jp-eval/DATASET.md at main · llm-jp/llm-jp-eval

Contribute to llm-jp/llm-jp-eval development by creating an account on GitHub.

Jamp(NLI)

Jampは含意関係認識を判定するタスクです。含意関係認識ってなんやねんって話ですよね
実際のプロンプトを見てみましょう

■実際の質問例

前提と仮説の関係をentailment、contradiction、neutralの中から回答してください。それ以外には何も含めないことを厳守してください。

制約：
– 前提から仮説が、時間関係上導出可能である場合はentailmentと出力
– 前提と仮説が両立しえない場合はcontradictionと出力
– そのいずれでもない場合はneutralと出力

前提：ボブは選挙に撤回を表明している。
仮説：ボブは現在選挙に撤回を表明している。
https://wandb.ai/wandb-japan/llm-leaderboard/reports/Nejumi-LLM-Neo–Vmlldzo2MTkyMTU0

といった形です。
entailment…含意
contradiction…矛盾
neutral…ニュートラル(含意)

「前提」から「仮説」が矛盾するか、しないか、これを判定するタスクになっています。

評価としてはこのentailment、contradiction、newtralが一致するかどうかを判定しています。

■実際にチャットしそう度

★☆☆☆☆

せめて、「この2文は矛盾していますか？」程度の聞き方なら良かったですね。実際の結果をみても、”entailment”と答えられていないから不正解というケースがちらほらあります。

JaNLI（NLI）

JaNLIも含意関係認識ですが、Jampよりも比較的シンプルなデータのようです。実際のプロンプトを見てみましょう。

■実際の質問例

前提と仮説の関係をentailment、non-entailmentの中から回答してください。それ以外には何も含めないことを厳守してください。

制約：
– 前提に対して仮説が同じ意味を含む場合は、entailmentと出力
– 前提に対して仮説が異なる意味を含む場合は、non-entailmentと出力

前提：カップルが学生を追い回した
仮説：学生をカップルが追い回した
https://wandb.ai/wandb-japan/llm-leaderboard/reports/Nejumi-LLM-Neo–Vmlldzo2MTkyMTU0

■実際にチャットしそう度

★☆☆☆☆

こちらもJampと同じで、実際にはあまり入力しない形式の入力データとなっていますね

JNLI(NLI)

JaNLIから、次はJNLIです。こちらも類似したデータセットになっています。

■実際の質問例

前提と仮説の関係をentailment、contradiction、neutralの中から回答してください。それ以外には何も含めないことを厳守してください。

制約：
– 前提から仮説が、論理的知識や常識的知識を用いて導出可能である場合はentailmentと出力
– 前提と仮説が両立しえない場合はcontradictionと出力
– そのいずれでもない場合はneutralと出力

前提：時計がついている場所にパブリックマーケットセンターとかかれた看板が設置されています。仮説：屋根の上に看板があり時計もついています。
https://wandb.ai/wandb-japan/llm-leaderboard/reports/Nejumi-LLM-Neo–Vmlldzo2MTkyMTU0

■実際にチャットしそう度

★☆☆☆☆

JSeM(NLI)

■実際の質問例

前提と仮説の関係をyes、no、unknown、undefの中から回答してください。それ以外には何も含めないことを厳守してください。

制約：
– 前提が仮説を含意する場合はyesと出力
– 前提が仮説の否定を含意する場合はnoと出力
– 前提が仮説を含意せず、その否定も含意しない場合はunknownと出力
– 与えられた情報のみからは判断ができない場合はundefと出力

前提：あっちの学校は校則が厳しいことで有名で、こっちの学校は自由な校風を売りにしている。
仮説：あっちの学校は校則が厳しいことで有名なので、こっちの学校は自由な校風を売りにしている。
https://wandb.ai/wandb-japan/llm-leaderboard/reports/Nejumi-LLM-Neo–Vmlldzo2MTkyMTU0

JampやJaNLIとはすこし違い、yes, no, unknown, undefを回答するようです。

■実際にチャットしそう度

★☆☆☆☆

JSICK(NLI)

■実際の質問例

前提と仮説の関係をentailment、contradiction、neutralの中から回答してください。それ以外には何も含めないことを厳守してください。

制約：
– 前提が真であるとき仮説が必ず真になる場合はentailmentと出力
– 前提が真であるとき仮説が必ず偽になる場合はcontradictionと出力
– そのいずれでもない場合はneutralと出力

前提：戸外で遊んでいる男の子は一人もおらず、微笑んでいる男性は一人もいない
仮説：子供たちのグループが庭で遊んでいて、後ろの方には年を取った男性が立っている
https://wandb.ai/wandb-japan/llm-leaderboard/reports/Nejumi-LLM-Neo–Vmlldzo2MTkyMTU0

私たち日本人がみてもちょっと悩んでしまいますね。

■実際にチャットしそう度

★☆☆☆☆

llm-jp-evalのNLIについて

これらのタスクは、Exact Match（=完全一致）で評価されています。そのため、

意味はあっていても日本語で答えたらNG
英単語を答えても「entailmentです」のように前後に何かつけたらNG
当然、「entailmentです。理由は」などのようにLLMでよくある回答理由などを発現してもNGになります。

Natural Language Inference (NLI)というタスクに含まれる5つを紹介しました♪
どれも複雑な日本語の性能を測ることが目的で、実際の応用するタイプのタスクではないかなという感想を持ちました。個人的には、ルー大柴風に、日本語文章に英単語を混ぜるのも少し違和感あります。

JEMHopQA（QA）

■実際の質問例

質問を入力とし、回答を出力してください。回答の他には何も含めないことを厳守してください。
質問：IPodを製作している企業の本社所在地は？
https://wandb.ai/wandb-japan/llm-leaderboard/reports/Nejumi-LLM-Neo–Vmlldzo2MTkyMTU0

答えはappleの本社所在地の「カリフォルニア州」だそうです。ちょっと難しですね😅

■実際にチャットしそう度

★★★★★

NIILC(QA)

■実際の質問例

質問に対する答えを出力してください。答えが複数の場合、コンマ（,）で繋げてください。

質問：初めてノート型パソコンを作ったメーカーは？
https://wandb.ai/wandb-japan/llm-leaderboard/reports/Nejumi-LLM-Neo–Vmlldzo2MTkyMTU0

答えは、「東芝」だそうです。私は知らなかったのですが、世界で初めてノートパソコンを作った企業だったんですね🎉

■実際にチャットしそう度

★★★★★

NIILCにあったちょっと理不尽なデータ

質問
東京オリンピックが開催されたのは何年？

正解
1964年

Elyza13Bの回答
1964年、2020年

厳密に言うとTOKYO2020は、2021年に開催されたので、2020年は誤りですが、でも今現在となっては、「1964年」が正解とはちょっと言いづらいですね😅

Question Answering (QA)

QAは、手持ちの知識から回答してほしい、というタスクで、Open QAとも言ったりします
私もChatGPTに質問することの多くはOpenQAで、質問内容はLLMに良く効く形式かなと思いました。

評価方法は「Char. F1」という形式です。ざっくり言うと「一致率」に近いかなと思います。F1による一致率の平均がQAのスコアとなっているようです。

私はLLMにはぜひOpenQAはある程度強くなってほしいと思っています。llm-jp-evalにおいてはQAは重要視したいテスト項目ですね🔑

JSQuAD(RC)

■実際の質問例

質問に対する回答を文章から一言で抽出してください。回答は名詞で答えてください。それ以外には何も含めないことを厳守してください。

文章：梅雨 [SEP] 梅雨（つゆ、ばいう）は、北海道と小笠原諸島を除く日本、朝鮮半島南部、中国の南部から長江流域にかけての沿海部、および台湾など、東アジアの広範囲においてみられる特有の気象現象で、5月から7月にかけて来る曇りや雨の多い期間のこと。雨季の一種である。
質問：梅雨とは何季の一種か?
https://wandb.ai/wandb-japan/llm-leaderboard/reports/Nejumi-LLM-Neo–Vmlldzo2MTkyMTU0

正解
雨季

Elyza13Bの回答
梅雨

Char. F1
0.5

Char. F1は文字の順番を考慮しません。そのため、4文字中、”雨”の2文字が一致しているので、0.5になっていますが、実際には回答は誤りですね
※実際には上記の計算ではありませんが、イメージ上は上記のような割合のイメージです。

■実際にチャットしそう度

★★★★☆

これは、いわゆるRAGに少し近い形式です。RAGとは以下の差があります。

多くの場合RAGは、wikipedia等のネット情報から答えられない質問をターゲットにします。そのため、「梅雨とは何季の一種か?」のような雰囲気で回答できる問題はあまりRAGの評価には適していません
RAGの場合は、参考情報が”もっと多くの情報”かつ”必ずしも正解が含まれてるとは限らない”という形で入力されます。

Reading Comprehension (RC)

LLMの有効な活用方法の1つがRAGであり、そのRAGを測るという意味では、このllm-jp-evalのRCは重要そうに思えます。一方以下の点が気になっています。

llm-jp-evalの質問文一覧

質問	回答
日本で梅雨がないのは北海道とどこか。	小笠原諸島
梅雨とは何季の一種か?	雨季
梅雨は、世界的にどのあたりで見られる気象ですか？	東アジアの広範囲
梅雨がみられるのはどの期間？	5月から7月にかけて
入梅は何の目安の時期か？	田植えの時期の目安
梅雨明けの別名を何というか。	出梅(しゅつばい)
シベリアから中国大陸にかけての広範囲を冷たく乾燥させる気団は？7	シベリア気団
冬の間、シベリア気団が覆っている範囲はどこか？	シベリアから中国大陸
冬の間、シベリアから中国大陸にかけての広範囲を覆うものは何気団か	シベリア気団
冬の間、シベリアから中国大陸にかけての広範囲を覆う冷たく乾燥した気団は?	シベリア気団

https://wandb.ai/wandb-japan/llm-leaderboard/reports/Nejumi-LLM-Neo–Vmlldzo2MTkyMTU0

梅雨とシベリア気団の質問しかないですね
参考文章読まなくても回答できそう

あたりが少し気になっています。JSQuADの問題ではなく、llm-jp-evalが一部データを抽出する際にこうなっているはずです。

RAGはとても有効なLLMのユースケースですので、RC自体は重要な評価項目です。一方nejumiリーダーボードにおいては気候的タスクに強いかどうかに少し引っ張られそうな形です⛈

JCommonsenseQA (MC)

■実際の質問例

質問と回答の選択肢を入力として受け取り、選択肢から回答を選択してください。なお、回答は選択肢の番号（例：0）でするものとします。回答となる数値をint型で返し、他には何も含めないことを厳守してください。

質問：電子機器で使用される最も主要な電子回路基板の事をなんと言う？
選択肢：0.掲示板,1.パソコン,2.マザーボード,3.ハードディスク,4.まな板
https://wandb.ai/wandb-japan/llm-leaderboard/reports/Nejumi-LLM-Neo–Vmlldzo2MTkyMTU0

■実際にチャットしそう度

★★☆☆☆

0-4で選択肢式の評価になっています。

Multiple Choice question answering (MC)

MCはexact matchでの評価であるため、数字で出力して、完全一致した場合のみ正解となります。

出力形式をきちんと守るかどうかが重要になりそうです。

質問自体は一般的でよくありそうな質問ですが、選択肢式というのは、実際の使い方としてはあまりないかもしれませんね。一方”数字で答えて”に対して正確に指示に従っているかどうかも同時に計測できそうです🍡

chABSA(EL)

■実際の質問例

質問

与えられた文章から固有表現で書かれたターゲットの名前を抽出し、それに対する極性をpositive、neutral、negativeの中から選択して下さい。固有表現で書かれたターゲットの名前と、それに対する極性（positive、neutral、negativeのいずれか）のペアをスペース（）で区切って出力し、それ以外には何も含めないことを厳守してください。答えが複数の場合、改行で繋げてください。ただし、ターゲットは固有表現である市場、市況、会社/法人、グループ、会社内の部門、事業部、事業領域、製品、サービスの名称などを指すこととします。

文章：建設事業受注高は、前連結会計年度と同水準で推移し、前連結会計年度比3.8％減の１兆7,283億円（前連結会計年度は１兆7,958億円）となった

回答

建設事業受注高 negative
https://wandb.ai/wandb-japan/llm-leaderboard/reports/Nejumi-LLM-Neo–Vmlldzo2MTkyMTU0

タスクが分かりにくいので、回答も載せました！

ざっくり

XXが〇%増→XX positive
YYが△%減→YY negative

という風に回答する形です。

■実際にチャットしそう度

★☆☆☆☆

Entity Linking (EL)

ELでは、Set F1を用いて評価しています。上記の通り回答は複数ある場合があり、このセット単位でF1スコアを計算します。

※nejumiリーダーボードの出力結果においては、char_1の列に値が入っており、詳細確認中です。

レビューの感情分析などはありますが、chabsaは発言者の意図などというより、直後にある増減と、そもそもの「固有表現で書かれたターゲットの名前」というのがタスクとしてはあやふやな感じがありますね

Wikipedia Annotated Corpus(FA)

Wikipedia Annotated Corpusは、5つのタスクがあります。

Reading prediction…「読解予測」は文章を読んで未来の出来事を予測すること
Named entity recognition…「固有表現抽出」は文章の中から特定の名前や場所などの情報を抜き出すこと
Dependency parsing…「依存構文解析」は文章内の単語同士の関係を解析すること
Predicate-argument structure analysis…「述語-項構造解析」は文中の述語（動詞など）とその項（主語や目的語など）の関係を解析すること
Coreference resolution…「共参照解決」は文章内の代名詞などが何を指しているかを特定すること

となっています。nejumiリーダーボードもそれぞれ算出しているため、それぞれ確認していきましょう♪

読解予測タスク

与えられたテキストを全てひらがなに変換してください。ギタリストは、ギター演奏者の通称。ギタープレイヤーとも称される

固有表現抽出

与えられたテキストから固有表現（組織名、人名、地名、固有物名、日付表現、時刻表現、金額表現、割合表現）を全て抽出してください。回答には「固有表現1（種類1）固有表現2（種類2）」のように固有表現の種類も含めてください。

オーストラリア・ドル（英語:　Australian　Dollar）は、オーストラリア連邦で用いられる通貨の名称である。通貨コードはAUDであり、A$、豪ドルなどと称する。なお、オーストラリア領土以外では、ポリネシアのナウル・ツバル・キリバスでも用いられている。

依存構文解析

与えられたテキストについて文節間の係り受け関係を列挙してください。回答は以下のような形式で答えてください。
係り元文節1 -> 係り先文節1
係り元文節2 -> 係り先文節2

ギタリストは、ギター演奏者の通称。ギタープレイヤーとも称される。

述語-項構造解析

与えられたテキストから述語項構造を全て抽出してください。回答は以下のような形式で答えてください。
述語1 ガ：項1 ヲ：項2 ニ：項3
述語2 ガ：項4 ヲ：項5

ギタリストは、ギター演奏者の通称。ギタープレイヤーとも称される。

共参照解決

与えられたテキストから同一の対象を指し示すフレーズを全て抽出してください。回答は以下のような形式で答えてください。
フレーズ1 フレーズ2 フレーズ3
フレーズ4 フレーズ5

ギタリストは、ギター演奏者の通称。ギタープレイヤーとも称される。

■実際にチャットしそう度

★☆☆☆☆

あまりなさそうですね。というか、日本人の私でも、こう聞かれたら答えられない質問もありそうです😅

Fundamental Analysis (FA)

FAではset F1で評価しています。LLMの挙動というより言語処理的なタスクや問題を測るベンチマークのようです。

MAWPS(MR)

■実際の質問例

与えられた計算問題に対する答えを整数または小数で出力してください。数値のみを出力し、それ以外には何も含めないことを厳守してください。問題：大山のバナナコレクションには36本のバナナがあります。バナナを9つのグループに分けると、それぞれのグループの大きさはどのくらいになりますか？
https://wandb.ai/wandb-japan/llm-leaderboard/reports/Nejumi-LLM-Neo–Vmlldzo2MTkyMTU0

■実際にチャットしそう度

★★★☆☆

Mathematical Reasoning (MR)

評価方法はExact Matchです。Exact Matchなので、計算が合っていても、単位等を答えていたら×になります。例えば

問題
問題：キャンディ1個で8キロカロリーです。キャンディ3個で何キロカロリーですか？

正解
24

elyza/ELYZA-japanese-Llama-2-13b-fast-instructの回答
24キロカロリー

判定
0（不正解。完全一致ではないため）

このため、単に計算できるだけだと、このMRは高い値にはならなさそうです。

計算能力もそうですが、それ以前に”出力形式を守っているか”が前提としたタスクになっていそうです♪

Semantic Textual Similarity (STS)

ここはnejumiリーダーボードでは対象外のため、取り扱いません。

【nejumiリーダーボード】llm-jp-evalのまとめ

■応用を考えた時に重要そうなカテゴリー

【QA】一般的な質問に対する回答
【RC】RAGのような挙動の評価
【MR】数字処理(RAGの際に表や数字が含まれている場合など)

■評価指標上の懸念

【Exact Match】…NLI, MC, MR…完全一致であるため、”内容”があっていても”フォーマット”を誤るとゼロ点扱い
【Chat.F1/Set F1】…QA, RC, EL, FA…文字単位のF1による一致率となる。”内容”があっていても”ですやます、理由”などを回答すると精度は下がる

【nejumiリーダーボード】japanese-mt-bench

■概要

日本語のmt-benchです

FastChat/fastchat/llm_judge at jp-stable · Stability-AI/FastChat

An open platform for training, serving, and evaluating large language models. Release repo for Vicuna and Chatbot Arena. - Stability-AI/FastChat

mtはマルチターンで、LLMのような、往復してチャットできる形式での評価となっています。

	カテゴリ	日本語での説明
1	Writing	記述
2	Roleplay	ロールプレイ
3	Extraction	情報抽出
4	Reasoning	理由付け
5	Math	計算
6	Coding	コーディング
7	Knowledge I (STEM)	知識
8	Knowledge II (humanities/social science)	知識

それぞれ20問ずつで、トータル160問のデータとなっています。

Writing

■実際の質問例

・1ターン目

京都の四季をテーマにした詩を書いてください。各季節の美しさと過ぎゆく時間の感慨を表現してください。

・2ターン目

先ほどの回答を「さ」で始まる文章で再表現してみてください。

■評価方法

評価はGPT4によるざっくり10段階でスコアリングしています。

・評価プロンプト

[Instruction]
Please act as an impartial judge and evaluate the quality of the response provided by an AI assistant to the user question displayed below. Your evaluation should consider factors such as the helpfulness, relevance, accuracy, depth, creativity, and level of detail of the response. Begin your evaluation by providing a short explanation. Be as objective as possible. The expected language is Japanese. Responses in languages other than Japanese will incur score deductions unless specifically required. Failure to use Japanese at all will result in the lowest evaluation. However, using Japanese is not mandatory when providing only Python scripts or calculation results, where Japanese is not essential. Additionally, your explanation of judgement should be in Japanese. After providing your explanation, you must rate the response on a scale of 1 to 10 by strictly following this format: “[[rating]]”, for example: “Rating: [[5]]”.

[Question]
京都の四季をテーマにした詩を書いてください。各季節の美しさと過ぎゆく時間の感慨を表現してください。

[The Start of Assistant’s Answer]
<ここにモデルの回答>
[The End of Assistant’s Answer]
https://wandb.ai/wandb-japan/llm-leaderboard/reports/Nejumi-LLM-Neo–Vmlldzo2MTkyMTU0

EIGO…ChatGPT君に翻訳していただきましょう

・インストラクションの翻訳結果

[Instruction]
以下は、ユーザーの質問に対するAIアシスタントの回答の品質を評価するために公平な審判として行動してください。評価は正確さと役立ち度を考慮する必要があります。参照回答とアシスタントの回答が与えられます。審査を開始する前に、アシスタントの回答と参照回答を比較してください。間違いを特定し、修正してください。できるだけ客観的にしてください。期待される言語は日本語です。日本語以外の言語での返答はスコアの減点の対象となりますが、明示的に要求されている場合を除き、Pythonスクリプトや計算結果のみを提供する場合には日本語は必須ではありません。また、判断の説明は日本語で行う必要があります。説明を提供した後は、1から10の範囲で回答を評価してください。評価は厳密に次の形式に従う必要があります: “[[評価]]”、例: “評価: [[5]]”。

[Question]
京都の四季をテーマにした詩を書いてください。各季節の美しさと過ぎゆく時間の感慨を表現してください。

[The Start of Assistant’s Answer]
{各LLMの回答がここに}
[The End of Assistant’s Answer]

色々ありますが、結局は

1から10の範囲で回答を評価してください
評価は厳密に次の形式に従う必要があります: “[[評価]]”、例: “評価: [[5]]”。

が大事そうです。また、GPT4の出力に[[数字]]がない場合は-1となっていました。

Roleplay

■実際の質問例

・1ターン目

ドラえもんの「のび太」になりきって会話を始めましょう。では以下の質問から始めてください：”手を洗った後、エアドライヤーは必要だと思いますか？”

・2ターン目

町で一緒に食事をしましょう。バスで一緒に行きませんか？

■評価方法

評価はGPT4によるざっくり10段階でスコアリングしています。

評価プロンプトは先ほど同様英語ですが、翻訳したバージョンだけ載せておきます。評価プロンプトはタスクごとに設定されているようです(データごとではありません。)

[Instruction]
提供された回答の品質を評価する際には、回答の役立ち度、関連性、正確さ、深さ、創造性、詳細さなどの要因を考慮する必要があります。審査を開始する前に、簡単な説明を提供します。できるだけ客観的にしてください。期待される言語は日本語です。日本語以外の言語での返答はスコアの減点の対象となりますが、明示的に要求されている場合を除き、Pythonスクリプトや計算結果のみを提供する場合には日本語は必須ではありません。また、判断の説明は日本語で行う必要があります。説明を提供した後は、1から10の範囲で回答を評価してください。評価は厳密に次の形式に従う必要があります: “[[評価]]”、例: “評価: [[5]]”。

[Question]
{質問がここに}

[The Start of Assistant’s Answer]
{各LLMの回答がここに}
[The End of Assistant’s Answer]

GPT4によるざっくり10段階の評価です。

Extraction

■実際の質問例

・1ターン目

提示されたテキストから次の情報を抽出してください：本の名前、著者、主人公、出版年。出力形式は “主人公、本、著者、出版年” で、一行に一冊の本を記述してください。 a) マーダーミステリーの分野では、東野圭吾の作品が特に印象に残る。彼の作品の中でも特に記憶に残るのは「容疑者Xの献身」である。このアイコニックな物語は2005年に発表され、数学者の石神と料理店の女主人、彼女の娘についての物語である。 b) 日本の児童文学の一つである宮沢賢治の「銀河鉄道の夜」は1927年に発表され、物語は二人の少年ジョバンニとカムパネルラを中心に展開されます。 c) 戦後の日本を背景にした小説として、1933年からさまざまな雑誌に分載された川端康成の「雪国」があります。主人公・島村は雪国に向かう汽車の中で、病人の男に付き添う恋人らしき若い娘に興味を惹かれたことから展開されます。

・2ターン目

先ほどの回答を修正し、各書籍の主要なプロットまたはテーマを一文で追加してください。それぞれの本に対しては、”主人公、本、著者、出版年、主要プロット/テーマ”の形式で出力します。

■評価方法

評価プロンプトはロールプレイと同じプロンプトです。

[Instruction]
提供された回答の品質を評価する際には、回答の役立ち度、関連性、正確さ、深さ、創造性、詳細さなどの要因を考慮する必要があります。審査を開始する前に、簡単な説明を提供します。できるだけ客観的にしてください。期待される言語は日本語です。日本語以外の言語での返答はスコアの減点の対象となりますが、明示的に要求されている場合を除き、Pythonスクリプトや計算結果のみを提供する場合には日本語は必須ではありません。また、判断の説明は日本語で行う必要があります。説明を提供した後は、1から10の範囲で回答を評価してください。評価は厳密に次の形式に従う必要があります: “[[評価]]”、例: “評価: [[5]]”。

[Question]
{質問がここに}

[The Start of Assistant’s Answer]
{各LLMの回答がここに}
[The End of Assistant’s Answer]

GPT4によるざっくり10段階の評価です。

Reasoning

■実際の質問例

・1ターン目

あなたが人々と一緒にレースをしていると想像してみてください。あなたがちょうど2番目の人を追い越したとしたら、あなたの現在の位置は何番目でしょうか？あなたが追い越した人の位置はどこでしょうか？

・2ターン目

上記の質問で「2番目の人」を「最後の人」に変更すると、答えは何になるでしょうか？

■評価方法

[Instruction]
以下のユーザーの質問に対するAIアシスタントの回答の品質を公平な判事として評価してください。評価には正確さと有用性が考慮されます。参照回答とアシスタントの回答が与えられます。評価を開始する前に、アシスタントの回答を参照回答と比較してください。間違いを特定し、修正してください。できるだけ客観的にしてください。期待される言語は日本語です。日本語以外の言語での回答は、明示的に必要とされていない限り、減点されます。また、日本語が必須ではないPythonスクリプトや計算結果のみを提供する場合、日本語を使用する必要はありません。また、評価の説明は日本語で行う必要があります。その後、回答を1から10のスケールで厳密に以下の形式に従って評価する必要があります。「Rating: [[5]]」、例えば: “Rating: [[5]]”。

[Question]
{質問がここに}

[The Start of Reference Answer]
{GPT4の参考回答がここに}
[The End of Reference Answer]

[The Start of Assistant’s Answer]
{各LLMの回答がここに}
[The End of Assistant’s Answer]

GPT4によるざっくり10段階の評価です。Reasoningの評価プロンプトは微妙にExtractionやRolePlayのプロンプトとは異なるものでした。

Reasoningは、論理的な推論能力を確認するタスクのようです。

Math

■実際の質問例

・1ターン目

あるテックスタートアップは、最初の年にソフトウェア開発に80万円を投資し、2年目にはその半額をソフトウェア開発に投資しました。このスタートアップが2年間でソフトウェア開発に投資した総額はいくらですか？

・2ターン目

このスタートアップが3年目も同じ戦略を維持し、前年の投資額の半額をソフトウェア開発に投資するとしたら、3年目に投資する額はいくらになりますか？

文章が読めればそこまで難しくない算数の問題ですね♪

■評価方法

[Instruction]
AIアシスタントがユーザーの質問に対して提供した回答の質を評価し、公平な裁定官として行動してください。あなたの評価は、正確性と役立ち度を考慮してください。参照回答とアシスタントの回答が与えられます。まず、アシスタントの回答を参照回答と比較してください。間違いを特定し修正してください。できるだけ客観的にしてください。期待される言語は日本語です。日本語以外の言語での回答は、特に要求されていない限り、スコアが減点されます。全く日本語を使用しない場合は、最低評価となります。ただし、Pythonスクリプトや計算結果のみを提供する場合は、日本語が必須ではないため、日本語を使用する必要はありません。判断の説明は日本語で行ってください。評価のために、1から10のスケールで回答を厳密に次の形式に従って評価してください。例：「評価：[[5]]」

[Question]
{質問がここに}

[The Start of Reference Answer]
{GPT4の参考回答がここに}
[The End of Reference Answer]

[The Start of Assistant’s Answer]
{各LLMの回答がここに}
[The End of Assistant’s Answer]

GPT4によるざっくり10段階の評価です。GPT4の回答を正としているため、構造的にGPT4は高い評価値になりそうな評価方法ですね！
あるいは、非商用でGPT4の出力結果を蒸留したモデルも高めの評価値になるかもしれません。

Coding

■実際の質問例

・1ターン目

ディレクトリ内の全てのテキストファイルを読み込み、出現回数が最も多い上位5単語を返すPythonプログラムを開発してください。
https://wandb.ai/wandb-japan/llm-leaderboard/reports/Nejumi-LLM-Neo–Vmlldzo2MTkyMTU0

・2ターン目(1ターン目の回答を受けて)

それを並列化（parallelize）することは可能ですか？
https://wandb.ai/wandb-japan/llm-leaderboard/reports/Nejumi-LLM-Neo–Vmlldzo2MTkyMTU0

といった形で質問をします。

■評価方法

[Instruction]

以下のテキストは、AIアシスタントがユーザーの質問に対して提供した回答の品質を評価する公正な判定者として行動し、その品質を評価するよう求められています。あなたの評価は正確性と有益性を考慮する必要があります。参照回答とアシスタントの回答が与えられます。アシスタントの回答と参照回答を比較して、いかなる間違いも特定し、修正してください。できるだけ客観的に行ってください。評価の説明は日本語で行う必要があります。評価は1から10のスケールで行ってください。”Rating: [[5]]”のような形式に従ってください。

[Question]
{質問がここに}

[The Start of Reference Answer]
{GPT4の参考回答がここに}
[The End of Reference Answer]

[The Start of Assistant’s Answer]
{各LLMの回答がここに}
[The End of Assistant’s Answer]

GPT4の参考の回答を参照させたうえでざっくり10段階評価させるようです。

Knowledge I (STEM)

■実際の質問例

・1ターン目

東京湾に架かるレインボーブリッジの工事が行われたとき、どのような観点が重要だったか述べてください。

・2ターン目

あなたの解決策の主要な欠点や欠陥は何ですか？計算を行い、それらを示すために数字を使用してください。

STEMとは、科学（Science）、技術（Technology）、工学（Engineering）、数学（Mathematics）の頭文字から来ており、科学系の少し難しい質問が設定されています。

■評価方法

[Instruction]

以下はユーザーの質問に対するAIアシスタントの回答の品質を評価する公平な判断者として行動し、以下に表示されるユーザーの質問に対する回答の品質を評価してください。評価には、回答の役立ち度、関連性、正確さ、深さ、創造性、詳細さなどの要素を考慮してください。評価を行う際には、短い説明を提供してください。できるだけ客観的に行ってください。期待される言語は日本語です。日本語以外の言語での回答は、明示的に要求されていない限り、減点の対象となります。全く日本語を使用しない場合は、最低の評価となります。ただし、Pythonスクリプトや計算結果のみを提供する場合は日本語が必須ではないため、その場合は日本語を使用する必要はありません。また、判断の説明は日本語で行う必要があります。説明を提供した後、評価を1から10のスケールで以下の形式に厳密に従って行ってください。「評価：[[5]]」のように、評価値を示してください。

[Question]
{質問がここに}

[The Start of Assistant’s Answer]
{各LLMの回答がここに}
[The End of Assistant’s Answer]

ざっくり10段階評価です。特に評価プロンプトにデータや社会学に関連して特化させている内容はありません。

Knowledge II (humanities/social science)

■実際の質問例

・1ターン目

経済成長率、消費者物価指数、失業率などの経済指標と日本銀行の金融政策との関係性を説明してください。その経済指標に影響を与える主な政策手段を示し、それぞれの効果について考察してください。

・2ターン目

それらの内容を5歳の子供に教えるとしたら、どのように説明しますか？

このような社会に関する少し難しい質問が設定されています。

■評価方法

[Instruction]

以下はユーザーの質問に対するAIアシスタントの回答の品質を評価する公平な判断者として行動し、以下に表示されるユーザーの質問に対する回答の品質を評価してください。評価には、回答の役立ち度、関連性、正確さ、深さ、創造性、詳細さなどの要素を考慮してください。評価を行う際には、短い説明を提供してください。できるだけ客観的に行ってください。期待される言語は日本語です。日本語以外の言語での回答は、明示的に要求されていない限り、減点の対象となります。全く日本語を使用しない場合は、最低の評価となります。ただし、Pythonスクリプトや計算結果のみを提供する場合は日本語が必須ではないため、その場合は日本語を使用する必要はありません。また、判断の説明は日本語で行う必要があります。説明を提供した後、評価を1から10のスケールで以下の形式に厳密に従って行ってください。「評価：[[5]]」のように、評価値を示してください。

[Question]
{質問がここに}

[The Start of Assistant’s Answer]
{各LLMの回答がここに}
[The End of Assistant’s Answer]

ざっくり10段階評価です。特に評価プロンプトにデータや社会学に関連して特化させている内容はありません。

【nejumiリーダーボード】japanese-mt-benchのまとめ

llm-jp-evalと異なり、GPT4で評価を行っています！

一方、以下の傾向がありそうです

■採点が適当でGPT4の気分に振られやすい

Writing
Roleplay
Extraction
STEM
humanities/social science

これらは、「質問　＋　LLM回答」をGPT4に渡して「10点満点で何点？」と聞いている状況です。

GPT4「採点基準ないなら何となく採点するね」

となってしまいます。

小論文の採点のアルバイトで、採点基準はないので好きなように採点していい、と言われたような状況に近いかなという印象です。

■採点基準が正しいか、ではなくGPT4に近いか、で採点されている

Reasoning
Math
Coding

GPT4の出力はなかなかに正確で素晴らしいですが「GPT4力」を測っている形で少し気持ち悪さを感じますね😅

【rinna社のベンチマークサイト等】lm-evaluation-harness

■概要

Stability-AIが作成したベンチマークで、既存のデータセットを組み合わせています。harnessはハーネスで、馬の装着具とかで使われます。

データセット名	概要	重複
JSQuAD	RAG系の参考文章から回答するタスク	llm-jp-eval
JCommonsenseQA	選択肢式一般知識クイズ問題	llm-jp-eval
JNLI	entailment, contradiction, neutral選択肢式	llm-jp-eval
MARC-ja	商品レビューのpositive/negative
JaQuAD	RAG系の参考文章から回答するタスク
JBLiMP	容認可能-容認不可能評価
XLSum-ja	要約のデータセット(非商用)
JAQKET	選択肢式参考文章から回答タスク

llm-jp-evalでカバーされていない、MARC-ja、JaQuAD、JBLiMP、XLSum-ja、JAQKETを見ていきましょう♪

自然言語処理のデータセットは似たような名前のものがおおいですね😆

MARC-ja

・商品レビューがポジティブのサンプル

アメコミですね。設定は無茶苦茶ですが、すっきり感はありました。ミリタリーものとは考えてはいけません。装備にSCARが出ていたので買いました。

・商品レビューがネガティブのサンプル

以前職場の方にこれをみて少しでも元氣になってくださいと手渡して、早３年。返してくれと一度言ったが、結局返ってこなかった。６年前にも、職場の（といっても海外ですが）英語の先生に貸したら、これは素晴らしい！と言って、授業でも何度も生徒に見せたり、家でも見てたりしたそうで、結局帰国までに返してもらえなかった。。。この作品、結局３回購入してます。とほほでありつつ、誰かの心の支えになってくれればと願いつつ。エンディングの曲も好きです。あー、自分も突き進む人生を歩みたい。結婚もしたいが。。。

といった形で、amazonの商品レビューにpositive/negativeを付与したデータセットのようです。

JaQuAD

context(参考文章)
手塚治虫(てづかおさむ、本名:手塚治(読み同じ)、1928年(昭和3年)11月3日-1989年(平成元年)2月9日)は、日本の漫画家、アニメーター、アニメ監督である。\n戦後日本においてストーリー漫画の第一人者として、漫画表現の開拓者的な存在として活躍した。\n\n兵庫県宝塚市出身(出生は大阪府豊能郡豊中町、現在の豊中市)同市名誉市民である。\n大阪帝国大学附属医学専門部を卒業。\n医師免許取得のち医学博士(奈良県立医科大学・1961年)。

question(質問)
戦後日本のストーリー漫画の第一人者で、医学博士の一面もある漫画家は誰?
answer(回答)
手塚治虫

RAG的に、参考文章と質問、回答をセットにしたデータのようです。

JBLiMP

good sentence
太郎が昨日花子に会った人を探しているのだ。
bad sentence
太郎が昨日会った人を探しているのは花子にだ。

このような形で、データセットのどっちの文章がまともかを当てるタスクのようです。

XLSum-ja

要約前文章

救出作戦の間、洞窟内に少年たちと留まったタイ海軍のダイバーと医師も最後に無事脱出した。4人の写真は10日、タイ海軍特殊部隊がフェイスブックに掲載したものタイ海軍特殊部隊はフェイスブックで、「これは奇跡なのか科学なのか、一体何なのかよくわからない。『イノシシ』13人は全員、洞窟から出た」と救助作戦の終了を報告した。「イノシシ」（タイ語で「ムーパ」）は少年たちの所属するサッカー・チームの愛称。遠足に出かけた11歳から17歳の少年たちと25歳のサッカー・コーチは6月23日、大雨で増水した洞窟から出られなくなった。タイ内外から集まったダイバー約90人などが捜索に当たり、英国人ダイバー2人によって7月2日夜に発見された。地元のチェンライ県知事やタイ海軍特殊部隊が中心となった救助本部は当初、水が引くか、あるいは少年たちが潜水技術を習得するまで時間をかけて脱出させるつもりだったが、雨季による水位上昇と洞窟内の酸素低下の進行が懸念され、8日から3日連続の救出作戦が敢行された。少年たちの脱出方法ダイバーたちに前後を支えられ、水路内に張り巡らされたガイドロープをたどりながら、潜水経験のない少年たちは脱出した。8日に最初の4人、9日に4人、10日に残る5人が脱出し、ただちに近くのチェンライ市内の病院に搬送された。2週間以上洞窟に閉じ込められていたことを思えば、全員驚くほど心身ともに元気だという。少年たちとコーチはレントゲンや血液検査などを受けた。少なくとも7日間は、経過観察のために入院を続けるという。洞窟内の水を飲み、鳥やコウモリの排泄物に接触した可能性のある13人は、病原体に感染しているおそれがあるため隔離されている。家族とはガラス越しに再会したという。食べ物のほとんどない洞窟内で2週間以上を過ごした少年たちは体重を大幅に落とし、空腹を訴えていた。救出後は好物の豚肉のご飯やパン、チョコレートなどを希望したが、しばらくは流動食が続くという。さらに、外界の光に目が慣れるまでの数日は、サングラスをかける必要がある。＜おすすめ記事＞救出作戦が終わると、洞窟の出口に集まった救助関係者から大きな歓声が上がった。山のふもとには、少年たちが所属する「ムーパ（イノシシ）」サッカーチームの関係者の家があり、そこに集まった人たちも笑顔で叫んだり歓声を挙げたりした。現場にいたBBCのジョナサン・ヘッド記者は、喜ぶ人たちは「とてもタイ人らしくない様子で」さかんに握手をして回っていたと伝えた。少年たちへの精神的影響は？タイ洞窟救助チェンライ市では、全員脱出の知らせに往来の車は次々にクラクションを鳴らして喜んだ。子供たちやコーチが搬送された病院の外に集まっていた人たちは、一斉に拍手した。ソーシャルメディアではタイ人の多くが、「#Heroes(英雄）」、「 #Thankyou（ありがとう）」などのハッシュタグを使って、それぞれに思いを表現していた。 13人は2日、洞窟内の岩場に身を寄せているところを発見された。中央の少年は、サッカーのイングランド代表のシャツを着ている。写真はタイ海軍が4日に公表したビデオよりサッカー界も少年たちとコーチの無事を大いに喜び、英マンチェスター・ユナイテッドやポルトガルのベンフィカが全員を試合に招待した。国際サッカー連盟（FIFA）も、少年たちをロシアで開催されているワールドカップの15日にある決勝戦に招いたが、これは回復が間に合わないという理由で見送られた。ワールドカップの準決勝に備えるイングランド代表のDFカイル・ウォーカーは、イングランドのユニフォームを少年たちに贈りたいとツイートした。少年の1人は洞窟内で、イングランドのジャージーを着ていた。すると英外務省の公式アカウントがこれに応えて、「やあ、カイル。駐タイ英国大使と話をした。イングランドのシャツを勇敢な少年たちに、喜んで、確実に届けてくれるそうだ」とツイートした。経験豊富なダイバーにとっても、少年たちのいる場所までの往復は重労働だった。元タイ海軍潜水士のサマン・グナンさんは6日、少年たちに空気ボンベを運ぶ任務を果たして戻ろうとしていたところ、酸素不足で命を落とした。ダイバーたちが出口まで張ったガイドロープをたどりながら、少年たちは場所によって、歩いたり、水の中を歩いたり、登ったり潜ったりして外に出た。少年たちは、通常のマスクよりも初心者に適した顔部全体を覆うマスクをかぶった。少年1人につき2人のダイバーが付き、ダイバーが少年の空気ボンベを運んだ。最も困難なのは、洞窟の中ほどにある「Tジャンクション」と呼ばれている場所で、あまりに狭いため、ダイバーは空気ボンベを外して進む必要があった。 Tジャンクションを抜けると、ダイバー達の基地となっている「第3室」があり、少年たちはここで出口へ向かう前に休息がとれた。少年らの救出経路。下方の赤い丸が少年たちの見つかった場所。人の形が実際の人間の身長。青い部分は潜水しないと進めない。高さが1メートルに満たない箇所もある。トンネル内で最も狭い部分は、人1人がやっと通れるぐらいのスペースしかない。上方の白い部分は、ところどころ浅い水があるが、ほとんどが乾いた岩場（英語記事 Cave rescue: Elation as Thai boys and coach freed by divers）

要約文章

タイ北部のタムルアン洞窟で10日夜、中に閉じ込められていた少年12人とサッカー・コーチの計13人のうち、最後の少年4人とコーチが水路を潜り無事脱出した。その約3時間後には、洞窟内で少年たちと留まっていた海軍ダイバー3人と医師も生還した。17日間も洞窟内にいた13人の救出に、タイ国内外で多くの人が安心し、喜んでいる。

このような形で、文章前のデータと、要約後のデータがあります。

とても良いデータセットなのですが、商用利用できないライセンスなので、注意が必要です。

JAQKET

question
人気漫画『ドラえもん』の登場人物で、ジャイアンの苗字は剛田ですが、スネ夫の苗字は何でしょう?
answers
骨川

こちらはクイズを参考としたオープンクエスチョンのデータのようです。

【rinna社のベンチマークサイト等】lm-evaluation-harnessまとめ

lm-evaluation-harnessでは、扱っているはLLM以前からあるデータセットの組み合わせと評価方法を用いており、”LLMぽさ”はあまりベンチマークできていなさそうです。一方、ある程度限られたタスクにおいての性能は多少参考になりそうです(ただ、評価方法の都合により、評価数字自体もあまり信頼度が高いわけではない)

LLM用に作られたデータではないため、lm-evaluation-harnessの結果を、そのままLLMの性能として解釈するのは難しいかもしれません

【Elyza評価スプレッドシート】Elyza-task-100

■概要

ELYZA社の公開した100個のデータセットです。なにより素晴らしいのは、japanese-mt-benchであったように、GPT4に「X段階で評価して」は非常にブレが大きくベンチマークというほど評価値が安定しないことがわかっています。

そこで、ELYZA社は100件の各データ1件ずつに、「評価観点」を付与してあります。この評価観点により、評価のブレを軽減して、安定した評価が可能になっています。

Elyza-task-100はカテゴリーがないため、データを何件が記載してみます。

私は一番信頼しているデータセットです♪

Open Question(勝手に付与)

■Input(入力)

仕事の熱意を取り戻すためのアイデアを5つ挙げてください。

■output(正解例)

自分の仕事に対する興味を再発見するために、新しい技能や知識を学ぶこと。

カレッジやセミナーなどで講演を聴くことで、仕事に対する新しいアイデアや視点を得ること。

仕事に対してストレスを感じている場合は、ストレスマネジメントのテクニックを学ぶこと。

仕事以外の楽しいことをすることで、ストレスを発散すること。

仕事に対して自己評価をすることで、自分がどのように進化しているのかを知ること。

■eval_aspect（評価観点）

熱意を取り戻すのではなく、仕事の効率化・スキルアップのような文脈になっていたら1点減点

出したアイデアが5つより多い、少ない場合は1点減点

5つのアイデアのうち、内容が重複しているものがあれば1点減点

このような形で、質問に対して、理想の回答と、その回答に対する評価観点があるため、GPT4は評価できそうですよね

Extraction(勝手に付与)

■Input(入力)

以下の表から、すべての科目名を抽出してください。
| 科目名｜講師名｜教室名
| 微積分学101｜田中教授｜202号室
| 美術史｜山田（代理）｜ホールA

■output(正解例)

表には以下の2つの科目名が示されています:

微積分学101

美術史

■eval_aspect（評価観点）

微積分学101, 美術史のいずれかが抜けている場合: -2点

微積分学101, 美術史は出力しているが、科目名という概念などを理解できずに田中教授など余計な要素が入っている場合: -2点

表をそのまま出力してしまった場合: -4点

ロールプレイ(勝手に追加)

■Input(入力)

IMEとして機能してください。

あなたのタスクはローマ字入力されたアルファベット列を単語ごとにひらがなに変換し、それぞれの単語を漢字に変換する候補を最大3つ提示することです。

以下に例を示します。
inputs:
k, y, o, u, h, a, a, m, e, p, p, o, i

outputs:
- きょうは: 今日は, 教派, 京は
- あめ: 雨, 飴, アメ
- っぽい: っぽい, ッポイ
それでは、入力を開始するので、IMEとして出力を表示してください。

inputs:
j, u, u, b, u, n, o, s, h, o, s, e, k, i

■output(正解例)

IMEとしてローマ字の入力を単語ごとにひらがなに変換し、漢字変換候補を提示します。
inputs:
j, u, u, b, u, n, o, s, h, o, s, e, k, i

outputs:
- じゅう: 10, 十, 銃
- ぶ: 部, 武, 分
- の: の, ノ
- しょせき: 書籍, 書跡, 諸関

■eval_aspect（評価観点）

このタスクは以下の3つのタスクのからなります。

ひらがなへの変換

単語への分割

漢字変換候補の提示

3タスク全てできているが、一位の変換候補をつなげた結果が「10部の書籍」「十部の書籍」のいずれでもない: 4点
3タスクのうち1つ間違い: 3点
3タスクのうち2つ間違い: 2点
3タスクのうち3つ間違い: 1点

間違いの個数ごとに採点基準が書いてあり、あいまいな要素がなくて良いですね。

論理的思考(勝手に付与)

■Input(入力)

「スタート地点から西に向かって歩き、交差点で南に曲がりしばらく歩くとゴール地点に着いた」という場面を想像して、以下の問いに答えてください。

交差点で左右どちらに曲がりましたか？

スタート地点はゴール地点から見てどの方角にありますか？東西南北八方位で答えてください。

■output(正解例)

私は言語モデルなので実際に歩くことはできませんが、想像してお答えします。

交差点では左に曲がりました。

スタート地点はゴール地点から見て北東の方角にあります。

■eval_aspect（評価観点）

問題1は左が正解で、南に曲がったは不正解

問題2は北東が正解で、東や北、東北は不正解

1問不正解: -2点

2問不正解: -4点

この問題、結構難しいようで、完全回答しているLLMはなかなか少ないようです

数学(勝手に付与)

■Input(入力)

1から500までの数字を入力するのに何回キーボードを叩く必要があるでしょうか？

1桁の数字を入力するには1回、2桁の場合は2回、3桁の場合は3回キーボードを叩く必要があるものとします。

選択肢: (a) 1156 (b) 1392 (c) 1480 (d) 1562 (e) 1788

■output(正解例)

1から500までを入力するのに何回キーボードを叩けばいいかについて、桁について場合分けをしながら計算します。

1桁の数は1から9までの9つあり、キーボードは 1 x 9 = 9回叩く必要があります。

2桁の数は10から99までの90こあり、キーボードは 2 x 90 = 180回叩く必要があります。

3桁の数は100から500までの401こあり、キーボードは 3 x 401 = 1203回叩く必要があります。

合計で 9 + 180 + 1203 = 1392回キーボードを叩く必要があります。

よって答えは (b) 1392 回です。

■eval_aspect（評価観点）

適当に選択肢を選び、外している: -4点

計算式を使って考えようとしているが、外している: -3点

1桁, 2桁, 3桁の3パターンに場合分けをして考えているが、外している: -2点

適当に選択肢を選び、正解している: -1点

論理的思考(勝手に付与)

■Input(入力)

架空の言語「エクル語」と日本語の関係をいくつか示します。
1.
エクル語: ダスインガウタ
日本語: 彼が水を飲む
2.
エクル語: ダストンウタ
日本語: 彼は水を運んだ
3.
エクル語: ダスデル
日本語: 彼は走った
4.
エクル語: クルデルクルインガウタ
日本語: 子供が走って水を飲んだ

ここから推測して以下のエクル語を日本語に直してください。
5.
エクル語: クルデルクルトン

■output(正解例)

似ている2文の差から、エクル語の単語の意味をステップバイステップで紐解いていきます。

まず、1と2を比較することでインガ: 飲む, トン: 運んだという意味であるとわかります。

次に2と3を比較することでダス: 彼ということがわかります。

ここでダスの意味がわかったので、1の文を振り返ることでウタ: 水という意味がわかります。

また、3の文からデル: 走るということがわかります。

1と4の文を比較することで、クル: 子供ということがわかります。

よって5のクルデルクルトンを直訳すると、子供が走る子供が運んだになり、これを自然な日本語にすることで答えが得られます。

よってクルデルクルトンを日本語に直すと「子供が走って運んだ」になります。

■eval_aspect（評価観点）

A. 子供が
B. 走った
C. 運んだ

A,B,Cの3つの要素を1つ外すごとに-2点

余計な要素（e.g. 彼, 水）を1つ入れてしまうごとに-2点

日本語知識(勝手に付与)

■Input(入力)

サマると8つということですね。
上の文における「サマる」とはどのような意味でしょうか？

■output(正解例)

「サマる」は一般的な単語ではないですが、文脈的には「つまり」「すると」などのような使われ方をしています。「サマる」の語義を考えると「サマリー」「サム」などが考えられ、「まとめると」「合計すると」などが考えられます。

想像にはなりますが、「サマる」の意味は「つまり」「すると」「まとめると」「合計すると」といった意味であると考えられます。

■eval_aspect（評価観点）

ベースの得点:

Summary, Summarizeなどのサマるの語源を想像して踏まえた意味を答えている: 5点

「OOすると8つということですね。」という文脈に適した意味を答えている: 4点

減点項目:

「サマる」は一般的な日本語ではない（一部のビジネスマンが使用する単語）ので、「〜だと考えられます」のようにその意味を断言してはならず。意味を断言してしまった場合 -1点

作問製作者の作成した”「サマる」の意味は「つまり」「すると」「まとめると」「合計すると」といった意味”はあっているのでしょうか

【Elyza評価スプレッドシート】Elyza-task-100まとめ

ちょっと変わったデータもありますが、ご覧の通り、各データそれぞれに評価観点が付与されています。

そのため、”評価値”自体の信頼度はとても高い印象です。

しいて言えば、各質問に「要約」「論理的回答」などカテゴリーや難易度ラベルなどが振られていると、ベンチマークの数字としてはもっと面白くなるかなと思いました♪

rakuda-benchmark

■概要

rakuda-benchはちょっと変わったデータセットと性能評価の方法です。

データセットは地理、政治、歴史、社会の4種類のカテゴリーの質問から構成されます。

これらの質問は、”正解”は用意されておらず、その代わりLLMの推論性能を相対的に評価する仕組みです。

■URL

GitHub - yuzu-ai/japanese-llm-ranking

Contribute to yuzu-ai/japanese-llm-ranking development by creating an account on GitHub.

地理

日本の三大都市圏（首都圏、近畿圏、中部圏）の各中心都市と、それぞれの都市圏を構成する主要な都道府県を列挙してください。

政治

最近の日本の選挙で注目された課題を一つ挙げ、その課題が日本社会に及ぼす影響について分析してください。

歴史

平安時代に成立した貴族社会の特徴を述べ、それが日本文化（文学、芸術、宗教など）にどのように影響を与えたかについて論じてください。

社会

日本の労働市場の女性活躍推進に関する政策とその結果について説明してください。

結構ざっくりした質問が多いですね♪
他のデータセットにはあまりない方向性です。一方、地理、政治、歴史、社会だけで、全体的なLLMの性能とみなせるかは微妙そうです。

評価方法

ざっくり言うとGPT4に以下のタスクを解かせます

LLM-Aの回答「xxx」とGPT3.5-turboの回答「yyy」はどっちが良い？
勝ち、負け、引き分けで判断して

という形です。そのため、評価値は「絶対評価」ではなく「相対評価」となります。

実際には、全モデルを全件で比較するのは難しいため、上手にやってるみたいです。

rakuda-benchmarkのまとめ

まず、良くも悪くもデータは、日本の文系的トピックの説明的な内容になっています。こういう説明するタスクは評価が難しいですよね。

まとめ

各データの特徴について私の考えとまとめてみます！

データセット名	データの品質	評価の品質	コメント
llm-jp-eval	★★☆	★☆☆	LLM以前の自然言語処理の評価で、参考にはなるが、LLMの腕試しとしてはfitしていなさそう
japanese-mt-bench	★★★	★★☆	マルチターンで入力のデータ品質は良いが、評価の方法を改善して適切にベンチしたい。
lm-evaluation-harness	★★☆	★☆☆	LLM以前の自然言語処理の評価で、参考にはなるが、LLMの腕試しとしてはfitしていなさそう
Elyza-task-100	★★☆	★★★	評価のクオリティはとても高く、目指すべきデータの形をしている。一方、データには少し偏りや意地悪な質問あり。
rakuda-benchmark	★★☆	★★☆	データはLLMで聞かれそうな質問だが、知識を問う性質が強い。また評価も相対評価でモデル間での比較がしづらい。要約やRAGの性質は測れない。

いかがでしたでしょうか！長くなってしまいましたが、皆様のLLMの活用・評価に活用いただければ幸いです！