【マルチモーダル】【VLMリーダーボード】Heron VLM Benchについて解説!【サンプルデータ記載】

LLM

Weights & Biasesから、画像言語モデル(Vision-Language Model(VLM))のリーダーボードが出たため、解説していきます!まだリーダーボード自体も更新途中のようなので、随時更新してまいります♪

URL

Heron VLMリーダーボード

使用しているデータセット

2つのデータセットでベンチマークは構築されています!

それぞれ実際に中身を見てみましょう♪

Heron Japanese Bench

再掲ですが、以下のHugging Faceにデータセットがあります♪

turing-motors/Japanese-Heron-Bench · Datasets at Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.

データについて、アニメ、アート、文化、食べ物、風景、ランドマーク、交通機関の 7 つのサブカテゴリがある21枚の画像から構成されています🍱

また、各画像は、Conversation(会話)、Detail(詳細)、Complex(複雑)なタイプの質問と関連付けられています。それぞれのタイプの質問は1-2個あります。そのため、1枚の画像では最大6個の質問が関連づけられている形になります。トータルでは102個の質問となっています🍝

推論時は、2種類の方法で推論しています。

①「画像+質問」で推論

②「画像のcontext(説明の文章) + 質問」で推論

②のパターンの場合のプロンプトは以下の内容です。

prompt = f"""
あなたはAIビジュアルアシスタントであり、一枚の画像を見ています。「コンテキスト: {context}」はあなたが見ている画像に対する説明文です。
実際に画像を見ているかのように、「質問: {question}」の質問に最大3文程度で簡潔かつ明瞭に答えてください。
実際に画像を見ているという前提を遵守し、「画像を見ることができません」のような回答や曖昧な回答はしてはいけません。
オブジェクトの種類、数、アクション、位置、オブジェクト間の相対位置などを厳密に含めて回答をしてください。
"""

https://github.com/turingmotors/heron/blob/883cd7c6e99d6d22343d6d62bb35520daf8ac92a/playground/scripts/inference_gpt4.py#L18

リーダーボードには、GPT-4-turboなど、画像が取り扱えないモデルも含まれていますが、この場合はキャプションをベースに推論された参考値であることがわかります🍔

ここまでの情報を整理すると

  • 画像はアニメ、アート、文化、食べ物、風景、ランドマーク、交通機関の 7 つのサブカテゴリ
  • 画像の枚数は21枚
  • 各画像は、Conversation(会話)、Detail(詳細)、Complex(複雑)なタイプの質問が1-2個あります。
  • トータルでは102個の質問があります。
  • 画像と質問だけでなく、contextが割と強烈に情報提供しています。

となります!

ではいくつかサンプルを見てみましょう♪

Japanese Heron Benchの実際のデータの確認

今回は、サイバーエージェント社のVLM、llava-calm2-siglipの推論結果を添えてみます!

画像①002.jpg

https://huggingface.co/datasets/turing-motors/Japanese-Heron-Bench/viewer?image-viewer=image-1-5E0360629505FB39CD301E8249B7BAA150C7D970

context(画像の参考情報)
宮崎駿監督によるジブリ作品「千と千尋の神隠し」のワンシーンです。少女の千尋が大きなケーキや紅茶、小菓子を前にしてテーブルに座っています。左隣にはカオナシという化け物がいます。千尋の右では、大きな鼻と目、特徴的な髪型を持つ老婦人の湯婆婆が微笑んでいます。中央の後ろには食器棚が置かれています。

質問id=5, 質問カテゴリ=複雑 「このイラストが示す作品のあらすじを詳細に教えてください。」

llava-calm2-siglipの回答

この心温まるシーンには、緑色の髪をした少女と、老婆のような姿をしたキャラクターが写っています。緑の髪の少女は、テーブルの上にあるケーキやボウル、カップに興味深げに見入っているようです。一方、画面左側にいる老婦人は、何かを語りかけているようにも見えます。彼女たちの前には大きなケーキが2つ、そして小さなボウルが1つ置かれています。さらに、2つのカップと1つのスプーン、フォークがテーブルの上に並べられています。

——————————————–

この画像は、スタジオジブリの映画「千と千尋の神隠し」のワンシーンです。 **あらすじ:** 10歳の少女・千尋は、両親と引っ越し途中に不思議なトンネルに迷い込みます。トンネルの先は、八百万の神々が集う湯屋「油屋」の経営者である魔女・湯婆婆が支配する不思議な世界でした。 千尋の両親は、神々の為の料理を勝手に食べ、豚に変えられてしまいます。一人ぼっちになった千尋は、元々は川の主である湯屋の従業員・ハクに助けられ、「油屋」で働くことになります。 湯婆婆に名前を奪われ、「千」という一文字だけになった千尋は、厳しい労働や個性的な仲間たちとの出会いを通して成長していきます。彼女は、ハクや釜爺、リンなどの助けを借りながら、両親を人間に戻し、元の世界に帰る方法を探します。 **画像のシーン:** この画像は、千尋がハクの計らいで、湯婆婆の双子の姉である魔女・銭婆を訪ねた時のものです。銭婆は一見恐ろしい外見をしていますが、心優しい魔女です。彼女は千尋にお茶と

千が油屋で働いていたり、不思議な部分はありますが、千と千尋のワンシーンであることは認識できていそうですね!

gemini-1.5-proによる評価結果[2, 8]

質問id=6, 質問カテゴリー=複雑 「この映像の中で明らかに人間ではないのはどれでしょうか?」

llava-calm2-siglipの回答

この場面には、人間以外には、テーブルの上にあるケーキやボウル、そしてカップがあります。

——————————————–

この画像の中で明らかに人間ではないのは、左側の顔のない大きな黒い人物です。これは、映画「千と千尋の神隠し」のキャラクター、カオナシです。

この回答はちょっと面白いですね笑
“人間ではないの”は別に生き物でなくてもいいので、ケーキやボウルなど物体についても説明しています。

gemini-1.5-proによる評価結果[2, 8]

質問id=7, 質問カテゴリー=会話 「イラストの少女の名前はなんですか?」

llava-calm2-siglipの回答

少女の名前は、画像から判断すると「千尋」のようです。

——————————————–

このイラストの少女は、スタジオジブリの映画「千と千尋の神隠し」の主人公、**荻野千尋(おぎの ちひろ)**です。

これは素晴らしい回答です♪

gemini-1.5-proによる評価結果[8, 10]

質問id=8, 質問カテゴリー=会話 「一番左にいるのは人間でしょうか?」

llava-calm2-siglipの回答

いいえ、違います。一番左側に見えるのは、人間ではなく、犬です。

——————————————–

一番左にいるのは人間ではありません。それは「千と千尋の神隠し」のキャラクター、カオナシです。

犬ではありません!🐶

gemini-1.5-proによる評価結果[1, 10]

質問id=9, 質問カテゴリー=会話 「このイラストについて詳しく説明してください。」

llava-calm2-siglipの回答

画像には、魔女の宅急便のキキと、その隣に老婆が座っています。魔女は、ほうきに乗って空を飛んでいます。老女は、テーブルに座って、お茶を飲んでいます。「魔女」は黒く、長い髪と大きな目を持っています。「老女」は白く長い髪をしています。テーブルの上にはケーキやティーポット、スプーン、フォーク、皿などが置かれています。

——————————————–

このイラストは、スタジオジブリの映画「千と千尋の神隠し」のワンシーンです。 * **登場人物:** * **左:** カオナシ。顔がなく、黒い影のような姿をした謎の霊。 * **中央:** 千尋。10歳の少女。両親と共に引っ越し中に、不思議な世界に迷い込んでしまう。 * **右:** 湯婆婆。湯屋「油屋」の経営者。強欲で恐ろしい魔女。 * **場面:** * 湯婆婆の執務室で、千尋、カオナシ、湯婆婆がお茶をしている場面。 * テーブルの上には、大きなチーズケーキ、クッキー、金平糖、ティーポット、ティーカップなどが並んでいる。 * **状況:** * 千尋は、両親を人間に戻すため、湯婆婆に「油屋」で働くことを許される。 * カオナシは、千尋に好意を抱き、金や食べ物で気を引こうとする。 * 湯婆婆は、カオナシの金に目がくらみ、彼を甘やかしている。 このシーンは、カオナシの孤独や欲望、湯

これは魔女の宅急便でもないですし、油屋も目立ちますね

gemini-1.5-proによる評価結果[1, 4]

以上が千と千尋の神隠しの質問とllava-calm2-siglipの回答です!

もう一点、アニメ絵ではなく風景でも見てみましょう

画像②018.jpg

https://huggingface.co/datasets/turing-motors/Japanese-Heron-Bench/viewer?image-viewer=image-17-AF9BDF0682D2DCE370BCBC3B6DB30E5F4996BABA

質問id=83, 質問カテゴリー=複雑 「この写真が撮影された季節はいつでしょうか?」

llava-calm2-siglipの回答

この写真は、おそらく春に撮られたものです。なぜなら、桜の花が満開で、春によく見られる光景だからです。

——————————————–

この写真は、桜の花が満開なので、**春**に撮影されたものです。

これは合ってそうですね!評価値が微妙なのがちょっと不思議なくらいです。

gemini-1.5-proによる評価結果[7, 6]

質問id=84, 質問カテゴリー=複雑 「この写真が取られた時期に実施される学校行事は何でしょうか?」

llava-calm2-siglipの回答

卒業式。卒業式は、通常、春に行われ、学生たちが卒業証書を受け取るために集まります。

——————————————–

桜が満開なので、この時期に行われる学校行事は**入学式**と**始業式**です。 日本の学校は4月始まりで、ちょうど桜の季節と重なります。入学式は新入生を迎える式典、始業式は新学期が始まることを告げる式典です。どちらも桜の下で行われることが多いです。

入学式の印象はありますが、卒業式が不正解かと言われるとこれも評価が微妙な印象を受けますね

gemini-1.5-proによる評価結果[4, 9]

質問id=85, 質問カテゴリー=会話 「写真に写っている花は何ですか?」

llava-calm2-siglipの回答

写真には、桜の花が写っています。

——————————————–

写真は **桜** です。特に、**ソメイヨシノ**の可能性が高いです。ソメイヨシノは、日本で最も一般的な桜の品種です。

これもとても正解に見えます!笑

gemini-1.5-proによる評価結果[6, 7]

質問id=86, 質問カテゴリー=会話 「写真に写っている花は何分咲きでしょうか?」

llava-calm2-siglipの回答

この写真では、桜の花が満開の状態です。

——————————————–

写真を見る限り、桜は**7~8分咲き**くらいだと思われます。花が密集して咲いており、枝もほとんど見えなくなっています。満開までもう少しといったところでしょうか。美しいですね!🌸

私の感覚だと満開で前者が満点に見えるのですが、gemini-1.5-proだと6点ですね。。。なぜでしょう。。。

gemini-1.5-proによる評価結果[6, 4]

質問id=87, 質問カテゴリー=詳細 「この写真について詳しく説明してください。」

llava-calm2-siglipの回答

画像には、桜の花が写っています。桜は、日本の国花であり、春になると全国各地で花見が行われます。画像の桜は満開で、花びらが散り始めています。花の色は、淡いピンク色で、とても美しいです。枝には葉っぱも茂っており、緑色が鮮やかです

——————————————–

この写真は、満開の桜の枝をクローズアップで捉えています。花は繊細で、白い花びらが重なり合っており、ところどころにピンク色が混じっています。花の中心には、繊細な黄色い雄しべが見えます。背景には、青く澄み渡る空を背景に、ぼんやりと見える桜の花が、写真の全体的な美しさに貢献しています。

こちらはオープンな質問なので、ざっくりまぁって感じですね

gemini-1.5-proによる評価結果[6, 7]

Heron Japanese Bench/Heron VLMリーダーボートの感触

まず、あえてここに書きますが、「評価方法」については、元のHeron Japanese Benchにも、HeronVLMリーダーボード場にも記載方法がありません(6/16)

現状のリーダーボードでは以下の点が推測できます

  • 評価に使っているのはgemini-pro-1.5
  • 推論を2度行い、それぞれ評価(しておそらく平均取っています)
  • 評価は10段階
  • 明確な判断基準はない(ex. 「評価としては、正確さは高いものの、情報の深さや詳細さが不足しているため、中間の評価とします。 Rating: [[6]]」とあるように、何となく中間といった様子がうかがえる)
  • 評価自体はかなり不安定(上記の通り、”満開です”が満点にならないなど。体感±3くらいは揺れそうです)

といった印象を受けました。wandbからの詳細な発表があり次第更新したいと思います♪

Llava Bench(in the wild)

Llava Bench(in the wild)の実際のデータの確認

再掲ですが、以下のHugging Faceにデータセットがあります♪

liuhaotian/llava-bench-in-the-wild at main
We’re on a journey to advance and democratize artificial intelligence through open source and open science.

また、ベンチマークの内容については概要はこちらにあります!

LLaVA/docs/LLaVA_Bench.md at main
Visual Instruction Tuning (LLaVA) built towards GPT-4V level capabilities and beyond. - haotian-liu/LLaVA

内容を簡単に整理すると

  • 画像の枚数は24枚
  • 質問は60個(1枚につき1-4つの質問が関連付け)
  • 画像は、屋内、屋外、スケッチ、絵画など多岐にわたる

Llava Bench(in the wild)をベースとして、Japanese-heron-benchが構築されたようです!

画像① 019.jpg

質問id=45, 質問カテゴリー=詳細 「このスケッチを詳しく説明してください。」

llava-calm2-siglipの回答

画像には、方眼紙の上に書かれた手書きのメモが映っています。メモには、「My Joke Website」というタイトルがあり、その下に「Always dummy joke. 2. Eppur to puch to reveal punchline. (2022)」と書かれています。

——————————————–

このスケッチは、ジョークを表示するウェブサイトのシンプルなデザインを表しています。 **レイアウト:** * **ヘッダー:** ページ上部に「My Joke website(私のジョークウェブサイト)」というタイトルがあります。 * **コンテンツエリア:** ヘッダーの下には、ジョークとその表示方法が記載されたボックスがあります。 * **フッター:** ページ下部には、OpenAIのロゴと「2023」という年号が手書きで書かれています。 **コンテンツ:** ウェブサイトには、次のような形式でジョークが表示されます。 * **”[とても面白いジョーク 1]”** * **”[パンチラインを表示するには押す]”** この形式は、2つ目のジョークにも繰り返されます。各ジョークの最初は表示され、ユーザーはボタンまたはリンクをクリックしてパンチラインを表示する必要があります。 **目的:** このスケッチは、ユーザーがジョークを読んでパンチラインを表示できる、基本的なジョークウェブサイトのアイデアを捉えています。これは、ウェブサイトのレイアウトや機能の初期のコンセプトを表している可能性があります。 **その他の注意点:** * スケッチは手書きで、非公式なスタイルです。 * デザインは非常にシンプルで、具体的な

画像自体は英語ですが、英単語自体は何となく読み込めていることが分かります!

gemini-1.5-proによる評価結果[2, 6]

質問id=46, 質問カテゴリー=詳細 「このモックアップをカラフルなウェブサイトにするための簡潔なHTML/JSを書き、ジョークを2つの実際のジョークに置き換えてください。」

以下は、カラフルなHTMLとJavaScriptで書かれた、ウェブサイトのモックアプです。
——————————————–
“`html <!DOCTYPE html> <html> <head> <title>My Joke Website</title> <style> body { font-family: sans-serif; background-color: #f0f0f0; } .container { width: 500px; margin: 50px auto; background-color: #fff; padding: 20px; border-radius: 5px; box-shadow: 0 0 10px rgba(0,0,0,0.1); } h1 { text-align: center; color: #333; } .joke { border: 1px solid #ccc; padding: 10px; margin-bottom: 10px; border-radius: 5px; background-color: #f9f9f9; } .punchline { display: none; margin-top: 10px; padding

頑張っていますが、GPT4vのデモのように生成は難しそうです

gemini-1.5-proによる評価結果[1, 3]

画像② 022.jpg

おいしそう🍜
一蘭のラーメンですね♪

質問id=51, 質問カテゴリー=会話 「これらの料理を出すレストランの名前は何ですか?,これらの料理を出すレストランの名前は何ですか?」

llava-calm2-siglipの回答

レストランの名前は「ラーメン」です。

——————————————–

この写真からレストランの名前を特定することはできません。写真には、ラーメン、海苔、ネギ、七味唐辛子、抹茶などの料理が写っていますが、レストランの名前を示すものは何もありません。

これはラーメン好きな人なら即答かもしれませんが、ラーメン食べないなら人間でも難しいかもしれませんね。😅

gemini-1.5-proによる評価結果[2, 5]

質問id=52, 質問カテゴリー=詳細 「この写真について詳しく説明してください。」

llava-calm2-siglipの回答

画像には、ラーメンのどんぶり、レンゲ、お茶、小皿が写っています。どんぶりは黒色で、中央に白い麺、チャーシュー、メンマ、海苔、刻みネギがのっています(レンげは緑色)。お茶は緑色で湯呑みに入っています、お皿の上には小鉢に入った薬味(おそらく唐辛子)が乗っています

——————————————–

写真は、伝統的な日本のラーメンのボウルを上から撮ったものです。ラーメンは、複雑な模様とデザインが施された黒いボウルに入っています。 ラーメン自体は、クリーミーな黄色のスープで、中央に麺の山が見えます。麺の上には、細かく刻んだネギ、赤みがかった茶色の調味料、スライスしたチャーシュー(ローストポーク)がトッピングされています。 ラーメンボウルの左側には、海苔のシートが置かれた小さな黒いボウルが見えます。ラーメンボウルの右側には、細かく刻んだネギと茶色の具材が入った小さな白いボウルがあります。その隣には、鮮やかな緑色の飲み物が入った、模様の入った紙コップがあります。これは、おそらく抹茶です。 背景には、竹製のプレースマットまたはテーブルの一部が見えます。写真の右端には、箸が置かれています。 全体として、写真は、食欲をそそる、本格的な日本のラーメンの盛り付けを捉えています。さまざまな色、質感、盛り付けが、料理の視覚的な魅力を高めています。

どちらも具材などについて説明しています。採点基準などはよくわかりませんね

gemini-1.5-proによる評価結果[3, 7]

質問id=53, 質問カテゴリー=複雑 「もし誰かが料理に新しい味やトッピングを勧めるなら、その変更の理由と、それによって全体の味がどのように変わるかを説明してください。,もし誰かが料理に新しい味やトッピングを勧めるなら、その変更の理由と、それによって全体の味がどのように変わるかを説明してください。」

llava-calm2-siglipの回答

新しいトッピングは、おそらく味と食感の多様性を提供し、より豊かな風味と食感を味わうことができます。

——————————————–

このラーメンのボウルには、すでにネギ、豚肉、唐辛子が入っているようです。味とトッピングの提案をいくつかご紹介します。 * **ゆで卵** – ゆで卵のクリーミーな黄身がスープの濃厚さを増し、食感も加わります。 * **きのこ** – しいたけやえのきなどのきのこは、ラーメンにうま味と土の香りを加えます。 * **竹の子** – 竹の子は、ラーメンに心地よい歯ごたえを加えます。 * **海苔** – 海苔の風味と塩味がスープに深みを加えます。 * **トウモロコシ** – トウモロコシの甘みと食感が、ラーメンの塩味と濃厚なスープによく合います。 * **ラー油** – ラー油を少し加えると、ラーメンにピリッとした辛味を加えることができます。 これらのトッピングを追加すると、ラーメンの風味と複雑さが増し、より満足のいく食事になります。

これはLLMにやってもらうにはなかなか難しそうですね😅

gemini-1.5-proによる評価結果[3, 6]

注意

元の質問は

questions.jsonl
We

にあるように、英語です。これを日本語に変換したものをwandbのリーダーボード、Heron VLM Benchで使用していると予想できます。

LLava Bench(in the wild)の感触

Japanese Heron Benchの英語版というか、元のバージョンで内容としてはとても似ています。

英語の生成評価をする際には良いかなと思いました。

日本語の精製能力を確認する際には、Japanese Heron Benchのほうが良さそうと感じました。

Heron VLM リーダーボードのベンチ内容と計測できないこと

このwandb社のリーダーボードでは、基本的には自然画像での質問回答を測ることにフォーカスしています。そのため、以下のパターンの画像ではVLMの性能評価はできません

  • (特に日本語の)単純なOCR系の処理
  • パワポやPDFなどの資料系の処理
  • 請求書など日本語の資料を撮影した日本語の画像のQA

といった内容は無さそうです。

評価可能な内容としては

  • アニメ絵や風景画についても質問・回答
  • アニメ絵や風景画について説明の作成

あたりにフォーカスしたベンチマークのような印象を受けました!

長くなりましたが、ご拝読ありがとうございました!

タイトルとURLをコピーしました