こんにちは!みうです!
Meta社からLlama3のVision対応したモデルが公開されました!最近、GPT4oの画像処理性能の高さにびっくりしましたが、Llama3-Vがどうか見てみましょう♪
なお、結論から言うと、
特に日本語の性能においては、GPT4oのレベルには全く至っていません。
公式ページなど
■github
GitHub - mustafaaljadery/llama3v: A SOTA vision model built on top of llama3 8B.
A SOTA vision model built on top of llama3 8B. . Contribute to mustafaaljadery/llama3v development by creating an account on GitHub.
■huggingface
mustafaaljadery/llama3v · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
■デモページ(めっちゃ遅いです)
LLaVA++ (LLaMA-3-V) - a Hugging Face Space by MBZUAI
Discover amazing ML apps made by the community
今回はこのでもページと、以下の記事でGPT4o試したプロンプトをそのまま入れてみて結果を比較してみましょう!
画像プロンプトによる検証
①画像+画像に関する質問
質問
ゴミ袋の容量は?
GPT4oの回答
この画像に示されているゴミ袋の容量は45リットルです。
Llama3-Vの回答
ゴミ袋の容量は45kgです。
数字はあってますけど単位が間違ってますね。笑
ちょっと笑っちゃいました。
質問
3連単の払い戻しはいくらですか?
GPT4oの回答
3連単の払い戻し金は、916,640円です。
Llama3-Vの回答
The 3連単の払い戻しは1,200円です。
Llama3-Vは全然だめですね
②単純な文字起こし
質問
この画像を**すべて**文字起こししてください
GPT4o
(中略。完璧に文字起こし)
Llama3-V
[0.0, 0.17, 0.99, 0.83]
よくわからないものが出力されてしまいました💦
まとめ
少なくとも日本語の性能において、GPT4oのような性能はありません。
まだまだダメそうですね。。。