【Metaの最新LLM】LLama3-VとGPT4oを簡単に比較してみる【検証】

LLM

2024.05.29

こんにちは！みうです！

Meta社からLlama3のVision対応したモデルが公開されました！最近、GPT4oの画像処理性能の高さにびっくりしましたが、Llama3-Vがどうか見てみましょう♪

なお、結論から言うと、

特に日本語の性能においては、GPT4oのレベルには全く至っていません。

目次

公式ページなど
画像プロンプトによる検証
1. ①画像＋画像に関する質問
2. ②単純な文字起こし
まとめ

公式ページなど

■github

Build software better, together

GitHub is where people build software. More than 150 million people use GitHub to discover, fork, and contribute to over 420 million projects.

■huggingface

404 – Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

■デモページ(めっちゃ遅いです)

LLaVA++ (LLaMA-3-V) - a Hugging Face Space by MBZUAI

This application lets you generate responses from a text-based model. You need to provide text prompts, and it will return text answers. It uses a specific mode...

今回はこのでもページと、以下の記事でGPT4o試したプロンプトをそのまま入れてみて結果を比較してみましょう！

画像プロンプトによる検証

①画像＋画像に関する質問

質問
ゴミ袋の容量は？

GPT4oの回答
この画像に示されているゴミ袋の容量は45リットルです。

Llama3-Vの回答
ゴミ袋の容量は45kgです。

数字はあってますけど単位が間違ってますね。笑
ちょっと笑っちゃいました。

質問
3連単の払い戻しはいくらですか？

GPT4oの回答
3連単の払い戻し金は、916,640円です。

Llama3-Vの回答
The 3連単の払い戻しは1,200円です。

Llama3-Vは全然だめですね

②単純な文字起こし

質問
この画像を**すべて**文字起こししてください

GPT4o
(中略。完璧に文字起こし)

Llama3-V
[0.0, 0.17, 0.99, 0.83]

よくわからないものが出力されてしまいました💦

まとめ

少なくとも日本語の性能において、GPT4oのような性能はありません。

まだまだダメそうですね。。。

タイトルとURLをコピーしました