みなさん、こんにちは!みうです!
さて、OpenAIから最新の強烈なAI、GPT4oが公開されましたね!
今日はこのGPT4oの
- 無料の試し方
- 特徴
- まだ出来ないこと
に加えて、GPT4oの傾向を踏まえて、私みうの
- OpenAIの次に発表するかもしれないAIの予想
をまとめたいと思います!
無料の試し方
OpenAIのアカウントがあれば簡単に試せます!
OpenAIの発表ページを開く
「Try in Playground」を押しましょう♪
ログインしていれば、プレイグラウンドが開きます!GPT-4oとなっていますね♪
なお、このアカウントはChatGPTプラスに課金していないので、無料でも使用可能なことが分かりますね♪
特徴① 高速な出力
適当に出力させてみましょう♪
2秒ほどで130token(138文字でした♪)が出力されました!結構早いです!
特徴② すっごい高い画像処理性能
もうとりあえずこれがめちゃめちゃすごいです!GPT4Vでは、日本語での画像理解が弱かったのですが、GPT4oは日本語の画像クオリティがすごい高いです!!
では、いくつか見てみましょう
画像に対する質問
私の好きな春日部市のごみの捨て方の画像を使ってみましょう!(https://www.city.kasukabe.lg.jp/material/files/group/81/2024kanengomi.pdf)
チャット画面の横のボタンから画像添付ボタンを押します!(必要に応じて上部のほうき
マークで過去履歴を消しましょう)
出力結果
お、ちゃんと読めてますね!
追加でマルチターンのチャットをしてみます♪
お~ちゃんと答えられています!
次に、実際にスマホで撮った写真で試してみましょう♪
実は初めて競馬場行ったビクトリアマイルで大番狂わせが起きた際に私が撮影した写真です(笑)
この写真でいろいろ実験してみましょう
おーあってます!画像内だと数字は結構小さいと思いますし、横にある漢字も読めていないと回答できないのですごくよく読めています。
次にワイドの払い戻しを聞いてみましょう
これは間違ってますね。隣にあった複勝の払い戻しと勘違いしてしまったようです。
かなり高く画像中の日本語を解釈できていますね♪
完璧ではなさそうですが、かなり精度が高いです!
複数画像の添付
春日部市の不燃ごみの画像と合わせて2枚の画像を添付してみましょう
お、正解です!
可燃ごみに「ヘルメットは不燃ごみ」とあるので聞いてみます
これも正解です!
最後に、記載にないものを聞いてみましょう。
小型電子機器から、ディスプレイは不燃ごみと予測してしまっていますね。
とはいえ、画像自体は読めていそうなのでプロンプトでコントロールできるかもしれません。
ところで、Latencyは複数画像入力しても増えませんでした。
画像のエンコードはバッチ処理しているのかもしれません。
単純な文字起こし
特定の質問ではなく、すべて文字起こししてみましょう
とても良い感じです!
画像の扱い
ところで、この画像、およそ800トークンが使われています。
文章部分が40トークンほどでしたので、およそ760トークンが使われています。このせいで少し返信が遅くなっていますね!この画像サイズが4080×3072なので、試しに画像サイズを半分にして試してみましょう
変わらないんですね!なので、APIの中で、画像をリサイズして正規化してそうですね。
GPT4oの特徴
基本的には、英語の公式ページを要約して説明します♪
最大の特徴
GPT4oの最大の特徴は、音声、画像、テキスト、ビデオの4つマルチモーダルLLMで学習されていることです。
デモを見る形だと
入力: 音声、画像、テキスト、ビデオ
出力: 音声 or テキスト
という形のようです。
OpenAIがオフィシャルに発言していますが、従来のLLMでは、音声でLLMと対話するには、
- 音声をテキストに変換(Whisperなど)
- テキストをLLMに入力
- LLMの出力を自動発話するSWに入力
というパイプラインになります。一方GPT4oは
- 音声をGPT4oに入力、音声をGPT4oが出力
という形で直接学習されています。これによりリアルタイムに対話できるようになったようです♪
まだ出来ないこと
GPT4oを画像+チャットする機能は解放されていますが、「音声入力」と「音声出力」は今のところ使えません。公式のデモ動画からのみ確認することが出来ます。
かなり詐欺などネガティブな用途に活用される可能性も高く公開には慎重に進めるかなと思います♪
まとめ
本日はOpenAIによって公開されたGPT4oの簡単な試し方とその特徴についてまとめました!
皆さんの参考になれば幸いです!