最近私の感じる”Azure依存リスク”と今後のクラウドLLMサービスの行方【オンプレ】【LLM】【費用】

こんにちは！みうです！

今日はお金の話です。ビジネスをする上では非常に重要な内容ですね。

LLMのランニングコストはとても費用がかかる
1. 結論① GPUが高額すぎて、LLMを動かすのは金がかかる
AzureOpenAIはどういう仕組みなのか
1. 結論②　AzureOpenAIはかなり安く売りだしていると思われる
NvidiaのGPUについて
1. 結論③　MicrosoftやAWS、Google、MetaはNvidiaのGPUが高くても買いまくっている
ここまでの情報の整理と関連付け
まとめ

LLMのランニングコストはとても費用がかかる

LLMの動作にはGPUが必要です。このGPU、言うまでもないですが高いんですよね

例えば、1枚で、13B相当のLLMがギリギリ推論できるA40(48GB)は、本日の地点で330万程度で販売しています。

2枚で、7x8Bや70BのLLMがギリギリ推論できるA100(80GB)はもはやありません。

ただ、前述のとおり、A100はA40よりGPUメモリが大きく、基本的にはA40よりは高くなります。そしてこれが2枚あって、やっと8x7Bや70Bが推論できます。700万円～1000万円くらいは必要そうですね

最新のH100は約500万円で売っています。

また、最新のB200は1000万円程度(B100で500万円程度)で販売しています。

高くないですか？

これらのGPUはそもそもかなりでかいため、当然そこらのPCには刺さらず、ちゃんとしたサーバーが必要です。サーバー代、電気代、メンテナンスの費用、トータルだとかなりかかります。

結論① GPUが高額すぎて、LLMを動かすのは金がかかる

ほんと頭が痛いです

AzureOpenAIはどういう仕組みなのか

SAASですから、以下のような仕組みであることが推察されます。

デプロイという名前になっているため、個社で1個のGPUマシンが使っているように見えますが、歳費的に現実的ではありません。また、別途、「GPUマシンごと借りる形態」の契約があることから、基本的にはAzureのデプロイする形式は、広い範囲でGPUを共有している形態ということで間違いはないでしょう

AzureにはPTUという形式があります。プロビジョニングスループットの略で、GPUを占有的に使える形の契約ですね。費用感は以下でつぶやいている方がいらっしゃいました。

販売は 50PTU単位で $15,6000.00/month ですねぇ。Azure OpenAI Studio内に購入するメニュー項目ありますよー pic.twitter.com/si5CH5hi8K
— はぇ～ (@haxe) June 2, 2024

15万6000ドルというのは、2500万円/月です。うわぁって感じしますよね

おそらくこれは、Azure側でしっかり利益が出る構造の費用となっています。

一方、Azure OpenAIのトークン当たりの料金は「OpenAI社のAPI費用」を追随しています。

https://azure.microsoft.com/en-us/pricing/details/cognitive-services/openai-service/

ポイントは、AzureOpenAIの費用は、OpenAIの費用に追随しているという点です。

AzureOpenAIは必ずしもクラウドベンダとして「利益のでる費用設定」を出来ているとは限らず、赤字覚悟のかなり厳しい値段設定をしている可能性があります。

例えば、Azureが利益を出すための試算をしてみます。

Azureの提供しているA100のGPUのインスタンスの料金は

Standard_NC48ads_A100_v4

およそ月140万円程度です(為替に依存して変動)。月140万円は売価ですから、当然利益も含まれています。

このA100x2枚のインスタンスでは、8x7Bや70Bなどの重たい分だけ精度に優れたLLMを推論することが可能です。おそらくGPT4も速度を見るにこの程度と推測しています。

必要なGPUは、
元のパラメータ量 x 対応可能なトークン長 / 量子化
あたりで見積もれます。長文対応なモデルはデプロイでそもそもコストがかかります

では、AOAIがこの140万円のインスタンスからSaaSでサービスするとします。少しだけブレイクダウンしてみます。

140万円/月=35万円/週=5万円/日=2100円/時

最低でも1時間に2100円程度必ず稼ぐくらいが最低ラインとなります。

GPT4(8k)の費用は、

入力(1kトークンあたり)：0.03ドル=4.5円

出力(1kトークンあたり)：0.06ドル=9円

です。RAGのように入力トークンが多いユースケースもあれば、「旅行プランを考えて」のような出力が多いユースケースもあります。試算上は今回は、平均で、

6.75円/1kトークン

とさせてください。

この時、2100円を稼ぐために必要なトークン量が計算できます

2100円/時 = 311kトークン/時 = 280k文字/時 = 28万文字/時

28万文字、なかなかに多いです。

ここで、もう別軸から計算してみましょう。LLMは多少並列に推論を行うことができますが、パラメータが多いほど推論は遅いです。

例えばこちらの記事では、GPT4の推論時間は以下のように測定されています

OpenAI APIとAOAIでのChatGPTの推論速度を比較してみた - Qiita

株式会社TimeTechnologiesでエンジニアをしている@higeo2019です。この記事はBrainPad Advent Calender 2023 7日目の記事です。はじめに ChatGPTを使ってアプリやサービスを作ろうと思うと、推論速度はどうしても気に...

https://qiita.com/higeo2019/items/df730f08b36e787daa00

GPT4では、1トークンの生成に60ms程度かかります。

逆に言うと1並列の条件下において

1時間=60分=3600秒において、3600 / 0.06 = 60k(トークン)

生成することができます。

ここまでの状況を整理します

A100x2枚程度必要なLLMを稼働させて元を取るには、311kトークン/時が必要
GPT4の推論速度では、1hに60kトークンしか生成できない
このため、最低でも、5人が並列の状態で昼も夜も同時にパンパンにリクエストを送り続けないといけない

ちなみにLLMは同時接続数を増やすと、生成時の遅延が大きくなる傾向にあります。それを改善するにはインフラを強くする必要があり、コストが上がります

結論②　AzureOpenAIはかなり安く売りだしていると思われる

結局のところ、GPUやインフラを含めた投資の回収は、AOAI単体では出来ていないと思われます。一方、AOAIを使うことで、プライベートエンドポイントやストレージなどほかのサービスを使う可能性も高く、そこなど周辺サービスの使用率上昇は多少考えられます。

そして、GCPやAWsなど他社ベンダーも、Azureの費用をターゲットに価格決めをしていると思われ、低価格でのサービス提供を強いられていると思っています。

NvidiaのGPUについて

NvidiaのGPUを買っているのはどこか、というのをまとめていた記事がありました。

Meta、Microsoft、Google、Amazonの4社でH100の売り上げの40%を占めるそうです。

学習でも推論でも使うとはいえ、相当買っていますね

GPUの故障は

適切な使用をしていればそこそこ持ちます。

冷房がOFFにされているとGPUは90度くらいまで上昇して壊れることはあります。適切に空調が効いていれば問題はありません。

H100は保証期間が3年間となっています。

単純な話、毎年1万基のGPUを買っていれば3年後には3万基のGPUを積んだサーバーの運用が必要になります。

とはいえ、アメリカの超大手がこれだけの量を買ってくれるという超高需要な環境下では、Nvidiaは高付加価値によって稼ぐべきです。

そのため以下のような記事が見受けられます

NVIDIA Hopper H100の利益率は驚異の約900%。納期は2024年後半まで伸びる可能性も | GAZLOG

ChatGPTやMidJourneyなど生成AIブームによって、これらのAIの動作に対して絶大なパフォーマンスを誇るNVIDIAのHigh Performance Computing（HPC）向けグラフィックカードあるHopper

めちゃめちゃ稼いでますね💦

結論③　MicrosoftやAWS、Google、MetaはNvidiaのGPUが高くても買いまくっている

ここまでの情報の整理と関連付け

ここまでの情報を整理すると以下のようなお金の流れになりそうなイメージを持っています

以下のイメージです

[GPU開発ベンチャー]Nvidia
現状もっとも利益を得ている。スピード感をもってAIブームの覇者になるべく動くクラウドベンダーすべてに高額なGPUを卸し続けており、高い利益率で稼ぎ続けている。

[LLM開発ベンチャー]OpenAIなど
基本的にベンチャー企業であり、投資を得るのが最も重要なミッション。単体で稼ぐよりも企業価値を高めるのが重要であり、LLM開発ベンチャーにおいては、LLMを多くの人使ってもらい、知名度、商品としてのLLMの有効度を広めるのが重要。低価格で広くLLMを使ってもらい価値を上げたい。

[ユーザー企業]日本企業含め多くの企業
安価なLLMのサービスで技術検証を進め、業務効率化や価値創出をしたい。OpenAIやAOAIの価格を前提としてサービス化や商品化を進めている。適正価格となった際にふりを被る可能性もありうる

[クラウドベンダー]Azure, AWS, GCPなど
LLMを使った生成AIのサービスとその周辺基盤獲得のために、先行投資を進めて覇権を争う

この図の形にすると、クラウドベンダーの戦略・金によってこの大きな流れは全てクラウドベンダーから出ているんだなぁとしみじみ感じます。

一方、クラウドベンダーから出ている投資が渋ったシナリオというのも考えられます。

その場合、