こんにちは!みうです!
今日は、話題(?)のチャットデータセット、ShareGPTについてです。
ShareGPTとは?
こちらは、モデルの名前ではなく、LLMをチャット可能にするチャット形式のデータセットの1つです。
意図は不明ですが、本来の機能としては、「Chromeのextensionで、ChatGPTとの会話履歴を共有(Share)できる」です。この共有機能をかき集めた結果、ChatGPTを蒸留したShareGPTデータセットとなっています。
OpenAIの利用規約は?
OpenAIの利用規約にはこのようにあります。
What You Cannot Do. You may not use our Services for any illegal, harmful, or abusive activity. For example, you may not:
– Use Output to develop models that compete with OpenAI.できないこと。当社のサービスを違法、有害、または虐待的な活動に使用することはできません。例えば、
https://openai.com/policies/terms-of-use
– OpenAIと競合するモデルを開発するためにOutputを使用することはできません。
一般にこの「ほかのAIのモデルの出力を使って、次のモデルを学習すること」を”蒸留”と言います。
ShareGPTはOpenAIの利用規約に抵触する?
世間の流れとしてはグレーゾーンです。私の感覚は黒に近いグレーです。
“抵触する”と解釈する場合
OpenAIの利用規約は、自然に「LLMの開発にChatGPTなどの出力を用いてはならない」と解釈でき、この制約はLLMの開発者に課せられると考えます。蒸留に該当するため、完全にNGという考え方です。
“抵触しない”と解釈できる場合
ところで、これはあくまで所詮、OpenAIのサービス(ChatGPTのwebサービスやAPIサービスなど)の利用規約です。つまり「”利用者は”LLMの蒸留のためにこのサービスは使ってはならない」と考えることも出来ます。こちらの考え方では、登場人物が2人登場します。
- [利用者]ShareGPTを使ってChatGPTの優れたチャットを共有したい(だけ)
- [開発者]ChatGPTを開発者本人は利用せずに、ShareGPTの共有された内容からチャットのデータが手に入る
結局のところ、OpenAIの規約を守らない場合、”OpenAIのサービスが今後利用できなくなる”等のペナルティがある場合がありますが、「開発者は別にOpenAIのサービスを利用して学習データを集めてません」。ここが規約の隙をついている形になります。
OpenAIの規約は、利用者が守るべきものか、LLMの開発者が守るべきものか、解釈の余地が残ってしまっているのがそもそも微妙なんですよね
ShareGPTを使っているLLM
Lightblue社のLLM
本日、2024年5月1日現在、Lightblue社は積極的にOpenAIのモデルを蒸留するスタンスでLLMを開発して公開しています。
近日公開されたllama3ベースのsuzumeモデルも、ShareGPTに加え、独自のGPT4独自蒸留データを使って学習されているようです。
ページに利用したデータセットが明記されているのは素敵ですね♪
Elyza含め、インストラクションデータに関してはあまり記載がなかったり情報を公開していないことが多いです。
結局、商用利用可否はどうか
結論から言うと私は判断しきれず、「グレー」です。OpenAIがもう少し具体化してくれないと白黒はっきりはしなさそうですね。
研究においての利用は問題はなさそうですが、ビジネスなど商用活用においては「白ではない」は黒として扱うのも一案かなと思います。余計なリスクですからね
まとめ
本日は物議をかもしているデータセットShareGPTについてまとめました♪
参考になれば幸いです!