【RAG】RAGの仕組みと上手くいかない理由5選を解説！【RAG改善！】

こんにちは！みうです！

今日はRAGのざっくり仕組みと、作ってみるとRAGの改善候補5点をご紹介します！

RAGの仕組み

まずは、RAGの全体像を書いてみます。ここでは少し細かめに記載してみます。

流れを追っていくと

[事前に一度のみ]pdfやdocxなどのファイルを文章に変えて、チャンクに切ります。チャンクとは文章のブロックで、LLMのトークン上限に触れないように小さな単位に分割することです。
[事前に一度のみ]このチャンクを文章ベクトルに変えます。有名なのは、OpenAI-ada-002系です。
[質問時]ユーザーからの質問をベクトルに変換します。この質問ベクトルと、文章ベクトルで類似度を測って、類似している関連文章を数件、抽出します。
[質問時]この数件の関連文章をプロンプトに入れて、参考文章付き回答生成プロンプトを作成します。あとはこのプロンプトでLLMに回答してもらいます。

というステップで処理します♪

RAGを改善したい場合、全体的なアーキテクチャを把握しておくことが大事であるため、細かめに記載してみました🍖

Azure OpenAI(AOAI)を活用する場合、openai-ada-002を使用して検証することも多いですが、このopenai-ada-002は別に、検索精度が優れているわけではありません。

私の経験上は以下のような検索に特化したモデルでくみ上げることで精度が良くなることを確認しています♪

3つとも、MITやapache2.0で公開されており、商用利用可能です♪

「文章間の類似度」だけでベクトル検索するのは限界があり、工夫をしたベクトル検索用のモデルが活躍します🍕

資料やチャンクが多すぎると以下のネガティブポイントがあります。

ユーザー視点で考えた際に「RAGの対象の資料がイメージできない」のはとても活用されづらいです。そもそも私たちは、「社内の情報をLLMに聞いても回答できない」ことを知っています。もし「社内情報を何でも答えるRAGシステム」があっても、そもそも質問されなければ意味がありません。そのため、「社内情報を何でも答えるRAGシステム」よりも「社内の出張のことならなんでも答えられるRAGシステム」のほうがユーザーとしては便利に活用することができるでしょう。

管理は大変かもしれませんが、少人数の管理で大多数の社員様が便利になるならよろしいのではないでしょうか🍰

イマイチ例	イマイチ内容	改善例
図	・図中の文字が完全に読み取れていない・図中の矢印や「〇」が読み取れない・図が複雑すぎて人間でも読み取りが難しい	図は現状は、・無視する・人力で文章形式に修正する・VLM(GPT4V)を使ってみるなどが取り組まれていますが、まだまだこれからです。
表	・フォーマットが完全に崩れている(行や列など) ・結合されたセルが処理できない	表はシンプルな図であれば機械的に文字起こしする場合もあります。一方結合等のある表の場合は、こちらも無視したり、人力修正になる場合もあります。
文章前処理	・「半角スペース」「全角スペース」「改行コード」などが多すぎる・ページマタギでやヘッダーフッターが悪さする場合がある	ここは、普通にデータを見て、対応してください。一般的な自然言語処理ですから、データ見て、対応していくことが重要です。
チャンクの切れ目	・中途半端なところで文章を切ってしまう。・チャンクが短すぎる/長すぎる	RecursiveCharacterTextSplitterが私は好みです。こちらを使えば・「。」や「.」などの区切り文字でチャンク分割が可能・文字数ではなくトークン数で分割が可能など、いい感じです♪