【LLM関連キーワード】デコーダー型とは？【ざっくり解説】

こんにちは！みうです！

今日は「デコーダー型」についです。LLM調べているとたまーに見かけますよね！

それでは見ていきましょう！

3つのtransformerの形式

Transformerのパーツには以下の種類と用途があります♪

さっくりこんなイメージです

Decoderというのは、名前の通り、本来は”出力すること“が役割です。入力した文章をそのまま出力するだけです。LLMにおいてはpadding tokenがある部分に生成を行います。

詳細はこちらを読んでください♪

実際のところ、あまりLLM以外では見かけない使い方です。

さっくりこんなイメージです。

文章を入力してベクトルを出力します。LLMのように文章は生成されません。

このEncoder型のモデルはよくRAGで使用されます！

質問や参考文章をベクトルにします。このベクトル同士で類似度を出力して関連文書上位を抽出してLLMに回答させます。

RAGの精度を求める上では非常に重要なパーツです♪

Bi-Encoderは2つのEncoderを使って文書の類似度を計測する方法です！

Bi-Encoder形式のメリットは

Bi-Encoder形式のデメメリットは

質問も参考文書群も入力して、その文章同士の類似度を出力します。

そのため、Bi-Encoderにあった類似度計算はなく、この類似度計算の構造そのものを内部に取り込んでしまったような構造をしています。

Cross-Encoder形式メリット

Cross-Encoder形式デメメリット

Encoder-Decoder型は一昔前までは翻訳や要約で非常に使われていたアーキテクチャでした。近年はLLMにそのポジションを取られつつあります。

基本的には、LLMではなくBERTなどでも散られている構造で、

入力: はじめまして

出力: Nice to meet you.

となるように学習されます。

翻訳をする場合は以下のイメージです

Encoder-Decoder型の場合は、入力した文から直接そのタスク(翻訳)を行うことに対して

Decoder型は、入力文の続きを予測する形でタスク（翻訳）を行います。

LLMはデコーダー型、のようなことをたまに聞きますが、あまり意味がよくわかってない人も多いかなと思いまとめてみました♪

豆知識としてみなさんの役に立てば幸いです！ありがとうございました！