創屋ぷれす

チャンキング(RAG)

チャンキングは複数の意味があるそうですが、今回は情報処理の技法という意味のチャンキングについて記述します。
チャンキングとは、複数の情報を塊に分けることです。これにより処理効率が向上したり、データ分析がしやすくなります。
RAGにおいて、チャンキングは回答の質を左右する、とても重要な技術です。

・固定長チャンキング法
→固定の文字数で分割。実装は簡単だが、文脈が欠落しやすいので、オーバーラップ技術と組み合わせは必須になる。
・セマンティックチャンキング法
→区切り文字(、や。や?など)で短くした文の意味を数値化して、意味が異なる箇所で分割。意味の塊で分割されるので、文脈が保持されやすい。
・文書特有チャンキング法
→主に、マークアップ形式の文書が対象。タグや文書構造で分割。構造化されていないExcelやWordでは使用できない。

など、他にも方法があるので、ドキュメントの様式や用途に合わせて、使い分けると良いです。

創屋のホームページはこちらから

Post navigation

Comments are closed.