セマンティックチャンキングとは

セマンティックチャンキングとは、文書を固定文字数だけで切らず、意味の切れ目を見ながらRAG用の小さなまとまりに分ける方法です。チャンキングの一種で、埋め込みによる文の近さを見て、話題が変わる場所を境目にする発想です。

固定長分割の弱点を補う

固定文字数で切ると、見出しと本文、条件と例外、質問と回答が別々のチャンクに分かれることがあります。セマンティックチャンキングは、意味が近い文を同じ塊に残し、話題が変わるところで切ることで、RAGが根拠を探しやすくする狙いを持ちます。セマンティック検索と相性のよい前処理。

ただし、万能ではありません。日本語の箇条書き、表を含むPDF、規程文の長い条件文では、境目の推定がズレることがあります。固定長、段落単位、意味ベースを小さく比較し、RAGASなどで回答品質を見て選ぶのが安全策でしょう。

Topic実務チュートリアルから広がった発想

LlamaIndexの公式ドキュメントでは、セマンティックチャンキングを、Greg Kamradt氏の動画チュートリアルで提案された概念として紹介しています。研究論文の名前だけで広がったというより、RAGを実装する人たちの具体的な試行錯誤から注目された前処理と見ると、実務寄りの技術だと分かります。

セマンティックチャンキングに関するよくある質問

セマンティックチャンキングは固定文字数の分割より優れていますか?
常に優れているとは限りません。意味のまとまりを保ちやすい一方、文書の言語や形式、しきい値設定によっては境目がズレます。小さく比較して選ぶのが安全です。
どんな文書で効果を試しやすいですか?
見出し、段落、説明文が多いマニュアルやFAQで試しやすいです。表、長い規程文、PDF抽出が崩れた文書では、事前整形や人の確認も必要です。

あわせて読みたい記事