レイトチャンキングとは

レイトチャンキングとは、文書をベクトル化(埋め込み)する前処理で、先に文書全体をモデルへ読み込ませてから、後で断片(チャンク)に切り分ける手法です。埋め込みモデルを手がけるJina AIが2024年に提案しました。

英語表記:Late Chunking

RAG(検索拡張生成)やベクトル検索では文書をチャンクへ分割しますが、従来の順番は「先に切ってから1つずつベクトル化」でした。すると「その都市」「同社」といった指し示す言葉が何を指すのか、断片単体では分からなくなります。レイトチャンキングは順番を逆にし、文書全体を読み込んだ状態で各部分のベクトルを作ってから切り分けるため、前後の文脈が各断片に残ります。本を1冊読み終えてから章ごとの要約を書くイメージに近いでしょう。名前の「レイト(late)」は、切る工程を後回しにすることから。追加学習なしで使えるとされる一方、文書全体を一度に読める長文対応の埋め込みモデルが前提になります。モデルを替える前に、文書の切り方を疑う。RAGの精度改善で、そんな視点を与えてくれる手法です。

Topic「ベルリン」が検索から消える問題って?

Jina AIの解説記事は、Wikipediaのベルリンの記事を例にこの問題を示しました。記事の後半の文は「その都市」のような言い換えでベルリンを指すため、普通に切るとベルリンに関する検索でその断片が拾えなくなるのです。切る順番を変えるだけでこの取りこぼしが減るという、前処理の工夫の効き目がよく分かる実例です。

レイトチャンキングに関するよくある質問

どんな埋め込みモデルでも使えますか?
前提条件があります。文書全体を先に読み込む設計のため、長い文章を一度に扱える長文対応の埋め込みモデルが必要です。読み込める長さが短いモデルでは効果を出しにくい手法です。
いつ登場した手法ですか?
Jina AIが2024年8月に解説記事を公開し、同年9月に論文を発表しました。RAGの精度改善の研究が活発だった時期に、モデルではなく前処理の側から提案されたアプローチです。

あわせて読みたい記事