ハイブリッド検索とは
ハイブリッド検索とは、キーワード検索と、意味の近さで探すベクトル検索を組み合わせ、両方の長所を生かす検索方式のことです。RAG(検索拡張生成)でAIに渡す資料の質を高める目的でよく使われます。
「言葉の一致」と「意味の近さ」を足し合わせる
キーワード検索は、型番・専門用語・人名・日付のような「ぴったり一致」に強い反面、言い換えには弱いという性質があります。逆に、意味の近さで探すセマンティック検索は、言い換えや言い回しの違いを越えて拾える一方で、固有名詞の完全一致は取りこぼしがちです。両者を同時に走らせて結果を一つにまとめると、それぞれの弱点を補い合えます。
二つの検索結果をまとめる代表的な方法がRRF(相互ランク融合)です。点数そのものではなく「順位」だけを使って足し合わせるため、ものさしの違う二つの検索を公平に合算できます。どちらの検索でも上位に来た資料ほど、最終的に高く評価される仕組みです。
なぜ検索の質が大事なのか
RAGでは、AIが見る前の「資料探し」の質が、そのまま回答の質を左右します。言い換えにも固有名詞にも強い検索でより的確な資料を渡せれば、AIの答えも的確になるでしょう。ハイブリッド検索は、その底上げを担う実務的な定石といえます。
Topic精度を上げる正体は「順位の逆数の足し算」だった
二つの検索結果をまとめるRRFは、見た目によらず素朴な計算です。各資料に「順位に60ほどの数を足して、その逆数をとった点」を与え、複数の検索リストをまたいで合計するだけ。複雑な調整がほとんど要らないのに精度が上がるため広く使われています。もとは2009年に情報検索の研究者カーマックらが提案した、息の長い手法です。
関連用語
ハイブリッド検索に関するよくある質問
- 普通のキーワード検索やセマンティック検索より何が良いのですか?
- 両方の弱点を補い合えます。キーワード検索は型番・人名などの完全一致に強いが言い換えに弱く、意味で探すセマンティック検索は言い換えに強いが固有名詞を取りこぼしがちです。両者を同時に走らせて結果をまとめると、言い換えにも固有名詞にも強くなります。
- 二つの検索結果はどうやってまとめるのですか?
- 代表的な方法がRRF(相互ランク融合)です。点数そのものではなく「順位」だけを使って足し合わせるため、ものさしの違う二つの検索を公平に合算でき、どちらでも上位に来た資料ほど高く評価されます。
- なぜRAGでハイブリッド検索が重視されるのですか?
- RAGでは、AIが見る前の「資料探し」の質がそのまま回答の質を左右するためです。言い換えにも固有名詞にも強い検索でより的確な資料を渡せれば、AIの答えも的確になります。RRF自体は2009年に提案された息の長い手法で、複雑な調整がほとんど要らないのに精度が上がるため広く使われています。