HyDE(ハイド)とは

HyDEとは、質問に対してまずAIに「仮の答え(架空の文書)」を作らせ、その仮文書を手がかりに本物の資料を検索する手法のことです。Hypothetical Document Embeddings(仮想文書埋め込み)の略で、2022年12月に発表されました。

質問ではなく「仮の答え」で探す

ふつうのセマンティック検索は、質問文そのものをベクトルに変換して似た資料を探します。HyDEはここをひとひねりし、質問にAIが答えるとどんな文章になるかを先に作らせ、その「仮の答え」をベクトルにして検索します。質問と本物の資料は文体や言葉づかいが食い違いがちですが、答えどうしなら形が似るため、関連文書に近づきやすくなる、という狙いです。

面白いのは、この仮の答えは事実として間違っていてもかまわない点です。中身が正確でなくても「答えの形・話題の輪郭」さえ捉えていれば、検索の手がかりとして役立ちます。最終的に取り出すのは実在する資料なので、仮の答えの誤りはそのまま回答には残りません。

教師データなしで使える

カーネギーメロン大学などの研究チームが示したこの手法は、事前の学習用データ(正解ラベル)を用意しなくても精度の高い検索ができる点が評価されました。手元の文書に合わせた特別な訓練をせずに導入しやすいため、RAG(検索拡張生成)の精度を底上げする工夫の一つとして知られています。

Topic「わざと偽物の答え」を作ってから探す逆転の発想

正確な検索ほど良い、という常識からすると、HyDEは逆を行きます。あえてAIに作り話の答えをこしらえさせ、それを手がかりに本物を探すからです。論文も仮文書が「実在せず誤りを含みうる」と認めつつ、それでも関連文書にたどり着けると示しました。ちなみに略称HyDEは、英単語のhide(隠す)と同じ綴りで同じように読め、「答えを一度でっち上げてから探す」手法の覚えやすい目印になっています。

HyDEに関するよくある質問

「HyDE」という名前にはどんな由来がありますか?
略称HyDEは英単語のhide(隠す)と同じ綴りで、同じように読めます。質問にAIが作った「仮の答え」を手がかりに本物の資料を探す手法で、その仮の答えは事実として間違っていてもかまわない、という逆転の発想を表す覚えやすい目印になっています。カーネギーメロン大学などが2022年に示し、教師データなしで精度の高い検索ができる点が評価されました。
HyDEは普通の検索と何が違いますか?
ふつうのセマンティック検索は質問文そのものをベクトルにして似た資料を探しますが、HyDEは質問にAIが答えるとどんな文章になるかを先に作らせ、その「仮の答え」をベクトルにして検索します。質問と本物の資料は文体が食い違いがちでも、答えどうしなら形が似るため関連文書に近づきやすくなります。
仮の答えが間違っていても大丈夫なのですか?
かまいません。中身が正確でなくても「答えの形・話題の輪郭」さえ捉えていれば検索の手がかりとして役立ちます。最終的に取り出すのは実在する資料なので、仮の答えの誤りはそのまま回答には残りません。RAGの精度を底上げする工夫の一つとして知られています。