単語の埋め込みとは

単語の埋め込みとは、言葉をAIが計算できる数値の並び(ベクトル)へ変換し、意味の近い言葉ほど近い場所に配置する技術です。英語ではword embeddingといい、「分散表現」という名前で紹介されることもあります。

「意味の近さ」を距離で測れるようにする

コンピュータは言葉をそのままでは比べられません。単語の埋め込みでは、大量の文章から「似た文脈に現れる語は意味も近い」という性質を学習し、各単語を数百個ほどの数値の組へ変換します。地図の座標のようなもので、「銀行」と「金融」は近所に、「銀行」と「桜」は遠くに置かれます。距離を測れば、意味の近さが計算できる。これがAIで言葉を扱う土台になりました。

普及の起点は2013年にGoogleのチームが公開したword2vecです。ChatGPT公開(2022年11月30日)の9年前にあたり、AIが言葉の意味を数値で扱う研究は、生成AIブームのずっと前から積み上がっていたことが分かります。

検索・推薦・RAGを支える土台

単語単位の技術はその後、文章全体をベクトル化する文の埋め込みへ発展しました。意味で探すベクトル検索、好みに合わせる推薦、RAG(検索拡張生成)の文書検索は、いずれもこの仕組みの上に載っています。エンベディング(埋め込みの英語読み)や埋め込みモデルという言葉を見かけたら、この技術の系譜だと考えてよいでしょう。

Topic言葉で「足し算・引き算」ができるって本当?

word2vecで有名になったのが単語ベクトルの演算です。「兄(brother)」から「男(man)」を引いて「女(woman)」を足すと、結果が「姉妹(sister)」のベクトルに近づくという関係の再現が示されました。国名から首都を導くような関係も再現できます。意味がほんとうに座標として写し取られている。その証拠として広く紹介された実験です。

単語の埋め込みに関するよくある質問

「埋め込み」とはどういう意味の日本語ですか?
英語のembeddingの訳語で、単語を数値の空間へ埋め込む(配置する)イメージから来ています。何かを隠すという意味ではありません。
埋め込みとベクトル検索は同じものですか?
役割が違います。埋め込みは言葉や文章を数値へ変換する工程、ベクトル検索はその数値を使って近いものを探す工程です。変換と検索のセットで意味検索が成り立ちます。
2013年の技術と聞きましたが、古くないのですか?
word2vecの公開は2013年ですが、考え方は文章単位の埋め込みモデルへ受け継がれ、RAGや意味検索を支え続けています。古さで価値が落ちる種類の技術ではありません。

あわせて読みたい記事