埋め込みとは

埋め込みとは、言葉やデータの意味を、AIが扱えるように「数値の並び(ベクトル)」へ変換する技術のことです。意味が近いものどうしほど近い数値になるよう配置するのがポイントで、AIが言葉の意味を距離としてとらえるための土台になっています。

意味を「座標」に置き換える

コンピュータは文字そのものの意味を直接は理解できません。そこで埋め込みでは、一つひとつの言葉をたくさんの数値の組として表し、意味の近い言葉が近い位置に並ぶように配置します。「埋め込み」という名前は、意味を数値の空間に写し取る(埋め込む)イメージから来ています。文章を細かく区切ったトークンを、この数値ベクトルへと変換するのが役割です。

意味検索やRAGの土台になる

言葉を数値の位置として表せると、「意味が近いかどうか」を、位置の近さ(距離)として計算で求められるようになります。これが、言い回しが違っても意味の近い文書を探し出す意味検索や、社内文書を参照して回答するRAG(検索拡張生成)を支える仕組みです。こうしたベクトルを大量に蓄えて高速に探すのが、ベクトルデータベースの役目になります。

Topic意味が、足し算引き算で計算できる

Googleの研究チームが2013年に発表したword2vecは、言葉の意味の関係をベクトルの計算で表せることを示しました。たとえば「兄」から「男性」を引いて「女性」を足すと、最も近い言葉として「姉」が現れるといった具合です。意味という曖昧なものが、ある程度まで数式で扱えると分かったことが、その後の言葉のAIの発展を後押ししました。

埋め込みに関するよくある質問

埋め込みとトークンはどう違いますか?
トークンは文章を区切った細かな単位そのもの、埋め込みはそのトークンを「意味を表す数値の並び(ベクトル)」へ変換したものです。文章をトークンに分け、それぞれを埋め込みに変換することで、AIは言葉の意味を数値の距離として扱えるようになります。
埋め込みは何の役に立つのですか?
言葉を数値の位置として表せると、「意味が近いかどうか」を距離の計算で求められます。これが、言い回しが違っても意味の近い文書を探す意味検索や、社内文書を参照して回答するRAG(検索拡張生成)を支える仕組みで、こうしたベクトルを大量に蓄えて高速に探すのがベクトルデータベースです。
埋め込みで意味が計算できるとはどういうことですか?
Googleの研究チームが2013年に発表したword2vecは、言葉の意味の関係をベクトルの計算で表せることを示しました。たとえば「兄」から「男性」を引いて「女性」を足すと、最も近い言葉として「姉」が現れる、といった具合です。