Vector and Embedding Weaknessesとは

Vector and Embedding Weaknessesとは、AIに自社データを賢く使わせる「RAG」の土台となる“埋め込み”やベクトルDBの、作り・保管・取り出しの弱点を突かれ、情報の流出や出力の操作が起きるリスクのことです。OWASPLLMアプリのリスク一覧で、2025年版から新たに加わったLLM08にあたります。

英語表記:Vector and Embedding Weaknesses

OWASP分類:LLM08:2025

日本語:ベクトルと埋め込みの脆弱性

RAGと「埋め込み」を一言で

まず言葉を整理します。埋め込みとは、文章を「意味の近さ」で並べた数字の列に変えたもの。それを貯めて似た文書を素早く探す保管庫が「ベクトルDB」で、そこから関連文書を引いてAIに答えさせる仕組みが「RAG(検索拡張生成)」です。自社データに基づいて回答させる、定番の手法になっています。

どこを突かれるのか

狙われるのは、AI本体ではなくその周辺、つまりデータの扱い方の甘さです。アクセス制御が緩いと他人の機密文書まで取り出される、複数の顧客でDBを共用すると別の利用者の情報が混ざる、知識ベースに細工データを混ぜて回答を操られる、といった弱点が挙げられます。社内データを賢く使う仕組みが、そのまま新しい攻撃の入口にもなりうるわけです。

Topic「数字に変えたから安全」とは限らない

文章を埋め込み(数字の列)に変えれば、もう元には戻せない。そう思いがちです。ですが研究では、その数字の列から元の文章を、かなりの精度で復元できることが示されています。個人情報を数値にしたから匿名だ、と安心するのは早計でしょう。埋め込みそのものも、生のデータと同じ慎重さで守るべき機密だという教訓につながります。

Vector and Embedding Weaknessesに関するよくある質問

これはAIモデル自体の欠陥ですか?
いいえ。原因の多くは、モデルそのものより、ベクトルDBや検索まわりの設定の甘さにあります。だから対策も、モデルを作り直すのではなく、データの保管と権限の管理を固めることが中心になります。
RAGを使う会社は、まず何に気をつければいいですか?
ベクトルDBも普通のデータベースと同じく、アクセス制御・認証・入力チェックが必要です。誰がどの文書を引けるかを権限で分け、取り込むデータの出どころを検証することが出発点になります。

あわせて読みたい記事