Vector and Embedding Weaknessesとは
Vector and Embedding Weaknessesとは、AIに自社データを賢く使わせる「RAG」の土台となる“埋め込み”やベクトルDBの、作り・保管・取り出しの弱点を突かれ、情報の流出や出力の操作が起きるリスクのことです。OWASPのLLMアプリのリスク一覧で、2025年版から新たに加わったLLM08にあたります。
英語表記:Vector and Embedding Weaknesses
OWASP分類:LLM08:2025
日本語:ベクトルと埋め込みの脆弱性
RAGと「埋め込み」を一言で
まず言葉を整理します。埋め込みとは、文章を「意味の近さ」で並べた数字の列に変えたもの。それを貯めて似た文書を素早く探す保管庫が「ベクトルDB」で、そこから関連文書を引いてAIに答えさせる仕組みが「RAG(検索拡張生成)」です。自社データに基づいて回答させる、定番の手法になっています。
どこを突かれるのか
狙われるのは、AI本体ではなくその周辺、つまりデータの扱い方の甘さです。アクセス制御が緩いと他人の機密文書まで取り出される、複数の顧客でDBを共用すると別の利用者の情報が混ざる、知識ベースに細工データを混ぜて回答を操られる、といった弱点が挙げられます。社内データを賢く使う仕組みが、そのまま新しい攻撃の入口にもなりうるわけです。
Topic「数字に変えたから安全」とは限らない
文章を埋め込み(数字の列)に変えれば、もう元には戻せない。そう思いがちです。ですが研究では、その数字の列から元の文章を、かなりの精度で復元できることが示されています。個人情報を数値にしたから匿名だ、と安心するのは早計でしょう。埋め込みそのものも、生のデータと同じ慎重さで守るべき機密だという教訓につながります。
Vector and Embedding Weaknessesに関するよくある質問
- これはAIモデル自体の欠陥ですか?
- いいえ。原因の多くは、モデルそのものより、ベクトルDBや検索まわりの設定の甘さにあります。だから対策も、モデルを作り直すのではなく、データの保管と権限の管理を固めることが中心になります。
- RAGを使う会社は、まず何に気をつければいいですか?
- ベクトルDBも普通のデータベースと同じく、アクセス制御・認証・入力チェックが必要です。誰がどの文書を引けるかを権限で分け、取り込むデータの出どころを検証することが出発点になります。