メンバーシップ推論攻撃とは

メンバーシップ推論攻撃とは、あるデータがAI学習に使われていたかどうかを、AIの反応から言い当てる攻撃のことです。データの中身そのものではなく、「学習に含まれていたか、いないか」という事実を推測するのが、この攻撃のねらいです。

AIの「自信の差」を突く

AIには、学習で何度も見たデータには自信たっぷりに答え、初めて見るデータには少し控えめに反応する、というクセがあります。このわずかな差は過学習(手元の学習データに過度になじむこと)から生まれます。攻撃者はこの反応の差を手がかりに、「このデータは学習に含まれていたか」を推測するわけです。本物に似せた模擬モデルを自分で用意し、反応の違いを学ばせる手口が知られています。

中身は分からなくても、漏えいになる

学習データの中身そのものを復元する学習データ抽出と違い、メンバーシップ推論攻撃が当てるのは「入っていたか、いないか」という一点だけです。それでも、ある人が特定の病気を扱うAIの学習データに含まれていたと分かるだけで、機微な個人情報の漏えいになりえます。医療や金融、人事のデータでAIを育てる企業にとっては、差分プライバシーなどの対策を考える理由になります。

TopicAIを攻めるために、攻撃者もAIを使う

この攻撃を示した2016年の論文では、攻撃する側も機械学習を使い、本物そっくりの「影モデル」を訓練して反応のクセを学ばせました。研究ではGoogleやAmazonのクラウドAI、病院の退院データといった実在のサービスやデータで成立が確かめられています。ChatGPTの一般公開(2022年11月)より前から、AIのプライバシーリスクは具体的に研究されてきました

メンバーシップ推論攻撃に関するよくある質問

メンバーシップ推論攻撃と学習データ抽出はどう違いますか?
学習データ抽出が学習データの中身そのものを復元するのに対し、メンバーシップ推論攻撃が当てるのは「あるデータが学習に含まれていたか、いないか」という一点だけです。AIが学習で何度も見たデータには自信たっぷりに答えるというクセ(過学習に由来)を、攻撃者は手がかりにします。
中身が分からなくても問題になるのですか?
なります。たとえばある人が特定の病気を扱うAIの学習データに含まれていたと分かるだけで、機微な個人情報の漏えいになりえます。医療や金融、人事のデータでAIを育てる企業にとっては、差分プライバシーなどの対策を考える理由になります。