差分プライバシーとは
差分プライバシーとは、集計データにわざと計算したノイズ(誤差)を加えることで、個人を守りながら全体の傾向は活用できるようにする、プライバシー保護の枠組みのことです。「特定の誰かがデータに含まれているか」を分からなくしつつ、平均や割合といった全体像は読み取れるようにします。
ノイズで個人を隠し、傾向は残す
基本の考え方は、ある一人のデータが有っても無くても、集計結果がほとんど変わらないように調整することです。こうすると、結果を見ても特定の個人がいたかどうかは判別できません。保護の強さは「イプシロン」と呼ばれる値で表され、小さくするほど守りは強くなりますが、その分データの使い勝手は下がります。どこまで個人を隠し、どこまで活用するかを決める「つまみ」のようなものだと考えると分かりやすいでしょう。
名前を消すだけの匿名化との違い
単に名前を伏せる匿名化は、別のデータと突き合わせると個人が特定し直されてしまう弱さがあります。差分プライバシーは、そうした再特定の起きにくさを数学的に裏づける点が違うのです。データを一か所に集めない連合学習とは仕組みが異なり、両者は組み合わせて使うこともできます。
統計を安心して公開するために
差分プライバシーを使うと、分析結果や統計を外部に公開しても、そこから個人が割り出されにくいことを保証できるのが強みです。AppleやGoogleといった企業、さらには政府の統計でも採り入れられており、データの活用とプライバシー保護を両立させる手段として広がっています。
Topic米国の国勢調査が、理論を国家規模で採用した
差分プライバシーは2006年に学術理論として生まれましたが、2020年の米国の国勢調査では、公表する統計データを守るために実際に採用されました。一人ひとりの回答が割り出されないよう全体にノイズを加えたうえで公開する仕組みで、机上の数学が国家規模の公式統計を支えるところまで実用化された象徴的な例です。
差分プライバシーに関するよくある質問
- 差分プライバシーは、個人を隠しながら全体の傾向は使えるのですか?
- それが核心です。ある一人のデータが有っても無くても集計結果がほとんど変わらないよう、わざと計算したノイズ(誤差)を加えます。保護の強さは「イプシロン」という値で表され、小さくするほど守りは強くなりますが使い勝手は下がる、いわば「どこまで隠し、どこまで活用するか」のつまみです。
- 名前を消す匿名化とどう違いますか?
- 単に名前を伏せる匿名化は、別のデータと突き合わせると個人が特定し直されてしまう弱さがあります。差分プライバシーは、ある一人のデータが有っても無くても集計結果がほとんど変わらないよう調整することで、再特定の起きにくさを数学的に裏づける点が違います。
- 差分プライバシーはどこで使われていますか?
- 分析結果や統計を外部に公開しても個人が割り出されにくいことを保証できるため、AppleやGoogleといった企業や政府の統計で採り入れられています。2006年に学術理論として生まれ、2020年の米国の国勢調査では公表統計を守るために実際に採用されました。