50
情情情情情情情情情情情情 情情情情情情情情 情情情情 情情情情情 ()

情報検索における質問者のプライバシー保護 :Private Information Retrieval

Embed Size (px)

Citation preview

Page 1: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

情報検索における質問者のプライバシー保護 中川裕志(東京大学)

Page 2: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

情報検索における利用者プライバシー保護の動機 プライバシー保護というとデータベース中の個人情報の保護ばかりに注目が集まりますが、それだけじゃない!• Knowledge-based scheme to create privacy-preserving but semantically-related queries for web search

engines– David Sanchez, Jordi Castella-Roca, Alexandre Viejo– Information Sciences, http://dx.doi.org/10.1016/j.ins.2012.06.025

• 米国では、インターネット企業は利用者プロファイルを法執行当局に販売している。犯罪、紛争に関して– 例えば、 AOL は1月あたり、1000件の要求、– Facebook は1日当たり10から 20 要求に応えている。– 米国 Yahoo は会員のアカウント、電子メール、を 1 件当たり 30 から 40 ドルで売り渡している。

• こういった販売はインターネット業者にとってかなりの収入であるが、利用者への見返りはない。• さらに悪徳業者が盗み出す可能性も大いにあり得る。• こんな事情なので、検索エンジンに利用者は、自分のアイデンティを検索エンジンに知られないようにする技術を研究し実用化する必要が出てきている。

Page 3: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

検索エンジンから保護したい情報は何か?Anonymity: 検索質問から質問者を推定されたくない

Tor (onion routing) で保護 複数人の質問者を混ぜて検索する方法Obfuscation( 曖昧化) : 質問者は知られるが、検索質問を保護

保護したいのは :– 検索質問を構成する単語集合– 抽象的には検索意図– Web 検索の場合が多い

Page 4: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

質問者の発信位置を匿名化• 位置情報を使ったサービス(地図表示など)において、個人の発信位置をサービスプロバイダに知られたくないという需要あり。• 信頼できる仲介者: Tursted Third Party:TPP を介する方法•                位置情報を利用する• ユーザ        TTP     サービスプロバイダ利用者 ID, 位置情報

応答TPP が変換した利用者 ID,位置情報応答

Page 5: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

位置情報をグループに紛れさせる• 信頼できる仲介者: Tursted Third Party:TPPがいない場合は信頼できる利用者でグループを作ってサービスを利用• L(n) は ID=n の利用者の位置情報。 ID はスマホ番号• ID=1 から順に位置情報を追加して k 人目がサービス要求• ただし、リクエストを受け取った利用者の ID(=m) だけ記憶しておき、結果の集合(下の図では [Res(1),Res(2),Res(3),Res(4)] )を ID=m に送り返す。注:①…⑧• 次の利用者に送るとき、 L(n) の順番を入れ替えると、利用者同士でも Resと利用者の対応は分からないようにできる。

– (順番入れ替えは自分だけ持っているので、自分に対応する Res だけは認識できる。)• k- 匿名化のような効果がある。

ID=1

ID=2

ID=3

ID=4[ 1, L(1)]

[L(1),2,L(2)] [L(1),2,L(2),3,L(3)]

サービスリクエストリスト[L(1),L(2),L(3),L(4),4]

サービス結果リスト[Res(1),Res(2),Res(3),Res(4)]

[Res(1),Res(2),Res(3),Res(4)]

[Res(1),Res(2),Res(3),Res(4)]

[Res(1),Res(2),Res(3),Res(4)]

位置情報を用いるサービスプロバイダ

②③

⑥⑦

Page 6: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

質問者の検索意図を検索エンジンから保護したい データベース検索で質問者の検索質問(検索意図)も保護したい 企業研究者の研究開発における検索質問では、その検索質問が存在すること自体を隠したい

– 例:化合物 A と B のペアが質問であること自体。このペアを知られると、企業の開発目的が推定されてしまう。• どの会社かは重要ではないかも。

この観点からの研究成果は私にはまだ見つかっていない。

データベース

データベース中のプライバシー保護したい検索質問

検索者のプライバシー保護したい

企業研究者の研究開発における検索質問は企業秘密

Page 7: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

以上の例を参考にして、要因を分析しなおしてみると:保護したい情報、質問の長さと構造、保護手法• 保護したい情報– 質問者を識別する情報• インターネット ID 、氏名• 質問者の質問を発信した場所の位置情報• 質問した時刻

– 質問内容• 次のスライド

– 質問があったこと自体

Page 8: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

以上の例を参考にして、要因を分析しなおしてみると:保護したい情報、質問の長さと構造、保護手法• 質問の長さと構造– 単語の場合– 1 単語– 2 単語以上の単語集合– 構造を持つ単語集合: 順序のある列、あるいは文

– 位置情報、数値情報などデータの場合

Page 9: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

以上の例を参考にして、要因を分析しなおしてみると:保護したい情報、質問の長さと構造、保護手法• 質問内容の保護手法– 文を単語分割して別々の質問に分解

• 別々の質問への応答たちから、適切な結果を切り出す作業が必要– 質問に紛らわしい単語(ノイズ)を混ぜる– 質問の単語を意味的に類似した別単語で置き換え

• これらは、 Obfuscation とも言われる。

Page 10: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

検索エンジンに質問者の真の質問 Rを見破られない方法の概観

質問者のプロファイル: X=第 iトピックの生起確率からなる多項分布で表される

ダミー質問生成:DGS

Internet

意味分類アルゴリズム

R,R,R D,R,D,D,R

R:真の質問D: ダミー質問 : DGS が生成

Q,Q,Q

検索エンジンには同じような質問 Q に見える

意味分類アルゴリズム

プロファイル精錬器

X

Y

ダミー質問分類器

プロとダミーのループで学習した Z

Q 、Qダミーとして廃棄

Q 、Q真の質問としてプロファイル更新

検索エンジン(攻撃者でもある)質問者

Y は Xの推定値

Page 11: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

前のページの図の補足説明質問者は真の質問 R にダミー質問生成: DGS で生成したダミー D を混ぜて、 (R+D)Q として検索エンジン(=攻撃者)に送る。検索エンジンは、送られてきた質問 Q をから質問者の質問プロファイル Z を学習し、このプロファイルを利用して、真の質問とダミーを分類したがって、質問者はダミーを見破られないようにしたい。また、自分のプロファイルも検索エンジンに推定されないようにしたい。

Page 12: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

• 前のスライドに示した概観に沿ういくつかのシステムを以下のスライドでは評価していきます。

Page 13: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

TrackMeNot:TMN• TrackMeNot 2006

– D. C. Howe and H. Nissenbaum. Available:http://mrl.nyu.edu/~dhowe/trackmenot• TrackMeNot: Enhancing the privacy of Web Search

– Vincent Toubiana, Lakshminarayanan , Subramanian, and Helen Nissenbaum , arXive:1109.4677, 2011

• 質問にノイズを混ぜる方法のベースライン的存在– ブラウザ( firefox,Google Chrome )に組み込むユーザ側のツール

検索エンジンは質問者プロファイルを推定している• 目的

– 1.Obfuscated( 曖昧化 ) された質問と真の質問が検索エンジン側に区別できないようにすること =  indistinguishability• TMN では、 indistinguishability  つまり、検索エンジンが質問者プロファイルを正確に推定できないようにすることが狙い。

– 2. SNS などのサイドチャネルを使った攻撃から質問者が特定されないように守ること

Page 14: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

TMN のトピック公開型の質問曖昧化• すべての語彙(異なる種類の単語)を多数 (n種類)のトピックに分類

– は実体は同じトピックに属する単語の集合であることに注意• 全語彙をトピック毎に分類するのは大変なので、既存のトピック分類辞書(シソーラス)である。• TMN ではトピックを表すために Yahoo! の公開している categories, sub-categories を用いた。 このようにトピックは公開されているので、攻撃者は質問がどのトピックに関するものかは知ることができる。• TMN は質問者の質問を長期間観察し、トピック毎に分類を行う。また、トピックにおいて質問に使う単語を頻度分布を得ておく。• 質問中の単語がトピックに属するときは、 中の別の単語を追加するか置き換えるかする。このとき、上記の単語頻度分布に沿うように単語選択する。  トピック内で何を狙って検索しているか分かりにくくなる

Page 15: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

TMN のトピック非公開型の質問曖昧化• すべての語彙(異なる種類の単語)を多数 (n種類)のトピックに分類。

– ただし、1個の単語が複数のトピックに属することがある(曖昧化)– は実体は同じトピックに属する単語の集合であることに注意

質問中の単語がトピックに属するときは、 類似のトピック、例えば、親 category だが違う sub-category 、を複数選択して、それらの中の別の単語を追加。 質問がどのトピックに属するか攻撃者にはわかりにくい。

ただし、質問を構成する単語数が増加、あるいは質問数が増加するので、ネットワーク負荷は重く、全体に重たい動きトピック内で何を狙って検索しているか分かりにくくなる

Page 16: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

Side Channel: 個人識別のために使える質問以外の情報• 質問の時間履歴に現れるトラフィックのパタン• 質問者のキーストローク• 真の質問の場合は、その結果に表れるリンクをクリックしたり、コンテンツのダウンロードすること多し• TMN ではこういった情報も隠す。

Page 17: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

GooPIR: h(k)-Private Information Retrieval

– Josep Domingo-Ferrer, Agusti Solanas, and Jordi Castell`a-Roca. h(k)-private information retrieval from privacy  uncooperative   queryable databases. Online Information Review,   33(4):720–744, 2009.

• GooPIR も TMN と同じように公開された辞書からダミー質問を作る。• h(k)-PIR : 質問数= k の関数 h(k) に対して、攻撃者からランダムに見える  R のエントロピー  H(R) ≥ h(k) を満たす PIR.

– ダミー質問が k-1 個、真の質問が 1 個であることに注意

• log(k)-PIR では、攻撃者が質問をダミーと見なす確率=( k-1)/k 、 真の質問と見なす確率= 1/k のとき、完全にindistinguishable となる。

Page 18: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

• ダミー質問分類器は、質問の popularity(一般的によく質問される度合い)を用いて、ダミーかどうか判断する。• GooPIR では、 k-1 個のダミー質問を、真の質問と同じレベルの popularity を持つように選び、対抗する。

– GooPIR は Popularity を一般テキスト(=web 、およびpublic な辞書)での出現頻度に比例すると見なす。

– 質問者の質問の頻度が一般テキストの単語の出現頻度より高くなって、攻撃者に見破られることを防ぐために、一般テキストの単語頻度分布は固定しておく。 ところが。。。

Page 19: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

• 質問列 t1,t2,t3 を比較して、類似のカテゴリの単語を集めると、デル、アップル、マックがまとめられ、これらが真の質問 R だと見破られかねない

検索エンジン(攻撃者でもありうる)

 t3Q,Q,Q

 t2Q,Q,Q

 t1Q,Q,Q

D: ベルトD: 空港R: デル

D: 株式 D: 演歌D: 空室D: シャワーR: マックR: アップル

t1

t3

t2

賢い攻撃者だと、こんな攻撃もあるだろう

Page 20: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

Plausibly Deniable Search : PDS– Mummoorthy Murugesan and Chris Clifton. Providing privacy through plausibly

deniable search. In SDM, pages 768–779. SIAM, 2009.

• PDS は真の質問を canonical queries で置き換える処理を加えた。• canonical queries の作り方がキーポイント• ダミー ただし、 1 個は真の質問 R• canonical queries 作成の 3 つの制約

1. 任意のからを等確率で生成できる2. 中のは全て別のトピックを表す3. 中のは全て、質問者の質問として尤もらしい (plausible)

3 番目の制約が一番実現が難しいので、次のスライドのような工夫をしている。

Page 21: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

質問 1

質問 2質問 3

質問 4

質問 6質問 5 質問 7

質問 n-1質問 n

単語1

単語2

単語m

質問 1 1 0 0質問2 0 1 1質問n 1 0 1

第 1特異値

⋱第 r特異値ほとんどの要素=0

ほとんどの要素=0

SVD でr個の意味に分解質問 q

既存の大規模質問 vs 単語行列q'

意味分解した質問q’

この q’ に近接する質問をダミーとして抽出q’    とダミー を検索エンジンに送る

密集している質問たちからダミーを選ぶと攻撃者はダミーを認識しにくい

SVD による意味空間

SVD による意味空間ダミー選択では以下に注意

ダミー

大雑把なアイデア(正確には次のページからの数理モデルをご覧ください

Page 22: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

canonical queries 生成アルゴリズム1. Web から収集した大規模質問集合から、(質問 vs 単語)行列 を作る。(質問=単語の集合)2. A に LSI(Latent Semantic Indexing) を適用

1. SVD (特異値分解) • は次元の対角行列。ただし、

– 単語を次元とした多次元空間を意味を次元とする意味空間に写像• は行列で• は行列で

2. 質問に出現した単語の部分だけ1とした質問ベクトルを3. はで表される質問を SVD の結果の意味空間へ写像したもの次ページにつづく

Page 23: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

つづき3. 元になった文書集合に Δ回以上出現した単語および単語対を抽出(実験では Δ= 500 )4. 3.で抽出した単語(対)を前記の式: で意味空間に写像。5. 4.の写像で構成した空間中の点(ベクトル)集合を空間中での距離を用いて KD-tree で表現する6. 与えられた質問を構成する各単語および各単語対を意味空間に写像し、 5.の KD-tree において近接する2つのベクトルを選び、これを canonical queries とする。 canonical queries は元の質問の代理質問として意味的に十分に機能する。すなわち、元質問と同じような検索結果を得ることができる。

Page 24: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

canonical queries の性能• 元の質問をそのまま使って web 検索した場合の上位 20個の検索結果のうち、何%をここで紹介したアルゴリズムで作った canonical qieries でも検索できたかというと、• 約半数で上位 100 以内の上記 20 位以内は少なくとも 6 個以上は含まれた• 上位 500 位までの中だと、上記 20 位以内は平均 11 個含まれ、 69%の場合は 6 個以上含まれていた。• これを多いと思うか少ないと思うかは微妙なところ。

Page 25: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

次の問題は「任意のからを等確率で生成できる」という性質(plausible deniable) を実現する質問集合を作ること

Deniableな query set の生成法• ダミー質問の多様性は意味空間での距離で表現できる。• 尤もらしさ (plausibility) はどうするか?

意味空間において元の質問の近辺に多くの質問が存在する、つまり密度の高さ、で定義する。 そこで意味空間に写像された二つの質問間で定義される

dissimilarity(dis) を使う。次のページ参照

Page 26: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

– は計算対象の文書集合– はで定義される超立方体なので、 はその内部に含まれる点の数

Page 27: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

まとめると1. 質問者の質問 q に対して、 cosine距離が一番近い canonical queries を抽出する2. canonical queries の各々に対して、 dissimilarity の小さいを選出する。3. canonical queries と 2. の結果で抽出したをランダムな順番で検索エンジンに送る。4. 検索エンジンの検索結果のうち元の質問

q に対するものだけを選び出す。

Page 28: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

Optimized Query Forgery for Private Information Retrieval(OQF-PIR)

– David Rebollo-Monedero and Jordi Forn´e. Optimized query forgery for private information retrieval. IEEE Transactions on Information Theory, 56(9):4631–4642, 2010.

• 検索エンジン(=攻撃者)は、質問を真の質問かダミー質問かを見分けるとき• 質問者の過去の質問から得たプロファイルを利用する。つまり、質問者のプロファイル X から生成されそうな質問なら真の質問、一般的な web 利用者のプロファイル W から生成されたとするとき、ミー質問と見なす。• そこで、 X と W を適当な割合で混合したプロファイルになるようなダミー質問を生成する。詳細な数学的モデルは後に述べる。

Page 29: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

PIR の性能評価指標• 以下のスライドでは PIR の有力な評価指標をいくつか紹介します。• 一般的な評価指標は難しいので、目的ごとの評価指標となります。

Page 30: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

PIR の性能評価指標:攻撃者を欺く確率• 出典: TrackMeNot: Enhancing the privacy of Web Search– Vincent Toubiana, Lakshminarayanan , Subramanian, and

Helen Nissenbaum , arXive:1109.4677, 2011

データベースに特定の質問者の質問にダミー質問を混ぜて、質問したときデータベース管理者が、長期間、質問を観察したとき、混ぜ物質問を見破れるかどうかという評価指標を提案ダミー質問生成器: obfuscater

Page 31: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

この評価基準の記法

値者のした質問数の推定攻撃者の推定した質問

 質問数された攻撃者の推定した生成

質問者のした質問数   質問数生成されたの生起確率事象

   側)け取ったデータベース    攻撃者=質問を受        (質問と見なす事象攻撃者が質問を

となる確率

したという事象を生成したと断定質問生成器が:攻撃者が

を生成したという事象質問生成器が:

質問生成器の出力:

問:質問生成器の作った質

 質問者のした質問:

:~ダミー:~

:,ダミー::

note!ダミー:

1:

)1(ダミー

ダミー

,,,,,ダミー

,,ダミー

,,,

11

1

1

Y

X

YXObObP

Ob

AAP

AqA

qG

qqqqOHqqH

qqH

iqiq

iqiiq

iiq

XYYY

XYY

Y

Page 32: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

ダミー質問の識別不可能性

YXXGObAPGObAPOHq qiqiqiqii ~~~

||,

攻撃者が質問をダミー質問を疑っているとき、その質問がダミーであろうと なかろうと、ダミー質問と判断する確率は同じ。 攻撃者が、単発の質問がダミーか真かを見分けられないという定義

は攻撃者の推定した値であることに注意!

Page 33: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

妥当な疑い: Reasonable Doubt

ObAPHq qii ,

ダミー

真の質問

質問であると疑う以上なら攻撃者が    すなわち、ないという閾値であることを許容でき=質問者が発した質問

偽質問生成器が、攻撃者に対して全ての真の質問をダミー質問と見誤らせるほど狡猾なダミー質問が作れるという定義 妥当な疑い の計算法は次のページ

Page 34: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

Reasonable Doubt の計算法

ある。質問生成器には既知では数は注:質問者の真の質問デルも可能。が質問者毎に異なるモ 注 :

による。表す確率と攻撃者の疑い深さを質問者の真の質問数

は攻撃者が推定した質問数き質問生成器が生成すべつまり、

            

           ※

  だから

    ※            

     ゆえに

ダミー

~ダミーダミー

~,

~~,

~~

~~,

~~~

,,

~~~

|

YObP

ObPY

X

YObPObPYXHq

ObPYYYXHq

YXYX

ObPYXHq

ObPYX

XHqObAPHq

ObPYX

XObPObAPObAP

i

i

i

iqii

qiqi

Page 35: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

PIR の性能評価指標: KL-divergence版OQF-PIR の数理モデルの詳細

• 出典: Optimized Query Forgery for Private Information Retrieval– David Rebollo-Monedero and Jordi Forné– IEEE TRANSACTIONS ON INFORMATION THEORY, VOL. 56, NO. 9, 2010 4631-4641

データベースに特定の質問者の質問に偽物の質問を混ぜて、質問したとき データベース管理者が、長期間、質問を観察したとき、混ぜ物質問を見破れるかどうかという評価指標を提案一般的な利用者の質問の要素毎の確率密度関数をpとする。

質問単語の分布例: 特定の質問者の質問の要素毎の確率密度関数をqとする。

質問単語の分布例: q特定の質問者のダミー質問の要素毎の確率密度関数を rとする。

質問単語の分布例: r

Page 36: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

PIR の性能評価指標• 質問者の本来の質問と、混ぜたダミー質問の割合を各々とすると、• 偽質問を混ぜた質問の混合確率分布の密度関数: と、• 一般的な利用者の質問の確率分布の密度関数:

• の確率分布としての見分けにくさを PIR の性能評価指標とする方法を以下に説明

Page 37: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

記法• 質問に現れる要素の種類個。つまり        – 例えば、テキスト検索なら単語の種類数、位置情報なら位置座標

• : 一般的な質問における各要素の出現頻度分布の密度関数• : あるユーザの質問における各要素の出現頻度分布の密度関数• : ユーザが作った真の質問要素ではないダミー要素の出現頻度分布の密度関数

Page 38: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

評価指標 : プライバシーリスク• KL-divergence の定義:• を質問の冗長度とし、ダミー質問単語をの割合で混ぜたダミー質問の 確率としたときのリスク定義:• プライバシーリスク: • プライバシー冗長度:

– ダミー質問の分布を動かして R を最小化。つまり、 が p 最も近いときの Rの値。

– が良いダミー質問を作るための最適化問題の定式化だが、これを解くのはなかなか難しい。

さらに、注意しなければならないのは、は確率分布を与えるだけ なので、 を実現する具体的なダミー質問を作る方法は別に検討しないといけない。

Page 39: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

簡単な例• が個の等確率な単語分布だとすると、 をエントロピーとして   • を実現するを最大にするなので、各単語の確率が等しい場合なので、        とすると

Page 40: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

一般の場合のの性質• とする。• また、 という順番にが並んでいるとする

– 以下の議論ではの値が のどれかに近いような想定で話が進んでいることに注意してください。• より•

• よって、の場合のの振る舞いを知りたい。これについて以下の定理がある

Page 41: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

• 定理: は非増大かつ凸 : すなわち• 証明:• 直観的なので、が大きくなると、が実現するような適当なを選んで、をにより近い確率分布にできるので、 KL-divergence : D は小さくできるから。• 凸性は素直な計算で証明できる。• 証明の詳細は出典: Optimized Query Forgery for Private Information Retrievalの 4634 ページ

の性質に関する定理1 11 RRR

Page 42: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

Critical すなわち•  と  より  となる最小の が [0,1]区間に存在する。そのような とする。(下図、参照)

• – なぜなら、もし  , すなわち とすると  により– で矛盾

𝜌𝑐𝑟𝑖𝑡 1𝜌

Page 43: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

• 定理: のとき このとき最適な偽質問の確率分布の密度 関数 証明:• 詳細は出典: Optimized Query Forgery for Private Information Retrieval の 4635ページ• 簡単の第成分の値

の性質に関する定理 2

Page 44: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

• の値が与えられた場合(つまり定理 3 の(2)の場合)の最小化問題の解の構成法が以下の定理で与えられる• まず , つまり1からまでの分布関数とする。• for

• 定理を読むにあたって注目すべきは、というの条件

の性質に関する定理 3

Page 45: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

定理 3 :(1)中のどの についても (2) 任意のにおいてに対して最適な   は以下の式で求まる。 に対しては に対しては

(3) 与えられたに対するはこうして求めたを用いればとして求まる。 ただし、 、、

の性質に関する定理 3

Page 46: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

• この定理によれば、偽質問の混合率を決めれば、偽質問生成の元になる確率分布の密度関数が繰り返し計算で求まる。–探索なしで閉じた式で定義されているところに価値あり証明:

• 詳細な証明は出典: Optimized Query Forgery for Private Information Retrieval の 4636-4637 ページ

• ただし、証明自体はかなり込み入っていて難しい。• キーポイントになるのは次の lemma

Page 47: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

だいぶ省略しますが、 lemma の概要は以下のようです。

i

j

i

j jj

jj

i

ii

n

n

i iii

n

i ii

n

i ii

fx

nijijf

x

fnibffnia

ff

xfxR

xxi

xf

1 11*

1*

1

1

1*1*

1

1

1

,,10,,1

0)(,001,,1 )(

00ii

1,,0max,i

1 and 0 subject to

minimize

   かつ

てものいずれの場合に対しに対して

かに対してとする。このとき、

は存在し、この問題の一意的な解

に対して    という最適化問題

lemma

定理 3(2) の に対応 に対応

Page 48: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

• 証明の大筋は、 lemma の最適化対象の fi に以下の関数を当てはめることによっている。

      ■得られる。    という定理の式が

に代入してまとめるとをこの

  より

によって保証されはの条件

を適用。として

    

とおくと    

i

iiii

i

iii

i

j j

n

nn

ii

iii

iiii

i iii

iii ii

PQprq

PQ

QPf

pq

pqfflemma

lemma

qpfr

prqrf

rfp

rqrqprqD

11

)(#

11ln111exp

1

00

)(#11exp

,11ln

1ln1||1

*

11

1

11

1 *

Page 49: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

• TrackMeNot: Enhancing the privacy of Web Search– Vincent Toubiana, Lakshminarayanan , Subramanian, and Helen Nissenbaum ,arXive:1109.4677, 2011

• h(k)-private information retrieval from privacy  uncooperative  queryable databases. -- Josep Domingo-Ferrer, Agusti Solanas, and Jordi Castell`a-Roca. -- Online Information Review, 33(4):720–744, 2009.

• Embellishing Text Search Queries To Protect User Privacy– HweeHwa, Pang Xuhua Ding, Xiaokui Xiao

• Optimized Query Forgery for Private Information Retrieval– David Rebollo-Monedero and Jordi Forné– IEEE TRANSACTIONS ON INFORMATION THEORY, VOL. 56, NO. 9, 2010 4631-4641

• Providing privacy through plausibly deniable search. -- Mummoorthy Murugesan and Chris Clifton. -- In SDM, pages 768–779. SIAM, 2009.

• OB-PWS: Obfuscation-Based PrivateWeb Search– Ero Balsa, Carmela Troncoso and Claudia Diaz– 2012 IEEE Symposium on Security and Privacy. 491-506

参考文献(一部再掲)

Page 50: 情報検索における質問者のプライバシー保護 :Private Information Retrieval

参考文献(一部再掲)• Distributed system for private web search with untrusted partners

– Cristina Romero-Tris, Jordi Castella-Roca, Alexandre Viejo– Computer Networks :journal homepage: www.elsevier.com/locate/comnet , 2014

• Enhancing Deniability against Query-Logs– Avi Arampatzis, Pavlos Efraimidis, and George Drosatos– Advances in Information Retrieval Volume 6611 of the series Lecture Notes in Computer

Science pp 117-128

• A query scrambler for search privacy on the internet– Avi Arampatzis • Pavlos S. Efraimidis • George Dros– Inf Retrieval (2013) 16:657–679

• Noise Injection for Search Privacy Protection– Shaozhi Ye, Felix Wu, Raju Pandey, and Hao Chen– 2009 IEEE ICCSE