差分隱私報告---第4組


差分隱私報告

匯報人:倪元元、曾文麗、楊頊

時間:2020.3.3

1.背景. 2

2.以往的工作及其局限性. 2

3.差分隱私模型. 2

4.差分隱私的性質發展. 3

5.相關定義的發展. 3

6.實現機制. 4

總結. 5

參考文獻. 5

 

 

1.背景

計算機技術的發展和網絡攻擊手段的不斷豐富,使得保護隱私數據已遠遠不再是隱藏數據中敏感屬性那么簡單。

數據挖掘等分析技術的快速發展,使得攻擊者可以從海量數據中挖掘出與用戶隱私有關的信息,卻不用直接訪問數據。傳統的加密,訪問控制等技術對這樣的攻擊方式沒有太好的效果。

Google、蘋果等公司都開始采用本地化差分隱私方法,它是差分隱私的另一分支,他們將該技術應用在Emoji、QuickType輸入建議、查找提示等領域。在早期,人們很難證明我們的方法是否保護了隱私,更無法證明究竟保護了多少隱私。現在差分隱私用嚴格的數學證明告訴我們,只要按照該方法做,那么就可以保證隱私不被泄露。

2.以往的工作及其局限性

李鳳華提出了隱私信息的全生命周期模型。

已有的隱私保護方案(K-匿名、l-多樣性、t-closeness),有一個共同的缺點----都依賴於攻擊者的背景知識,沒有對攻擊模型做出合理的假設。

背景知識攻擊是指攻擊者可以通過找出一個或多個准身份信息屬性和敏感屬性之間的關聯,以此來縮小對敏感屬性猜測的范圍。

3.差分隱私模型

2006年Dwork等人提出了差分隱私模型。

該模型通過加入隨機噪聲的方法來確保公開的輸出結果不會因為一個個體是否在數據集中而產生明顯的變化,並對隱私泄露程度給出了定量化的模型。因為一個個體的變化不會對數據查詢結果有顯著的影響,所以攻擊者無法以明顯的優勢通過公開發布的結果推斷出個體樣本的隱私信息,所以差分隱私模型不需要依賴於攻擊者所擁有多少背景知識。

而且對隱私信息提供了更高級別的語義安全,因此被作為一種新型的隱私保護模型而廣泛使用。

4.差分隱私的性質發展

McSherry等人在2010年對差分隱私提出了2個重要性質,分別是:

性質1.順序合成性質

性質2.平行合成性質

這兩個性質在設計差分隱私機制時有重要的作用,它們可以被用來控制一個差分隱私機制在使用中所需要的隱私預算。這個預算決定了安全條件下允許query的次數。

Daniel Kifer等人在2010年對差分隱私又提出了另外2個性質,分別是:

性質3.變換不變性

性質4.中凸性

5.相關定義的發展

定義1.差分隱私

從該定義可以看出,當epsilon的值越小,作用在一對相鄰數據集上的差分隱私算法返回的查詢結果的概率分布越相似,攻擊者就越難以區分這一對相鄰數據集,保護程度就越高。

發現問題、解決問題:差分隱私可以通過在查詢結果上加入噪聲來實現對用戶隱私信息的保護,而噪聲量的大小是一個關鍵的量,要使加入的噪聲既能保護用戶隱私,又不能使數據因為加入過多的噪聲而導致數據不可用。Dwork等人在2006年,提出了全局敏感度以及拉普拉斯機制的概念,通過全局敏感度來控制生成的噪聲的大小,可以實現滿足差分隱私要求的隱私保護機制。

定義2.全局敏感度

全局敏感度反映了一個查詢函數( :D->R, 為查詢函數,D為一數據集,R是查詢函數的返回結果)在一對相鄰數據集上進行查詢時變化的最大范圍。它與數據集無關,只由查詢函數本身決定。

拉普拉斯機制是一種簡單,而且廣泛用於數值型查詢的隱私保護機制。不同epsilon值,對應的拉普拉斯噪聲的概率密度函數不同。epsilon值越小,所加入的噪聲為0的概率就越小,對輸出的混淆程度就越大,保護程度就越高。

發現問題、解決問題:但當全局敏感度較大時,根據全局敏感度生成的噪聲往往會對數據提供過度的保護。Nissim等人提出了局部敏感度以及平滑敏感度等新的概念來解決這一問題。

定義3.局部敏感度

與全局敏感度不同,局部敏感度定義中的數據集D是給定的,不是任意的。局部敏感度中給定的數據集大到與全局敏感度中數據集相同時,局部敏感度等於全局敏感度。

發現問題、解決問題:因為根據局部敏感度所產生的噪聲和數據集本身相關,所以直接使用局部敏感度生成噪聲會泄露數據集信息。Nissim等人提出了根據平滑敏感度來生成噪聲的方案。他們首先提出了平滑上界的概念。

定義4.平滑上界

定義5.平滑敏感度

平滑敏感度就是可以滿足平滑上界條件的最小函數。

Nissim等人還提出了Sample-Aggregate框架,使用平滑敏感度,保證了添加的噪聲雖然與數據集有關,但不會泄露有關數據集的相關信息。

對於很多查詢函數來說,它的平滑敏感度可能是難以有效計算的,而且對於不同的查詢函數,平滑敏感度的計算是不能自動進行的。Sample-Aggregate解決了這一問題。它可以自動地進行,並且大多數查詢函數都適用,而且不需要精確的計算出查詢函數的平滑敏感度。

Sample-Aggregate框架首先將一個數據集隨機取樣划分為m個小子集,m是框架中設定好的參數,然后對每個子集上執行查詢函數 來生成一個在 的輸出空間上的值 ,最后通過聚合函數生成 來替代原始查詢函數 ,加入校正至平滑敏感度的噪聲來得到查詢結果。

發現問題、解決問題:對於批量線性查詢的問題,Li等人提出了一種矩陣機制,優化了大量線性查詢中噪聲量過大的問題。

發現問題:矩陣機制對於大型的數據是難以使用的。

發現問題、解決問題:由於拉普拉斯機制只能針對數值型數據進行隱私保護,對於非數值型數據,例如實體對象。McSherry等人提出了指數機制。

指數機制的目的、意義:指數機制的目的是使輸出結果滿足一定的概率分布。指數機制的意義在於防止了攻擊者對數據集中個體的投票情況的推測。

定義6.指數機制

                    6.實現機制         

通常使用拉普拉斯機制(Laplace Machanism)和指數機制(Exponential Mechanism)來實現差分隱私保護。其中,拉普拉斯機制用於數值型結果的保護,指數機制用於離散型結果的保護。

普拉斯機制(Laplace Machanism)

向確切的查詢結果中加入服從拉普拉斯分布的隨機噪聲來實現ε-差分隱私保護。記位置參數為0、尺度參數為b的拉普拉斯分布為Lap(b),那么其概率密度函數為:p(x)=exp(-|x|/b)/2b,對於拉普拉斯機制,我們進行以下定義:給定數據集D,設有函數f:D->Rd,其敏感度為Δf,那么隨機算法M(D)=f(D)+Y提供ε-差分隱私保護,其中Y~Lap(Δf/ε)為隨機噪聲,服從尺度參數為Δf/ε的拉普拉斯分布。

指數機制(Exponential Mechanism)

為了解決返回離散型結果而提出,設隨機算法M輸入為數據集D,輸出為一實體對象r∈Range,q(D,r)->R為可用性函數,Δq為函數q(D,r)->R的敏感度。若算法M以正比於exp(εq(D,r)/2Δq)的概率從Range中選擇並輸出r,那么算法M提供ε-差分隱私保護。

總結

本次報告主要是簡單的對差分隱私的背景、局限性、發展以及實現機制進行了簡單的介紹,對它所運行在那些環境中還沒有進行介紹,下一步還需要閱讀大量的資料,來分析它可以運行的環境,以及針對不同的環境,應該如何對其算法進行改造。差分隱私提供了一種無關攻擊者背景知識的數據保護方案,相比於其他方法更具優勢。矩陣機制對於大型的數據是難以使用,該問題未得到解決,還需要進一步對其進行學習研究。

參考文獻

[1] 李效光,李暉,李鳳華,朱輝.差分隱私綜述[J].信息安全學報,2018,3(05):92-104.

[2] https://www.freebuf.com/articles/database/182906.html


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM