0.abstract
LDP近年來受到廣泛關注。現有的LDP保證的協議中,用戶在將數據分享給聚合器之前,在本地對數據進行編碼和擾動。然而,由於對於不同問題的不同隱私保護偏好,用戶不願意回答所有的問題。在本論文中,我們提出了一種方法來解決數據擾動的挑戰,同時考慮用戶的隱私偏好。具體來說,我們首先在LDP的框架上提出了一種雙向采樣技術值擾動。然后,我們結合雙采樣機制和用戶隱私偏好,以避免丟失數據的擾動。理論分析和一組數據集上的實驗證明所提機制的有效性。
1.introduction
LDP已經作為一種解決方法對於隱私保護數據收集和分析,因為他提供了可證明的隱私保護。LDP保證的協議一般可以分為Encode-Perturb-Aggregate范式。用戶將數據編碼成一種特俗的數據格式,然后出於隱私考慮擾動編碼值,最后,所有擾動的值聚合到不信任的收集者。
雖然LDP可以平衡用戶的隱私和數據可用性,但是現存的方法認為被調查的用戶會遵循收集過程的真實性。然而,在調查過程中,用戶可能拒絕吐露一些問題,由於一下擔心:1)隱私保護水平不符合預期;2)用戶僅僅就是不想告訴。由於擾動機制需要輸入,所以用戶可能會隨機選擇答案(或者NO)來進行擾動(我們稱其為假答案)。在擾動空間中,假答案會導致回避偏見。在論文中,我們考慮了“提供空值”應用程序去考慮假答案。首次考慮了用戶協作對估計精度的理解,首次提出了雙采樣樣本機制並將其用於數值擾動,然后將雙向樣本推廣到空值擾動。
創新點:
- 第一次考慮到並不是所有的用戶都會提供真實數據,提出的缺失數據擾動框架為提高數據可用性提供了新的見解。
- 我們提出了一種數據擾動的雙向采樣機制。可以代替Harmony進行均值估計。此外,擴展了雙樣本,能夠擾動空值數據。
- 提出的框架可以估計在隱私預算下提供真實數據用戶的比率,該機制可以研究如何通過聚合器去設置合理的隱私預算。
2.Preliminaries and problem definition
2.1 Local Differentital Privacy(LDP)
LDP的標准解決方法是隨機響應RR(randomized response)。特別的是,為了收集用戶的敏感信息,例如,用戶是HIV攜帶者,RR被用來擾動真實數據,同時仍可以保證
- i)每個用戶的答案提供了可信的可否認性
- ii)聚合者可以得到整個人群的無偏估計
很多前沿的機制使用RR作為中心部分來提供隱私保證,例如[13],[14]和 [8]。為了用任意數量的可能值處理分類數據,提出了K-RR。在傳統的RR算法中,每個用戶以P概率分享真實值,以1-P概率提供相反的答案,故在LDP中:
用Fr表示收集者接受到真實答案的概率,在擾動之前概率可以估計為:
f*是f的無偏估計。
近年來,有文獻研究了LDP下均值估計的數值擾動問題。我們引進了Harmony和Piecewise機制。
Harmony
Harmony被提出用來收集和分析數據。包含三個步驟:discretization, perturbation and adjusting.離散化用來產生{-1,1}之間的離散值,然后用RR進行擾動,最后,為了輸出無偏的值,對擾動的值進行調整。
Piecewise Mechanism(PM)
PM是另一種均值估計的擾動機制。PM的輸出值在-和
之間。PM被用來收集LDP下的單值屬性。
2.2 Problem Definition
Modeling users privacy preferences
- 當
時,用戶才會向收集者提供數值
- 當
時,用戶提供空值,而不是假數據
經過擾動之后,收集者計算空值率和用戶的平均值
用戶u的值域為[-1,1]U{T},空值率mr=空值的數量/n,均值=所有v的值的和/不是空值的個數
3.BiSample: Bidirectional Sampling Technique
在解決缺失數據擾動的問題之前,我們首先提出一種雙向擾動機制。機制將v∈[-1,1]作為輸入,輸出一個擾動數組<s,b>s代表采樣方向,b代表v值的采樣結果。采樣機制包含兩個基本的采樣方向:
-
Negative Sampling with LDP負采樣用來估計離散化后-1的頻率,擾動過程為:
-
Positive Sampling with LDP負采樣用來估計離散化后1的頻率,擾動過程為:
假設輸入域為[-1,1],算法2展示了雙向采樣的偽碼。在不喪失一般性前提下,當輸入域為[L,U],用戶
-
計算
-
使用雙采樣機制擾動
-
向收集者提供
4. Using BiSample for Missing Data Perturbation
s代表提供真知的和,f代表提供空值的概率
如果沒有空值,則無偏估計為:
有空值的情況下,無偏估計為:
問題:
1,<s,b>中的s取0,1的概率都為1/2嗎?還是v=-1時,s取0;v=1時,s取1?
2.<0,1><1,1>被用來計算平均值,那么產生的<1,0><0,0>被用來干什么?