【論文學習4】BiSample: Bidirectional Sampling for Handling Missing Data with Local Differential Privacy


0.abstract

LDP近年來受到廣泛關注。現有的LDP保證的協議中,用戶在將數據分享給聚合器之前,在本地對數據進行編碼和擾動。然而,由於對於不同問題的不同隱私保護偏好,用戶不願意回答所有的問題。在本論文中,我們提出了一種方法來解決數據擾動的挑戰,同時考慮用戶的隱私偏好。具體來說,我們首先在LDP的框架上提出了一種雙向采樣技術值擾動。然后,我們結合雙采樣機制和用戶隱私偏好,以避免丟失數據的擾動。理論分析和一組數據集上的實驗證明所提機制的有效性。

1.introduction

LDP已經作為一種解決方法對於隱私保護數據收集和分析,因為他提供了可證明的隱私保護。LDP保證的協議一般可以分為Encode-Perturb-Aggregate范式。用戶將數據編碼成一種特俗的數據格式,然后出於隱私考慮擾動編碼值,最后,所有擾動的值聚合到不信任的收集者。

雖然LDP可以平衡用戶的隱私和數據可用性,但是現存的方法認為被調查的用戶會遵循收集過程的真實性。然而,在調查過程中,用戶可能拒絕吐露一些問題,由於一下擔心:1)隱私保護水平不符合預期;2)用戶僅僅就是不想告訴。由於擾動機制需要輸入,所以用戶可能會隨機選擇答案(或者NO)來進行擾動(我們稱其為假答案)。在擾動空間中,假答案會導致回避偏見。在論文中,我們考慮了“提供空值”應用程序去考慮假答案。首次考慮了用戶協作對估計精度的理解,首次提出了雙采樣樣本機制並將其用於數值擾動,然后將雙向樣本推廣到空值擾動。

創新點:

  • 第一次考慮到並不是所有的用戶都會提供真實數據,提出的缺失數據擾動框架為提高數據可用性提供了新的見解。
  • 我們提出了一種數據擾動的雙向采樣機制。可以代替Harmony進行均值估計。此外,擴展了雙樣本,能夠擾動空值數據。
  • 提出的框架可以估計在隱私預算下提供真實數據用戶的比率,該機制可以研究如何通過聚合器去設置合理的隱私預算。

2.Preliminaries and problem definition

2.1 Local Differentital Privacy(LDP)

LDP的標准解決方法是隨機響應RR(randomized response)。特別的是,為了收集用戶的敏感信息,例如,用戶是HIV攜帶者,RR被用來擾動真實數據,同時仍可以保證

  • i)每個用戶的答案提供了可信的可否認性
  • ii)聚合者可以得到整個人群的無偏估計

很多前沿的機制使用RR作為中心部分來提供隱私保證,例如[13],[14]和 [8]。為了用任意數量的可能值處理分類數據,提出了K-RR。在傳統的RR算法中,每個用戶以P概率分享真實值,以1-P概率提供相反的答案,故在LDP中:

用Fr表示收集者接受到真實答案的概率,在擾動之前概率可以估計為:

f*是f的無偏估計。
近年來,有文獻研究了LDP下均值估計的數值擾動問題。我們引進了Harmony和Piecewise機制。

Harmony

Harmony被提出用來收集和分析數據。包含三個步驟:discretization, perturbation and adjusting.離散化用來產生{-1,1}之間的離散值,然后用RR進行擾動,最后,為了輸出無偏的值,對擾動的值進行調整。

Piecewise Mechanism(PM)

PM是另一種均值估計的擾動機制。PM的輸出值在-之間。PM被用來收集LDP下的單值屬性。

2.2 Problem Definition

Modeling users privacy preferences

  • 時,用戶才會向收集者提供數值
  • 時,用戶提供空值,而不是假數據

經過擾動之后,收集者計算空值率和用戶的平均值

用戶u的值域為[-1,1]U{T},空值率mr=空值的數量/n,均值=所有v的值的和/不是空值的個數

3.BiSample: Bidirectional Sampling Technique

在解決缺失數據擾動的問題之前,我們首先提出一種雙向擾動機制。機制將v∈[-1,1]作為輸入,輸出一個擾動數組<s,b>s代表采樣方向,b代表v值的采樣結果。采樣機制包含兩個基本的采樣方向:

  • Negative Sampling with LDP負采樣用來估計離散化后-1的頻率,擾動過程為:

  • Positive Sampling with LDP負采樣用來估計離散化后1的頻率,擾動過程為:

假設輸入域為[-1,1],算法2展示了雙向采樣的偽碼。在不喪失一般性前提下,當輸入域為[L,U],用戶

  • 計算

  • 使用雙采樣機制擾動

  • 向收集者提供

4. Using BiSample for Missing Data Perturbation



s代表提供真知的和,f代表提供空值的概率

如果沒有空值,則無偏估計為:

有空值的情況下,無偏估計為:

問題:
1,<s,b>中的s取0,1的概率都為1/2嗎?還是v=-1時,s取0;v=1時,s取1?
2.<0,1><1,1>被用來計算平均值,那么產生的<1,0><0,0>被用來干什么?


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM