0.abstract

LDP近年來受到廣泛關注。現有的LDP保證的協議中，用戶在將數據分享給聚合器之前，在本地對數據進行編碼和擾動。然而，由於對於不同問題的不同隱私保護偏好，用戶不願意回答所有的問題。在本論文中，我們提出了一種方法來解決數據擾動的挑戰，同時考慮用戶的隱私偏好。具體來說，我們首先在LDP的框架上提出了一種雙向采樣技術值擾動。然后，我們結合雙采樣機制和用戶隱私偏好，以避免丟失數據的擾動。理論分析和一組數據集上的實驗證明所提機制的有效性。

1.introduction

LDP已經作為一種解決方法對於隱私保護數據收集和分析，因為他提供了可證明的隱私保護。LDP保證的協議一般可以分為Encode-Perturb-Aggregate范式。用戶將數據編碼成一種特俗的數據格式，然后出於隱私考慮擾動編碼值，最后，所有擾動的值聚合到不信任的收集者。

雖然LDP可以平衡用戶的隱私和數據可用性，但是現存的方法認為被調查的用戶會遵循收集過程的真實性。然而，在調查過程中，用戶可能拒絕吐露一些問題，由於一下擔心：1）隱私保護水平不符合預期；2）用戶僅僅就是不想告訴。由於擾動機制需要輸入，所以用戶可能會隨機選擇答案（或者NO）來進行擾動（我們稱其為假答案）。在擾動空間中，假答案會導致回避偏見。在論文中，我們考慮了“提供空值”應用程序去考慮假答案。首次考慮了用戶協作對估計精度的理解，首次提出了雙采樣樣本機制並將其用於數值擾動，然后將雙向樣本推廣到空值擾動。

創新點：

第一次考慮到並不是所有的用戶都會提供真實數據，提出的缺失數據擾動框架為提高數據可用性提供了新的見解。
我們提出了一種數據擾動的雙向采樣機制。可以代替Harmony進行均值估計。此外，擴展了雙樣本，能夠擾動空值數據。
提出的框架可以估計在隱私預算下提供真實數據用戶的比率，該機制可以研究如何通過聚合器去設置合理的隱私預算。

2.Preliminaries and problem definition

2.1 Local Differentital Privacy(LDP)

LDP的標准解決方法是隨機響應RR（randomized response）。特別的是，為了收集用戶的敏感信息，例如，用戶是HIV攜帶者，RR被用來擾動真實數據，同時仍可以保證

i）每個用戶的答案提供了可信的可否認性
ii）聚合者可以得到整個人群的無偏估計

很多前沿的機制使用RR作為中心部分來提供隱私保證，例如[13],[14]和 [8]。為了用任意數量的可能值處理分類數據，提出了K-RR。在傳統的RR算法中，每個用戶以P概率分享真實值，以1-P概率提供相反的答案，故在LDP中：

用Fr表示收集者接受到真實答案的概率，在擾動之前概率可以估計為：

f*是f的無偏估計。
近年來，有文獻研究了LDP下均值估計的數值擾動問題。我們引進了Harmony和Piecewise機制。