Functional mechanism: regression analysis under differential privacy
論文學習報告
組員:裴建新 賴妍菱 周子玉
2020-03-10
1 背景
當今社會,互聯網技術正日益深入人們的生活.隨着網絡和信息化產業的迅猛發展,數據以前所未有的速度不斷地增長和累積,大數據已經成為學術界和產業界的熱點,同時改變着人們的日常生活.在大數據背景下,數據量相對以往有了質的飛躍.同時,人們對信息處理的速度、信息來源的多樣性信息處理的價值也有了更高的要求.然而,隨着從大數據中挖掘出各種各樣的敏感信息,數據參與者的隱私受到了嚴重威脅,這迫使人們加強對數據的隱私保護.
雖然學術界並沒有通用的隱私概念,但一般意義下,通常將用戶認為自身敏感且不願公開的部分信息稱為隱私.然而,如果直接將這部分信息屏蔽,數據的價值就會大打折扣.可以說,在完善地保護敏感信息的同時,有效地釋放對公眾有益的信息,這本身就是矛盾的事.在社會學方面,可以制定保護個人信息的法律,對惡意窺探他人隱私的行為進行懲罰,但是這種方法實施起來需要大量的人力資源,效果也不甚理想.因此,從技術上解決這個問題變得更加實際,通常的做法是通過“去識別”的方式使部分數據匿名.但不幸的是,隨着數據量的增長,數據之間的關聯度日益增強,一些經過“去識別”處理的匿名數據,仍然能夠通過互相之間的聯系得到辨認,使得預防用戶身份再識別的難度與日俱增.[2]
2 研究現狀
2006年,Dwork et al.提出ϵ-差分隱私的概念,表明它可以使用拉普拉斯執行機制,支持任何查詢的輸出是實數.這種機制在現有的工作中被廣泛采用,但大多數采用僅限於聚合查詢或可簡化為簡單聚合的查詢.作為拉普拉斯機制的補充,McSherry和Talwar提出了指數機制,它適用於任何輸出空間是離散的查詢.這為輸出不是實數的各種有趣問題提供了不同的私有解決方案.然而,無論是拉普拉斯機制還是指數機制都很難被用於回歸分析.因為這兩種機制都需要對目標問題進行仔細的敏感性分析.當輸入數據中的任意元組被修改時,問題輸出會發生很大變化.然而,由於回歸輸入和輸出之間的復雜相關性,這樣的分析對於回歸任務來說相當困難.
論文中指出,目前僅有的針對回歸分析的工作是由Chaudhuri等人、Smith和Lei完成的.具體來說,Chaudhuri等表明,當回歸任務的代價函數是凸的、雙可微的時,可以使用基於目標擾動的差分私有算法進行回歸.但該算法不適用於標准的logistic回歸,因為logistic回歸的成本函數不滿足凸性要求.相反,Chaudhuri等人證明了他們的算法可以使用修改后的輸入來處理非標准類型的邏輯回歸.然而,修正的邏輯回歸在實踐中是否有用還不清楚.Smith提出了一個統計分析的通用框架,它利用了拉普拉斯機制和指數機制.然而,該框架要求統計分析的輸出空間是有限的,這使得它不適用於線性回歸和邏輯回歸.例如,如果我們在一個三維數據集上預形成一個線性回歸,那么輸出將是兩個實數,兩者都有一個無界域.
Lei提出了一種回歸方法,避免直接對回歸輸出進行敏感性分析.簡而言之,該方法首先使用拉普拉斯機制產生輸入數據的一個有噪聲的多維直方圖.然后,它生成一個合成數據集,該數據集與有噪聲的直方圖中的統計數據相匹配,而不需要查看原始數據集.最后利用綜合數據計算回歸結果.但由於多維直方圖只包括計數,這使它更容易執行ϵ—差分隱私,可處理拉普拉斯機制差分隱私的方式.然而,正如論文的實驗對比可以觀察到,Lei的方法被限制在小維度的數據集上.這是因為當輸入數據的維數增加時,這種方法會產生粒度更粗的有噪直方圖,從而導致合成數據和回歸結果不准確.總之,現有的解決方案沒有一個能產生令人滿意的線性或邏輯回歸結果.
3 前序知識
3.1 線性回歸
線性回歸[3]是回歸問題中的一種.線性回歸假設目標值與特征之間線性相關,即滿足一個多元一次方程.通過構建損失函數,來求解損失函數最小時的參數w和b.通常可以表示如圖3.1:
圖3.1 線性回歸的一般表示
其中y^為預測值,自變量x和因變量y是已知的,而我們想實現的是預測新增一個x,其對應的y是多少.因此,為了構建這個函數關系,目標是通過已知數據點,求解線性模型中w和b兩個參數.
求解最佳參數,需要一個標准來對結果進行衡量,為此我們需要定量化一個目標函數式,使得計算機可以在求解過程中不斷地優化.
針對任何模型求解問題,都是最終都是可以得到一組預測值y^ ,對比已有的真實值y,數據行數為n,可以將損失函數定義為如圖3.2(a)所示,即預測值與真實值之間的平均的平方距離,統計中一般稱其為MAE(mean square error)均方誤差.把圖1的函數式代入損失函數,並且將需要求解的參數w和b看做是函數L的自變量(圖3.2(b)).
圖3.2 線性回歸中的函數分析
此時,線性回歸的任務便是求解最小化L時w和b的值,即核心目標優化式(圖3.3).
圖3.3 線性回歸中的核心目標優化式
3.2 邏輯回歸
邏輯回歸[4]雖然名字中有回歸,但模型最初是為了解決二分類問題.
對線性模型進行分類如二分類任務,簡單的是通過階躍函數,即將線性模型的輸出值套上一個函數進行分割,大於z的判定為0,小於z的判定為1,如圖3.4(a).但這樣的分段函數數學性質不好,既不連續也不可微.因此提出了Sigmoid函數,如圖3.4(b).
圖3.4 典型的兩種激活函數
回歸問題的損失函數一般為平均誤差平方損失MSE,邏輯回歸解決二分類問題中,損失函數如圖3.5(a)所示.這個函數通常稱為對數損失,這里的對數底為自然對數e,其中真實值y是有0或1兩種情況,而推測值y^由於借助對數幾率函數,其輸出是介於0~1之間連續概率值.因此損失函數可以轉換為分段函數如圖3.5(b)所示.
圖3.5 邏輯回歸中的函數分析
此時,邏輯回歸的學習任務便是求解最小化L時w和b的值,即核心目標優化式(圖3.6).
圖3.6 邏輯回歸中的核心目標優化式
3.3 ϵ-差分隱私
一個隨機算法滿足ϵ-差分隱私,敵我識別的任何輸出O和任意兩個鄰居數據庫D1和D2需要滿足下述條件(見圖3.7).其中,ϵ越小,隱私保密度越高;ϵ越大,數據可用性越高;ϵ趨近於0時,兩個算法的輸出無限逼近.
圖3.7 隨機算法A滿足ϵ-差分隱私的條件
3.3.1 拉普拉斯機制
(1)拉普拉斯機制的敏感度:給定一個函數集Q,D1和D2為鄰近數據集,其敏感度定義如圖3.8所示.
圖3.8 拉普拉斯機制下的敏感度
(2)對於期望為0,方差為2b2的拉普拉斯分布,其概率密度函數如圖3.9所示.
圖3.9 期望為0,方差為2b2拉普拉斯機制的概率密度函數
4 核心算法
4.1 主要思想
簡單來說,論文中函數機制(Functional Mechanism,FM)算法是拉普拉斯機制的一個擴展.該算法的主要特點在於:1)不直接向回歸分析的結果注入噪音;2)通過干擾回歸分析的優化目標函數來保證隱私.在回歸分析中,我們可以通過最優化目標函數解出目標函數的最優解w*,但是如果直接發布w*會泄露隱私,為了解決這個問題,文中提出了使用拉普拉斯機制向ω֗添加噪聲的方法,以此來保護數據隱私.考慮到數據集D和w之間的復雜關系,使得這個方法頗具挑戰性.
與直接給w加入噪聲不同,FM是直接向目標函數添加噪聲,得到一個擾動目標函數
,用擾動目標函數代替原始目標函數,通過對擾動目標函數求解得到
.而論文的難點在於如何保證添加噪聲后的目標函數依然滿足差分隱私的要求.
4.2 算法流程
這里我們用w作為一個含有d個元素的向量,即.用
來表示
的乘積,其中
屬於自然數集合N.用
表示所有
的乘積,有如下表達:
根據Stone-Weierstrass定理任何一個連續可微的函數都可以寫成多項式的形式,因此可以寫成如下形式:
其中,是
的系數,
.
我們通過對上述目標函數用拉普拉斯機制添加噪聲可以得到一個擾動目標函數,即:
算法的主要流程如表1所示:
表1 算法流程
算法首先計算出∆這個參數,然后通過兩個for循環,分別用拉普拉斯機制對添加噪聲,得到擾動目標函數的,然后就可以得到擾動目標函數,最后求出
.整個算法流程的核心就在於第四行代碼,第四行代碼通過拉普拉斯添加噪音,從而實現了對目標函數的擾動.
4.3 推導證明
因為整個算法是基於查分隱私的回歸分析,所以要求該算法必須滿足查分隱私的條件.在證明算法滿足差分隱私之前,還要先證明定理1(Lemma1).
其中表示任意一個元組.
為了不失一般性,文中假設D和D’兩個鄰近數據集中只有最后一個元素不一樣,用表示最后一個元組.
原始目標函數和擾動目標函數相減,可得下式:
其中,第一個不等號成立的原因在於兩個數之差的絕對值一定小於等於兩個數絕對值之和,第二個不等號成立的原因在於兩個數絕對值之和一定小於等於其中較大絕對值的二倍.
有了以上不等式,我們可以證明FM算法是滿足差分隱私條件的.同樣用D和D1代表兩個鄰近數據集,為了不失一般性,假設兩個數據集中只有最后一個元組不同,根據前面提到的查分隱私的公式有:
綜上所述,FM算法是滿足差分隱私條件的.
5 實驗及算法效果
論文中針對四種方法,即DPME、過濾器優先級(FP)、NoPrivacy和截斷方法,對FM的性能進行了實驗評估.
實驗使用了兩個開源數據集,美國和巴西人口普查記錄數據集,分別包含在美國和巴西收集的370,000和190,000人口普查記錄.每個數據集中有13個屬性,分別是年齡、性別、婚姻狀況、教育程度、殘疾程度、出生率、每周工作時間、當前位置的居住年數、房屋所有權、家庭規模、孩子數、汽車數量和年收入. 在這些屬性中,婚姻狀況是唯一的,其域包含兩個以上的值的類別屬性,即,單身,已婚和離婚/喪偶.按照回歸分析中的常規做法,婚姻狀況被轉換為兩個二元屬性,即“單身”和“已婚”,一個離婚/喪偶的人在這兩個屬性上的分類值均為false.通過這種轉換,我們兩個數據集都變為14維.
然后對每個數據集進行回歸分析,以使用剩余屬性預測年收入值. 對於邏輯回歸,將年收入轉換為二進制屬性:高於預定義閾值的值映射為1,否則為0.實驗通過均方誤差、誤分類率、計算時間(秒)三個指標進行效果評估.
圖5.1 數據集維度對均方誤差、誤報率的影響
從圖5.1可以看出,FM始終優於FP和DPME,並且回歸准確性幾乎和NoPrivacy相同.從c和d得出,在數據集維數較高時,FP和DPME的誤報率非常高.
圖5.2 數據集基數對均方誤差、誤報率的影響
從圖5.2可以看出,對於這兩個回歸任務和兩個數據集,FM的性能均顯着優於FP和DPME.此外,對於線性回歸,FM和NoPrivacy之間的准確性差異可以忽略不計.同時,它們的准確性在數據庫中記錄數變化時基本保持穩定.
圖5.3 差分隱私參數對均方誤差、誤報率的影響
從圖5.3可以看出,FM的性能均優於FP和DPME,從c和d可以看出,FP和DPME產生的回歸結果准確性要差得多,尤其是當ϵ較小時.
圖5.4 數據集維度對計算時間的影響
圖5.5 采樣率對計算時間的影響
從圖5.4和圖5.5可以看出,所有算法的計算時間都隨數據集的維數和基數的增加而增加.但是FM的計算時間明顯小於所有其他算法,效率最高.
圖5.6 差分隱私參數對計算時間的影響


綜上所述,在所有實驗中,FM均能得到較小的均方誤差、較低的誤報率以及較短的計算時間,所以FM在准確性和效率上均優於FP和DPME,這也是這篇論文的優勢和創新點.
6 總結
這篇論文表明,FM是進行差分隱私回歸分析的首選方法,是拉普拉斯機制的擴展,它不直接向回歸結果中注入噪聲,而是通過干擾回歸分析的優化目標來保證隱私。論文先從理論上用大量數學公式進行推導,並且將推導的結果在實例數據集上進行了驗證,得出了該算法的有效性,這給了我們啟發.在看論文的過程中,我們認真對每個公式進行了理解和推導,公式的理解是這篇論文的難點,但我們齊心協力,集合大家的智慧將公式弄懂了,進而去理解整篇論文,在這個過程中,我們收獲頗豐.
7 參考文獻
[1] Zhang, Jun, et al. "Functional mechanism: regression analysis under differential privacy." arXiv preprint arXiv:1208.0219 (2012).
[2] 曹永知.概率系統差分隱私研究綜述[J].廣州大學學報(自然科學版),2019,18(04):75-82.
[3] EO_Admin.機器學習| 算法筆記- 線性回歸[EB/OL]. https://www.cnblogs.com/geo-will/p/10468253.html,2019-03-10.
[4] EO_Admin.機器學習| 算法筆記- 邏輯斯蒂回歸[EB/OL]. https://www.cnblogs.com/geo-will/p/10468356.html ,2019-03-10.