數據處理不等式:Data Processing Inequality


  我是在差分隱私下看到的,新解決方案的可用性肯定小於原有解決方案的可用性,也就是說信息的后續處理只會降低所擁有的信息量。

  那么如果這么說的話為什么還要做特征工程呢,這是因為該不等式有一個巨大的前提就是數據處理方法無比的強大,比如很多的樣本要分類,我們做特征提取后,SVM效果很好 ,但是如果用DNN之類的CNN、AuToEncoder,那么效果反而不如原來特征。這樣就能理解了,DNN提取能力更強,那么原始就要有更多的信息,在新特征下無論怎么提取,信息就那么多。

  信息量越多越好么?肯定不是,否則為什么PCA要做降噪和去冗余呢?我們的目的是有效的信息最大化。

  另外一種理解就是從互信息不為0(信息損失)來解釋。

  從而

 

  那么如何在處理過程中不丟失有效信息呢?這時候就需要數學上的充分統計量,也就是g是y的充分統計量。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM