一、歸納偏置
1、概念
inductive bias是關於目標函數的必要假設。
在機器學習中,很多學習算法經常會對學習的問題做一些假設,這些假設就稱為歸納偏置(Inductive Bias)。
歸納(Induction)是自然科學中常用的兩大方法之一(歸納與演繹, induction and deduction),指的是從一些例子中尋找共性、泛化,形成一個比較通用的規則的過程;
偏置(Bias)是指我們對模型的偏好。
通俗理解:
歸納偏置可以理解為,從現實生活中觀察到的現象中歸納出一定的規則(heuristics),然后對模型做一定的約束,從而可以起到“模型選擇”的作用,類似貝葉斯學習中的“先驗”。
2、例子
- 老生常談的“奧卡姆剃刀”原理,即希望學習到的模型復雜度更低,就是一種歸納偏置。
- 一些更強的假設:KNN中假設特征空間中相鄰的樣本傾向於屬於同一類;
- SVM中假設好的分類器應該最大化類別邊界距離;

- CNN的inductive bias應該是locality和spatial invariance,即空間相近的grid elements有聯系而遠的沒有,和空間不變性(kernel權重共享)
- RNN的inductive bias是sequentiality和time invariance,即序列順序上的timesteps有聯系,和時間變換的不變性(rnn權重共享)
- 注意力機制,也是基於從人的直覺、生活經驗歸納得到的規則。
3、作用
歸納偏置的作用是使得學習器具有了泛化的功能。
對於圖中的6個離散的點可以找到很多條不同的曲線去擬合它們,但是我們自己訓練的模型必然存在一定的“偏好”才能學習出模型自己認為正確的擬合規則。
哪條是較為准確地擬合出通用規則的曲線?明顯地,實線是加了一定正則的偏置才能使得曲線更為簡單,更為通用。
二、選擇性偏差
選擇性偏差:在研究過程中因樣本選擇的非隨機性而導致得到的結論存在偏差,不能代表整體,包括自選擇偏差(self-selection bias)和樣本選擇偏差(sample-selection bias)。
例子:
- 例如調用全國大學生學習情況,如果樣本空間只是清華、北大,那么肯定會對總體的調查結果產生很大的差別,這就是我們常說的選擇性誤差
-
找50個身體很好,但是抽煙的人。再找50個身體很差,但是不抽煙的人。對比兩組人,得出結論:吸煙有益健康。樣本存在選擇性偏差。
參考文獻:
