9-1
一般認為,有用信息具有較大的方差,噪聲有較小的方差。
主成分分析,選擇方差最大的方向投影,並去掉多余的維度(特征),達到降噪的目的。
9-2
9-3
具有多重共線性的數據不適合使用主成分分析。舉例來說,對於一個二分類問題,正例樣本為(1,1,1,1,1),負例樣本為(0,0,0,0,0)。
9-4[?]
9-5
9-6
兩個公式的導數如下。
有如下的函數圖像。
9-7
k鄰近,阿西吧
10-1
10-2
由定理10.1可知,為了得到更好的繼承效果,需要每個模型具備一定的差異性,並且隨着數量的增多,其錯誤率會下降,並趨近於0.
集成學習可以避免過擬合,避免過擬合的前提是:各基模型的差異需要盡可能的大。可以采用Bagging類方法或者Booting類方法。
10-3
1.自訓練算法和EM算法都屬於半監督學習算法,需要有一些有標注數據訓練模型;
2.兩者都屬於迭代優化策略。
3.自訓練沒有機制保證每次加入訓練集的樣本的偽標簽是正確的,而EM算法可以通過不斷地EM迭代,最大化邊際似然函數。
10-4[納尼???]