周志華老師《機器學習》復習要點
第6章:支持向量機
- 6.1 間隔與支持向量:
- 超平面的方程是什么?(設w與x都是列向量)同一個超平面是有無窮組(w,b)嗎?什么變換可以由其中一組得到所有組?
- 超平面的方向由w完全確定嗎?原點到超平面的距離由w決定還是w和b共同決定?
- 為什么對於超平面兩側的點的判別式的右側可以直接令為正負1?
- 什么是支持向量?
- 當被優化目標被轉化為1/2倍的w平方的時候,這個問題變成了什么規划問題?
- 6.2 對偶問題:
- 拉格朗日乘數法針對的是什么優化問題?
- 引入乘子后,可以將d個變量和k個約束轉化為什么問題?
- 什么是KKT條件?
- 什么時候需要引入KKT條件?
- 能不能快速寫出m個等式約束和n個不等式約束的對偶問題對應的KKT條件?
- 對偶函數與主問題最優值的關系是什么?
- 無論主問題是不是凸優化問題,對偶問題一定都是凸優化問題嗎?
- 什么是弱對偶性,什么是強對偶性,舉出一種常見的滿足強對偶性的主問題需要滿足的條件?
- 對於基本的線性可分的SVM模型,KKT條件決定了SVM的什么性質?
- SMO算法的基本思路是什么?
- 6.3 核函數:
- 什么是核函數?
- 為什么要引入核函數?
- 核函數一定存在嗎?
- 有哪些常見的核函數?
- 核函數決定的高維特征空間可能是無窮維嗎?
- 為什么說核函數的選擇是SVM使用時最大的變數?
- 現實任務中,關於核函數的選擇,我們應該在哪兩個問題中做權衡,換句話說,高維空間內線性可分會不會是過擬合導致的?
- 6.4 軟間隔與正則化:
- 軟間隔與松弛變量的關系是什么?
- 那些不滿足約束條件的變量一開始是靠什么函數放進優化目標函數里的?
- 實際中我們應該使用它嗎?
- 常見用於替代0,1符號變量的替代損失函數有哪些?
- SVM選擇哪個?
- 之所以選擇它是因為只有它保證了SVM的什么性質?
- 由軟間隔與正則化引申出的此類機器學習模型的通用解釋是什么?(結構風險最小化與經驗風險最小化之間的權衡)
- L2范數傾向於使數據?
- 而L1和L0范數傾向於使數據?
-
6.5 支持向量回歸:
-
6.6 核方法:
-
習題:
第5章:神經網絡
- 5.3 誤差反向傳播算法:
- 多層前饋網絡的輸入層神經元個數與輸出層神經元個數由什么決定?
- 對於輸入層,隱含層,輸出層分別有d,q,l個神經元的神經網絡,一共有多少個參數需要確定?
- sigmoid一個關於求導的優良特性是?
- 恆定學習率的多層前饋網絡的超參數有幾個?
- 如何初始化網絡權值和閾值?
- 能否有兩個神經元的初始化的值相等?
- 能否快速寫出單隱含層前饋神經網絡的偽代碼?
- 累積誤差BP算法與標准BP算法的區別?優缺點?如何選擇?
- 神經網絡的強大表示能力同時帶來的缺點是什么?
- 一般來說,解決這個問題的兩種思路是?
- 5.4 全局最小與局部極小:
- 常用的用來跳出局部極小值的技術有?
- 5.5 幾種常見的其他神經網絡:
- RBF網絡是靠增加隱含層神經元還是增加隱含層數來實現逼近任意函數的?
- 什么是徑向基函數?
- 訓練RBF神經網絡與普通的多層前饋網絡有什么區別?
- ART網絡
- SOM網絡
- 網絡級聯
- Elman網絡(RNN遞歸神經網絡)