背景:本文只是對機器學習相關知識的梳理和復習用,因此順序上可能有些隨意
摘要:
1.各種算法的推導
2.各種算法的比較(或優缺點)
3.學習理論
4.特征選擇方法
5.模型選擇方法
6.特征工程
7.數據預處理
8.應用例子
內容:
1.各種算法的推導
線性回歸(Liner Regression):9個基本概念和10個基本算法總結的嶺(ridge)回歸部分 -- 最簡單的線性分類器
機器學習-感知機 -- 線性分類器,SVM和神經網絡的基石
LR:我的LR復習總結 -- 線性分類器,預測概率
支持向量機(SVM):我的SVM復習總結 -- 線性/非線性分類器,核方法映射到高維線性可分
DT,RF,GBDT,XGBT:決策樹和基於決策樹的集成方法(DT,RF,GBDT,XGBT)復習總結 -- 非線性分類器,決策樹,規則學習/條件概率
關聯規則:FPGrowth算法總結復習 -- FP樹,規則學習
KNN:k近鄰(KNN)復習總結 -- 非線性模型,KD樹和ball tree,基於距離的模型
k-means:K-Means聚類和EM算法復習總結 -- 基於距離的的模型,KD樹和ball tree
NB: 朴素貝葉斯(NB)復習總結 -- 線性分類器,判別模型與生成模型
LDA:主題模型——隱式狄利克雷分布總結--概率圖模型PGM,NLP
HMM:隱馬爾可夫模型(HMM)總結--概率圖模型PGM,NLP
CRF:條件隨機場CRF
神經網絡:我的機器學習/數據挖掘的書單--機器學習中的圖模型,仿生學
TextRank與TF-IDF關鍵詞提取--對比LDA語義模型的詞義模型
wordEmbedding與Word2Vec/Doc2Vec:deep-learning-nlp-best-practices
CNN:待總結
WDL:待總結
2.各種算法的比較(或優缺點)
生成模型和判別模型(是否需要學習聯合分布):生成模型與判別模型
線性模型和非線性模型:機器學習常見面試題整理
LR和決策樹類算法的比較:邏輯回歸與決策樹在分類上的一些區別
Bryan__的整理:機器學習算法比較
3. 學習理論
正則化:數據預處理中歸一化(Normalization)與損失函數中正則化(Regularization)解惑
經驗風險最小化與結構風險最小化:Andrew Ng機器學習公開課筆記 -- 學習理論
損失函數和分類模型的評價指標:損失函數和分類器評估方法;
二分類如何轉換為多分類:機器學習面試知識點總結(不斷補充中)
熵在機器學習中的身影:信息論中的熵(信息熵,聯合熵,交叉熵,互信息)和最大熵模型
VC維:Andrew Ng機器學習公開課筆記 -- 學習理論
UCB與Hoeffing Bound:待總結
4.特征選擇方法
5.模型選擇方法
SVM參數詳解:SVM參數詳解
RF和GBDT參數詳解:《使用sklearn進行集成學習——實踐》(還在研究)
XGBoost參數調優:XGBoost-Python完全調參指南-參數解釋篇 (第二遍,考慮使用排序任務)
LightGBM參數調優:待總結
模型融合(blending和stacking):http://m.blog.csdn.net/article/details?id=53054686 ( 多數投票/加權平均,自融合,blending,stacking) github
你有哪些deep learning(rnn、cnn)調參的經驗?
6.特征工程
7種常用的特征工程 (清晰易懂)
特征的生命周期(我的比賽經驗總結)
7.數據預處理
數據清洗和數據預處理(pandas 和 sklearn)
數據挖掘筆記(三)—數據預處理
降維:用於降維可視化的t-SNE
聚類:kmeans,k-shit,譜聚類,密度聚類
8.應用例子
使用SVD對圖片進行降維的例子(github代碼)