機器學習總結


背景:本文只是對機器學習相關知識的梳理和復習用,因此順序上可能有些隨意

摘要:

  1.各種算法的推導

  2.各種算法的比較(或優缺點)

  3.學習理論

       4.特征選擇方法

  5.模型選擇方法

  6.特征工程

  7.數據預處理

  8.應用例子

內容:

1.各種算法的推導

     線性回歸(Liner Regression):9個基本概念和10個基本算法總結的嶺(ridge)回歸部分  -- 最簡單的線性分類器

  機器學習-感知機 -- 線性分類器,SVM和神經網絡的基石

  LR:我的LR復習總結 -- 線性分類器,預測概率

  支持向量機(SVM):我的SVM復習總結 -- 線性/非線性分類器,核方法映射到高維線性可分

  DT,RF,GBDT,XGBT:決策樹和基於決策樹的集成方法(DT,RF,GBDT,XGBT)復習總結 -- 非線性分類器,決策樹,規則學習/條件概率

  關聯規則:FPGrowth算法總結復習 -- FP樹,規則學習

  KNN:k近鄰(KNN)復習總結 -- 非線性模型,KD樹和ball tree,基於距離的模型

  k-means:K-Means聚類和EM算法復習總結 -- 基於距離的的模型,KD樹和ball tree

  NB: 朴素貝葉斯(NB)復習總結 -- 線性分類器,判別模型與生成模型

    LDA:主題模型——隱式狄利克雷分布總結--概率圖模型PGM,NLP

  HMM:隱馬爾可夫模型(HMM)總結--概率圖模型PGM,NLP

  CRF:條件隨機場CRF

  神經網絡:我的機器學習/數據挖掘的書單--機器學習中的圖模型,仿生學

  TextRank與TF-IDF關鍵詞提取--對比LDA語義模型的詞義模型

  wordEmbedding與Word2Vec/Doc2Vec:deep-learning-nlp-best-practices

  CNN:待總結

  RNN/LSTM:雪倫RNN的文章   雪倫LSTM的文章  

  WDL:待總結

2.各種算法的比較(或優缺點)

  生成模型和判別模型(是否需要學習聯合分布):生成模型與判別模型

  線性模型和非線性模型:機器學習常見面試題整理

  LR和決策樹類算法的比較:邏輯回歸與決策樹在分類上的一些區別

  Bryan__的整理:機器學習算法比較  

  機器學習面試知識點總結(不斷補充中)

3. 學習理論

  理論部分:偏差-方差平衡

  正則化:數據預處理中歸一化(Normalization)與損失函數中正則化(Regularization)解惑

  經驗風險最小化與結構風險最小化:Andrew Ng機器學習公開課筆記 -- 學習理論

  損失函數和分類模型的評價指標:損失函數和分類器評估方法

  二分類如何轉換為多分類:機器學習面試知識點總結(不斷補充中)

  熵在機器學習中的身影:信息論中的熵(信息熵,聯合熵,交叉熵,互信息)和最大熵模型

  VC維:Andrew Ng機器學習公開課筆記 -- 學習理論

  常見的距離算法和相似度(相關系數)計算方法

  UCB與Hoeffing Bound:待總結

4.特征選擇方法

  使用sklearn做單機特征工程   附:自己實現的代碼

  特征選擇與特征學習方法-jason(1遍) 

  skelearn中特征選擇的一些方法了解 

5.模型選擇方法

  SVM參數詳解:SVM參數詳解

  RF和GBDT參數詳解:《使用sklearn進行集成學習——實踐》(還在研究)

  XGBoost參數調優:XGBoost-Python完全調參指南-參數解釋篇 (第二遍,考慮使用排序任務)
  LightGBM參數調優:待總結

  模型融合(blending和stacking):http://m.blog.csdn.net/article/details?id=53054686 ( 多數投票/加權平均,自融合,blending,stacking)    github

  貝葉斯信息准則(BIC)

  你有哪些deep learning(rnn、cnn)調參的經驗?

 

6.特征工程

  7種常用的特征工程 (清晰易懂)

  特征工程理論部分 

  美團的數據清洗和特征處理

  byran_的總結帖子

  sklearn中使用GBDT生成組合特征的例子

        特征的生命周期(我的比賽經驗總結)

7.數據預處理

  weka進行預處理 

  數據清洗和數據預處理(pandas 和 sklearn)

  數據挖掘筆記(三)—數據預處理
  降維:用於降維可視化的t-SNE

  聚類:kmeans,k-shit,譜聚類,密度聚類

8.應用例子

  深入淺出談數據挖掘——數據挖掘主要解決的四類問題

  數賽刷題的冠軍鏈接

  使用SVD對圖片進行降維的例子(github代碼

  利用機器學習模型去做排序任務

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM