應導師要求,給新來的師弟師妹講講機器學習的一些東西,方便有個大概的結構,本人不才,略寫點自己的看法和總結,有錯誤之處請多多指教。
回顧比賽
最近半年參加的比賽成績:
1. 阿里音樂流行趨勢預測大賽 2016.5.17-7.15 Top 15/5476 2. 最后一公里極速配送 2016.7.4-9.9 Top 31/1460 3. 阿里雲安全算法挑戰賽 2016.8.22-10.13 Top 1/940 4. 機場客流量的時空分布預測 2016.9.28-11.28 Top 28/3038
比賽感悟,有了成長,更有了堅定的目標,比賽中深刻發現自己學習方面的缺陷,封賽專心學習,重打基礎,做更靠譜的方案。
基本過程
具體問題需要具體分析
數據清洗/處理
數據清洗直接影響后期特征和模型的效果,必須重視!
1. 缺失值處理(刪除、補全、標記為缺失特征等)
2. 異常數據處理(刪除、平滑等)
3. 不規范數據規范化
4. 構建合適樣本(解決樣本傾斜等)
5. 划分數據集(train validation test)
特征工程
特征工作是重中之重,特征提不好,模型很難提升上去,特征好了,效果提升很模型。
特征構造
根據業務場景來構建特征(特征不要時間穿越,不要用到標簽) 交叉特征(多項式組合,GBDT與LR構造組合特征) 時間窗口特征 變換特征(log、歸一化等) 連續特征離散化 離散特征連續化(獨熱編碼、向量化等)
特征選擇
模型選擇
regression (回歸),classification (分類),clustering (聚類)
常見的回歸算法
常見的分類算法
常見的聚類方法
規則
結合實際業務背景,簡單有效的規則,可用於模型融合。
推薦算法
參數優化
交叉驗證避免過擬合,針對評測函數優化,重構模型損失函數。
網格搜索遍歷優化等,與模型本身數學推導和數據情況有關,具體略。
資源分配
預處理10% 特征過程60% 模型調整/融合30%
文本處理
不平滑數據處理
暫略
- 過采樣/欠采樣
- 代價敏感
集成學習
參考:http://blog.csdn.net/q383700092/article/details/53557410
遷移學習
暫略