最近不少朋友問到數據挖掘怎么入門,要看什么資料,
就想寫一篇文章介紹一下入門步驟和資料,基本上下面的步驟是按順序的,時間方面個人感覺至少需要小幾個月
基礎知識:
- 線性代數
- 統計學
- 計算機技術
基本上這些東西不說熟悉,至少也要有點概念,或者是大學有上過對應的課程,不需要特別准備。
推薦書籍和資料:
視頻:
- Coursera Machine Learning by Andrew Ng 作為入門還是不錯的,而且對於初學者而言,視頻比較容易理解
中文:
- 《數據挖掘概念與技術》 這本書我自己也挺喜歡的,適合初學者,涉及的面比較多,不過不夠深入 (備選:《數據挖掘導論》)
- 《數學之美》 介紹了一些挺有意思的東西
英文:
- PPT by Tan, Steinbach, Kumar 我這邊上傳了PDF版本
- Pattern Recognition And Machine Learning 很多人推薦的一本書了,就是沒有中文,而且難度有點大 (可以慢慢看)
實踐:
了解了數據挖掘是怎么回事以后,最好的學習辦法就是開始實戰,如果公司里面沒有類似的項目,那么可以考慮去以下網站參加比賽,重在參與和學習
其他常用資料和網站:
數據挖掘工作中可能涉及到的技能和工具:
- 業務知識
- 數據清理和准備 (例如說sql server)
- 建模和分析工具 (例如說R, Weka)
- 算法和方案
- Demo (PPT)
- 大數據處理 (Hadoop/Mahout)
- Coding (不管是自己做一點處理還是最終把產品帶上線,都需要一些coding的能力)