本菜鳥入門機器學習也有一段時間了,有那么一丟丟的感悟,在這里做一點總結。介紹一下機器學習理論和實踐的學習心得。
相關教材
數學基礎
高數、線性代數這就沒啥好說的,就是大學工科的必修科目。
統計機器學習
李航的藍皮書和周志華的西瓜書可以說是國內的比較經典的教材,這兩位也是國內人工智能領域的領軍人物。
深度學習
強烈推薦花書,這可以說是深度學習方面的權威教材。除此以外還有吳恩達的講義和教學視頻,網上都可以找到。
小白入門教材
前面推薦的書籍,雖然算得上入門教材,但可能對於小白來說,不是很容易接受。這里推薦深度學習入門:基於Python的理論與實現和機器學習實戰這兩本書,講的通俗易懂,容易上手。
進階教材
PRML和MLAPP這兩本書屬於神書級別的,誰看誰知道。
補充資料
直接在github上搜索機器學習或深度學習關鍵詞,就可以找到很多高星項目,我就不一一列舉了。
實踐部分
- 編程語言推薦python,簡單容易上手。現在官方文檔還推出了中文:https://docs.python.org/zh-cn/3/
- 機器學習方面,python中有三個很重要的包:numpy、pandas、matplot。具體的使用方法請查閱相應的官方文檔:https://www.numpy.org/devdocs/
https://pandas.pydata.org/pandas-docs/stable/ https://matplotlib.org/index.html
這三個包暫時沒有官方中文,但是有一些民間的漢化版本,大家可以自行百度。 - sklearn,這個包集成幾乎所有統計機器學習的API,是一個很重要的工具包。官方網站:http://scikit-learn.github.io/stable
- pytorch,一個深度學習的框架,當然現在深度學習的框架很多,例如:tensorflow、keras等。但是pytorch是比較容易上手的。官方地址:https://pytorch.org/
- 還有一些包是根據具體的任務來使用的,例如做nlp常需要用到nltk、jieba等包,這種情況我就不細講了。
論文
教材上的東西都比較滯后,學術前沿還是在論文上,機器學習這一塊更新換代的特別快,大家還是得多讀一讀最新的論文,才能了解到最新的算法和模型。
感悟
做機器學習,很多時候就是在調包和調參,雖然我們這樣吐槽,但實際上很多人連調包都不會。使用這些包,需要我們花費大量的時間來閱讀文檔、熟悉API參數,這樣才能寫出比較好的程序。除此以外,我們還需要多閱讀論文,從而進行一點模型上的創新。