數據挖掘(Data Mining)作為一個領域,比機器學習要大,偏應用。互聯網公司也大量使用數據挖掘技術,作為即將畢業進入互聯網公司從事機器學習算法開發的我,最近計划系統了解一下這方面的理論和技術。作為一個習慣,學習一個東西之前總要上網找找學習資源(網站,書籍,學術期刊會議),以保證學到的是最前沿最系統的知識,並以最高效率學習。
希望這些資源能夠最終幫助自己了解這些酷炫的問題:搜索引擎是怎樣工作的(為什么谷歌搜索的結果總是比百度好)?數據挖掘/機器學習在互聯網公司的典型應用(例如社交網絡上的大量信息騰訊和Facebook是怎么使用的以產生商業價值)?各種問答機器人的原理(如小度機器人/度秘,京東智能機器人)?
另外請見我前一篇博客里列的機器學習計算機視覺的學習資源。
wikipedia.org,歷史,領域概述,資源鏈接:
Data mining:介紹了數據挖掘的概念、過程、學術會議、軟件等,右側有細分條目;
Category:Data mining:更多和數據挖掘有關的條目;
DMOZ關於DM:資源鏈接;
谷歌上不了推薦鏡像站,搜索和下載電子書籍推薦Library Genesis(更多在線圖書館)。
大學課程、在線教程:
Stanford課程:CS246 Mining Massive Data Sets,CS246H Mining Massive Data Sets: Hadoop Labs,CS341 Project in Mining Massive Data Sets,配套書籍 Mining of Massive Datasets,DataMiningTalk;
CMU課程:Data Mining: Spring 2013,Statistics 36-350: Data Mining (fall 2009);
南京大學課程:Introduction to Data Mining;
Coursera:Data Mining Specialization。
專著、書籍:
Mining of Massive Datasets, Jure Leskovec, Anand Rajaraman, Jeff Ullman, 2015; PPT;中文譯本:大數據-互聯網大規模數據挖掘與分布式處理;
Data Mining: The Textbook, Charu C. Aggarwal, 2015; 資源鏈接;
Data Mining: Concepts and Techniques (3rd ed.), Jiawei Han, Micheline Kamber, Jian Pei, 2011; PPT;中文譯本:數據挖掘:概念與技術;
Data Mining and Analysis: Fundamental Concepts and Algorithms, Mohammed J. Zaki, Wagner Meira Jr, 2014; 作者網站;
Introduction to Data Mining, Pang-Ning Tan, Michael Steinbach, Vipin Kumar, 2006; PPT;中文譯本:數據挖掘導論;
A Practical Guide to Data Mining for Business and Industry, Andrea Ahlemeyer-Stubbe, Shirley Coleman, 2014; PPT;
Data Mining: Practical Machine Learning Tools and Techniques (3rd ed.), Ian H. Witten, Eibe Frank, Mark A. Hall, 2011; PPT;中文譯本:數據挖掘:實用機器學習工具與技術;
Programming Collective Intelligence: Building Smart Web 2.0 Applications, Toby Segaran, 2007; 中文譯本:集體智慧編程;
The Elements of Statistical Learning: Data Mining, Inference, and Prediction (2nd ed.), Trevor Hastie, Robert Tibshirani, Jerome Friedman, 2009;
還有我前一篇博客里列的書籍。
學術論文:
更多會議期刊見:Google Scholar DM,Microsoft academic DM,KDnuggets DM Conferences。
學習網站:
KDnuggets:各種資源,博文,課程、軟件、Datasets等鏈接;
Data Sets:UCI Machine Learning Repository,List of Public Data Sources Fit for Machine Learning;
Competitions:Kaggle,DMC,Knowledge Pit,TunedIT,DrivenData;
這里也整理了一些資源,這里整理了數據挖掘博客,這里有術語解釋、挖掘介紹、書推薦等不過有點老。
程序、庫:
Hadoop:Tutorial,Wiki,實現了MapReduce計算模型;
Spark:Tutorial,作為Hadoop的改進或補充近來很火,請看知乎的比較。
