數據挖掘的學習資源


 

數據挖掘(Data Mining)作為一個領域,比機器學習要大,偏應用。互聯網公司也大量使用數據挖掘技術,作為即將畢業進入互聯網公司從事機器學習算法開發的我,最近計划系統了解一下這方面的理論和技術。作為一個習慣,學習一個東西之前總要上網找找學習資源(網站,書籍,學術期刊會議),以保證學到的是最前沿最系統的知識,並以最高效率學習。

希望這些資源能夠最終幫助自己了解這些酷炫的問題:搜索引擎是怎樣工作的(為什么谷歌搜索的結果總是比百度好)?數據挖掘/機器學習在互聯網公司的典型應用(例如社交網絡上的大量信息騰訊和Facebook是怎么使用的以產生商業價值)?各種問答機器人的原理(如小度機器人/度秘,京東智能機器人)?

另外請見我前一篇博客里列的機器學習計算機視覺的學習資源。

 

wikipedia.org,歷史,領域概述,資源鏈接:

Data mining:介紹了數據挖掘的概念、過程、學術會議、軟件等,右側有細分條目;

Category:Data mining:更多和數據挖掘有關的條目;

DMOZ關於DM:資源鏈接;

谷歌上不了推薦鏡像站,搜索和下載電子書籍推薦Library Genesis更多在線圖書館)。

 

大學課程、在線教程

Stanford課程:CS246 Mining Massive Data SetsCS246H Mining Massive Data Sets: Hadoop LabsCS341 Project in Mining Massive Data Sets,配套書籍 Mining of Massive DatasetsDataMiningTalk

CMU課程:Data Mining: Spring 2013Statistics 36-350: Data Mining (fall 2009)

南京大學課程:Introduction to Data Mining

Coursera:Data Mining Specialization

 

專著、書籍

Mining of Massive Datasets, Jure Leskovec, Anand Rajaraman, Jeff Ullman, 2015; PPT;中文譯本:大數據-互聯網大規模數據挖掘與分布式處理;

Data Mining: The Textbook, Charu C. Aggarwal, 2015; 資源鏈接;

Data Mining: Concepts and Techniques (3rd ed.), Jiawei Han, Micheline Kamber, Jian Pei, 2011; PPT;中文譯本:數據挖掘:概念與技術;

Data Mining and Analysis: Fundamental Concepts and Algorithms, Mohammed J. Zaki, Wagner Meira Jr, 2014; 作者網站;

Introduction to Data Mining, Pang-Ning Tan, Michael Steinbach, Vipin Kumar, 2006; PPT;中文譯本:數據挖掘導論;

A Practical Guide to Data Mining for Business and Industry, Andrea Ahlemeyer-Stubbe, Shirley Coleman, 2014; PPT;

Data Mining: Practical Machine Learning Tools and Techniques (3rd ed.), Ian H. Witten, Eibe Frank, Mark A. Hall, 2011; PPT;中文譯本:數據挖掘:實用機器學習工具與技術;

Programming Collective Intelligence: Building Smart Web 2.0 Applications, Toby Segaran, 2007; 中文譯本:集體智慧編程;

The Elements of Statistical Learning: Data Mining, Inference, and Prediction (2nd ed.), Trevor Hastie, Robert Tibshirani, Jerome Friedman, 2009;

還有我前一篇博客里列的書籍。

 

學術論文

頂級會議:KDDICDE

更多會議期刊見:Google Scholar DMMicrosoft academic DMKDnuggets DM Conferences

 

學習網站

KDnuggets:各種資源,博文,課程、軟件、Datasets等鏈接;

國內的兩個網站:我愛機器學習機器學習日報

Data Sets:UCI Machine Learning RepositoryList of Public Data Sources Fit for Machine Learning

Competitions:KaggleDMCKnowledge PitTunedITDrivenData

這里也整理了一些資源,這里整理了數據挖掘博客這里有術語解釋、挖掘介紹、書推薦等不過有點老

 

程序、庫

R語言RDataMininginside-R

HadoopTutorialWiki,實現了MapReduce計算模型

SparkTutorial,作為Hadoop的改進或補充近來很火,請看知乎的比較

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM