轉自:http://blog.csdn.net/zhoudaxia/article/details/8801769
按照這個路線圖來學習即可。
1、M. Tim Jones的三篇文章:
用Hadoop進行分布式數據處理第1部分(入門):http://www.ibm.com/developerworks/cn/linux/l-hadoop-1/index.html
用Hadoop進行分布式數據處理第2部分(進階):http://www.ibm.com/developerworks/cn/linux/l-hadoop-2/index.html
用Hadoop進行分布式數據處理第3部分(應用程序開發):http://www.ibm.com/developerworks/cn/linux/l-hadoop-3/index.html
2、“銀河里的星星”的博客,其中的Google論文系列(就包括開創性論文“MapReduce:簡化大集群上的數據處理”)、搜索與分布式方面的介紹
[google論文三]MapReduce簡化大集群上的數據處理:http://duanple.blog.163.com/blog/static/709717672010923203501/
詞頻統計的Map/Reduce程序可以從這里找到:http://blog.csdn.net/shijinupc/article/details/7522446
Google論文系列:http://duanple.blog.163.com/blog/#m=0&t=3&c=google
按照Hadoop各組件來串聯:http://duanple.blog.163.com/blog/static/7097176720119791920962/
3、IBM developerWorks上的其他Hadoop文章,在dw上用Hadoop關鍵字進行搜索,可以找到大量Hadoop的文章
下面一些需要看:
Hadoop Distributed File System簡介:http://www.ibm.com/developerworks/cn/web/wa-introhdfs/index.html
使用Apache Pig處理數據:http://www.ibm.com/developerworks/cn/bigdata/basic.html
4、《開源軟件架構》中的介紹
(卷1第8章)HDFS--Hadoop分布式文件系統:http://www.ituring.com.cn/article/4299
英文原文:http://www.aosabook.org/en/index.html (其中的卷1第8章)
5、阿里集團數據平台的官方博客,包含大量Hadoop研究和應用經驗
http://www.alidata.org/archives
6、百度搜索研發部的官方博客,主要包含分布式系統(Hadoop)、搜索技術、數據挖掘、大型網站架構等方面的經驗
7、董的博客,關於Hadoop、分布式系統的研究
http://dongxicheng.org/recommend/
8、官方文檔當然更不能少了,主要包括Hadoop集群的搭建,MapReduce的使用,HDFS架構方面的介紹
優先看穩定版:http://hadoop.apache.org/docs/stable/
最新版(包括下一代MapReduce即YARN的介紹):http://hadoop.apache.org/docs/current/
9、caibinbupt的博客,Hadoop源代碼分析系列
http://caibinbupt.iteye.com/?page=6
千與的專欄,Hadoop-0.20.0源碼分析
http://blog.csdn.net/shirdrn/article/category/595039/3
10、spork的博客,其中關於Hadoop的系列
http://www.cnblogs.com/spork/category/226077.html
11、chinacloud的博客,其中的Hadoop架構、分布式系統設計方面的一些經驗
http://www.cnblogs.com/chinacloud/archive/2010/12/03/1895369.html
12、beanmoon的博客,其中的Hadoop系列
http://www.cnblogs.com/beanmoon/