淘寶Hadoop集群的概況(轉)

本文轉載自查看原文 2012-10-09 21:41 5415 hadoop

國內外使用Hadoop的公司比較多，全球最大的Hadoop集群在雅虎，有大約25，000個節點，主要用於支持廣告系統與網頁搜索。國內用Hadoop的主要有百度、淘寶、網易、華為、中國移動等，其中淘寶的Hadoop集群屬於較大的（如果不是最大）。

淘寶Hadoop集群現在超過1700個節點，服務於用於整個阿里巴巴集團各部門，數據來源於各部門產品的線上數據庫（Oracle, MySQL）備份，系統日志以及爬蟲數據，截止2011年9月，數量總量已經超過17個PB，每天凈增長20T左右。每天在Hadoop集群運行的MapReduce任務有超過4萬（有時會超過6萬），其中大部分任務是每天定期執行的統計任務，例如數據魔方、量子統計、推薦系統、排行榜等等。這些任務一般在凌晨1點左右開始執行，3-4個小時內全部完成。每天讀數據在2PB左右，寫數據在1PB左右。

Hadoop包括兩類節點Master和Slave節點，

Master節點包括Jobtracker，Namenode, SecondName, Standby，
- 硬件配置：16CPU*4核，96G內存。
Slave節點主要是TaskTracker和DataNode，
- 硬件配置存在一定的差別：8CPU*4核-16CPU*4核，16G-24G內存
- （注：通常是一個slave節點同時是TaskTracker和DataNode，目的是提高數據本地性data locality）。
- 每個slave節點會划分成12~24個slots。整個集群約34,916個slots，其中Map slots是19,643個，Reduce slots是15，273個

所有作業會進行分成多個Group，按照部門或小組划分，總共有38個Group。整個集群的資源也是按各個Group進行划分，定義每個Group的最大並發任務數，Map slots與Reduce slots的使用上限。每個作業只能使用自己組的slots資源。

轉自 http://cloud.hdu.edu.cn/wiki/index.php/%E7%AC%AC%E4%B8%80%E6%9C%9F%EF%BC%9A%E6%B7%98%E5%AE%9DHadoop%E9%9B%86%E7%BE%A4%E7%9A%84%E6%A6%82%E5%86%B5

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 hadoop（二）hadoop集群的搭建 Hadoop:搭建hadoop集群 Hadoop系列之（二）：Hadoop集群部署 hadoop集群篇--從0到1搭建hadoop集群 Hadoop（四）HDFS集群詳解 Hadoop集群搭建 Hadoop集群啟動 Hadoop（四）HDFS集群詳解 Hadoop高可用集群 prometheus監控hadoop集群