1.操作系統選擇
Hadoop產品是由Java語言開發的,所以推薦的是Linux操作系統,理由很簡單開源免費,推薦的操作系統CentOS。
- CentOS是一個基於Red Hat 企業級 Linux 提供的可自由使用的源代碼企業級的 Linux 發行版本。
- CentOS兩年發行一次新版本,每個版本都會獲得7年的支持(通過安全更新方式),大概6個月更新一次小版本,以便支持新的硬件。
- CentOS獨有的yum命令支持在線升級,可以即時更新系統,完全免費。
2.Hadoop版本
不收費的Hadoop版本主要有國外的四個,分別是Apache基金會hadoop、Cloudera版本(CDH)、Hortonworks版本(HDP)、MapR版本。對於國內而言,絕大多數選擇CDH版本。
- Apache社區版本:最原始的版本,所有發行版均基於這個版本進行改進
- Cloudera版本:Cloudera’s Distribution Including Apache Hadoop,簡稱CDH
- Hortonworks版本:Hortonworks Data Platform,簡稱“HDP”
- MapReduce版本
(1)Hortonworks
主打產品是Hortonworks Data Platform (HDP),也同樣是100%開源的產品,HDP除了常見的項目外還包含了Ambari,一款開源的安裝和管理系統。HCatalog,一個元數據管理系統。

(2)Cloudera
最成型的發行版本,擁有最多的部署案例。提供強大的部署、管理和監控工具。Cloudera開發並貢獻了可實時處理大數據的Impala項目。

(3)MapR
為了獲取更好的性能和易用性而支持本地Unix文件系統而不是HDFS(使用非開源的組件),可以使用本地Unix命令來代替Hadoop命令。MapR還憑借諸如快照、鏡像或有狀態的故障恢復之類的高可用性特性來與其他競爭者相區別。

3.選擇決定
當我們決定是否采用某個軟件用於開源環境時,通常需要考慮以下幾個因素:
(1)是否為開源軟件,即是否免費。
(2)是否有穩定版,這個一般軟件官方網站會給出說明。
(3)是否經實踐驗證,這個可通過檢查是否有一些大點的公司已經在生產環境中使用知道。
(4)是否有強大的社區支持,當出現一個問題時,能夠通過社區、論壇等網絡資源快速獲取解決方法。
考慮到大數據平台高效的部署和安裝,中心化的配置管理,使用過程中的穩定性、兼容性、擴展性,以及未來較為簡單、高效的運維,遇到問題低廉的解決成本。建議使用第三方發行版本,其中在第三發發行版中,國內應用較多的是Cloudera的CDH。
參考文檔:
