1.(Datanode)程序負責HDFS數據存儲。
2.HDFS中的block默認保存(3份)。
3.(TaskTracker)程序通常與NameNode在一個節點啟動。
分析:hadoop集群是基於master/slave模式,namenode和jobtracker屬於master,datanode和tasktracker屬於slave,master只有一個,而slave有多個。。
4.hadoop的作者是(Doug cutting)
5.HDFS默認的block size是64MB.
6.磁盤IO通常是集群最主要的瓶頸。
分析:首先集群的目的是為了節省成本,用廉價的PC機取代小型機和大型機(這兩者的特點:CPU處理能力強,內存夠大),由於大數據面臨海量數據,讀寫數據都要io,然后還有冗余數據,Hadoop一般備份3份數據,所以io就會打折。
7.secondaryNode目的是幫助NameNode合並編輯日志,減少nameNode啟動時間。
8.配置機架感知:如果一個機架出問題,不會影響數據讀寫。寫入數據的時候,會寫到不同機架的dataNode中。mapReduce會根據機架獲取離自己比較近的網絡數據。
9.如果nameNode意外終止,SecondaryNameNode會幫助恢復而不是替代。
10.hadoop是java開發的,rhadoop是r開發的,mapreduce是一個框架,可以理解是一種思想,可以使用其他語言開發。
11.client客戶端上傳文件:
clent向NameNode發起文件寫入的請求,NameNode根據文件大小和文件塊的配置情況,返回給client它所管理的部分dataNode的信息。client將文件划分成多個block,根據dataNode的地址信息,按順序寫入到每一個dataNode塊中。
12.Ganglia不僅可以進行監控,也可以進行告警。
分析:ganglia作為一款Linux環境中的監控軟件,最擅長的是從節點中按照用戶的需求以較低的代價采集數據,但在預警以及發生時間后通知用戶並不擅長。更擅長做預警的是nagios。
通過將兩者結合,吧ganglia采集的數據作為nagios的數據源,然后利用nagios發送預警通知,可以完美的實現一整套監控管理的系統。
13.Cloudera Enterpris在美國加州舉行的Hadoop大會上公開,以若干私有管理/監控/運行工具加強Hadoop的功能。收費采取合約訂購方式,價格隨着使用的集群大小變動。
14.lucene是支持隨機讀寫的,而HDFS只是支持隨機讀,但是HBase可以來補救。HBase提供隨機讀寫,來解決Hadoop不能處理的問題,
15.namenode不需要從磁盤中讀取metadata,所有數據都在內存中,硬盤上只是序列化的結果,只有每次namenode啟動時才會讀取。
