hadoop 常用端口及模塊介紹

本文轉載自查看原文 2018-01-23 13:51 1135 hadoop

50070 namenode http port
50075 datanode http port
50090 2namenode http port
8020 namenode rpc port
50010 datanode rpc port　　
j進程　　
- DataNode
- ResourceManager
- NameNode
- SecondaryNameNode
- NodeManager
四大模塊
- common
- hdfs
  - namenode
  - datanode
  - 2namenode
- mapred
- yarn　　
  - resourceManager nodemanger

轉自：https://www.cnblogs.com/tnsay/p/5753838.html

組件	節點	默認端口	配置	用途說明
HDFS	DataNode	50010	dfs.datanode.address	datanode服務端口，用於數據傳輸
HDFS	DataNode	50075	dfs.datanode.http.address	http服務的端口
HDFS	DataNode	50475	dfs.datanode.https.address	https服務的端口
HDFS	DataNode	50020	dfs.datanode.ipc.address	ipc服務的端口
HDFS	NameNode	50070	dfs.namenode.http-address	http服務的端口
HDFS	NameNode	50470	dfs.namenode.https-address	https服務的端口
HDFS	NameNode	8020	fs.defaultFS	接收Client連接的RPC端口，用於獲取文件系統metadata信息。
HDFS	journalnode	8485	dfs.journalnode.rpc-address	RPC服務
HDFS	journalnode	8480	dfs.journalnode.http-address	HTTP服務
HDFS	ZKFC	8019	dfs.ha.zkfc.port	ZooKeeper FailoverController，用於NN HA
YARN	ResourceManager	8032	yarn.resourcemanager.address	RM的applications manager(ASM)端口
YARN	ResourceManager	8030	yarn.resourcemanager.scheduler.address	scheduler組件的IPC端口
YARN	ResourceManager	8031	yarn.resourcemanager.resource-tracker.address	IPC
YARN	ResourceManager	8033	yarn.resourcemanager.admin.address	IPC
YARN	ResourceManager	8088	yarn.resourcemanager.webapp.address	http服務端口
YARN	NodeManager	8040	yarn.nodemanager.localizer.address	localizer IPC
YARN	NodeManager	8042	yarn.nodemanager.webapp.address	http服務端口
YARN	NodeManager	8041	yarn.nodemanager.address	NM中container manager的端口
YARN	JobHistory Server	10020	mapreduce.jobhistory.address	IPC
YARN	JobHistory Server	19888	mapreduce.jobhistory.webapp.address	http服務端口
HBase	Master	60000	hbase.master.port	IPC
HBase	Master	60010	hbase.master.info.port	http服務端口
HBase	RegionServer	60020	hbase.regionserver.port	IPC
HBase	RegionServer	60030	hbase.regionserver.info.port	http服務端口
HBase	HQuorumPeer	2181	hbase.zookeeper.property.clientPort	HBase-managed ZK mode，使用獨立的ZooKeeper集群則不會啟用該端口。
HBase	HQuorumPeer	2888	hbase.zookeeper.peerport	HBase-managed ZK mode，使用獨立的ZooKeeper集群則不會啟用該端口。
HBase	HQuorumPeer	3888	hbase.zookeeper.leaderport	HBase-managed ZK mode，使用獨立的ZooKeeper集群則不會啟用該端口。
Hive	Metastore	9083	/etc/default/hive-metastore中export PORT=<port>來更新默認端口
Hive	HiveServer	10000	/etc/hive/conf/hive-env.sh中export HIVE_SERVER2_THRIFT_PORT=<port>來更新默認端口
ZooKeeper	Server	2181	/etc/zookeeper/conf/zoo.cfg中clientPort=<port>	對客戶端提供服務的端口
ZooKeeper	Server	2888	/etc/zookeeper/conf/zoo.cfg中server.x=[hostname]:nnnnn[:nnnnn]，標藍部分	follower用來連接到leader，只在leader上監聽該端口。
ZooKeeper	Server	3888	/etc/zookeeper/conf/zoo.cfg中server.x=[hostname]:nnnnn[:nnnnn]，標藍部分	用於leader選舉的。只在electionAlg是1,2或3(默認)時需要。

所有端口協議均基於TCP。

對於存在Web UI（HTTP服務）的所有hadoop daemon，有如下url：

/logs
日志文件列表，用於下載和查看

/logLevel
允許你設定log4j的日志記錄級別，類似於hadoop daemonlog

/stacks
所有線程的stack trace，對於debug很有幫助

/jmx
服務端的Metrics，以JSON格式輸出。

/jmx?qry=Hadoop:*會返回所有hadoop相關指標。
/jmx?get=MXBeanName::AttributeName 查詢指定bean指定屬性的值，例如/jmx?get=Hadoop:service=NameNode,name=NameNodeInfo::ClusterId會返回ClusterId。
這個請求的處理類：org.apache.hadoop.jmx.JMXJsonServlet

而特定的Daemon又有特定的URL路徑特定相應信息。

NameNode:http://:50070/

/dfshealth.jsp
HDFS信息頁面，其中有鏈接可以查看文件系統

/dfsnodelist.jsp?whatNodes=(DEAD|LIVE)
顯示DEAD或LIVE狀態的datanode

/fsck
運行fsck命令，不推薦在集群繁忙時使用！

DataNode:http://:50075/

/blockScannerReport
每個datanode都會指定間隔驗證塊信息

轉自：http://www.myexception.cn/cloud/1716284.html

先從概念層次介紹下Hadoop的各個組件，下一部分會深入Hadoop的每個組件，並從實戰層次講解。

一、Hadoop構造模塊

運行Hadoop的意思其實就是運行一組守護進程（daemons），每個進程都有各自的角色，有的僅運行在單個服務器上，有的則運行在集群多個服務器上，它們包括：

NameNode
Secondary NameNode
DataNode
JobTracker
TaskTracker

Hadoop是一個分布式存儲與計算系統，分布式存儲部分是HDFS，分布式計算部分是MapReduce，它們都是遵循主/從（Master/Slave)結構，上面前3個組件屬於分布式存儲部分，后面2個組件屬於分布式計算部分，下面詳細介紹一下它們。

二、NameNode

前面說了，NameNode屬於HDFS,它位於HDSF的主端，由它來指導DataNode執行底層I/O任務。NameNode相當於HDFS的書記員，它會跟蹤文件如何被分割成文件塊，而這些塊又是被哪些節點存儲，以及分布式文件系統整體運行狀態是否正常等。

運行NameNode會消耗大量內存和IO資源，因此為減輕機器負載，駐留NameNode的服務器通常不會存儲用戶數據或者進行MapReduce計算任務，這也就意味着一台NameNode服務器不會同時是DataNode或者TaskTracker服務器。

不過NameNode的重要性也帶來了一個負面影響---單點故障。對於其他任何守護進程，其駐留節點發生軟件或硬件故障，Hadoop集群還可平穩運行，但是對於NameNode來說，則不可以。不過后面版本（2.0以后的版本）已經解決此問題。

三、DataNode

集群中每一個從節點都會駐留一個DataNode的守護進程，用來將HDFS數據庫寫入或讀取到本地文件系統中。當對HDFS文件進行讀寫時，文件會被分割成多個塊，有NameNode告知客戶端每個數據駐留在哪個DataNode，客戶端直接與DataNode進行通信，DataNode還會與其它DataNode通信，復制這些塊以實現冗余。

NameNode跟蹤源數據，DataNode提供數據塊的備份存儲並持續不斷地向NameNode報告，以保持元數據最新狀態。

四、 Secondary NameNode

SNN是一個監測HDFS的輔助進程，它只與NameNode進程通信，根據集群配置時間間隔獲取HDFS元數據快照，我們知道HDFS有單點故障，SNN快照有助於減少宕機而導致的數據丟失風險，其一般也單獨占一台服務器。

五、 JobTracker

它是應用程序和Hadoop之間的紐帶，監控MapReduce作業執行過程，一旦提交代碼到集群，JobTracker就會確定執行計划，包括決定處理哪些文件、為不同的任務分配節點以及監控所有任務運行。每個集群只有一個JobTracker進程，一般運行在主節點。

六、 TaskTracker

TaskTracker管理各個任務在從節點上的執行情況。它負責執行有JobTracker分配的單項任務，雖然每個從節點只有一個TaskTracker運行，但每個TaskTracker可以生產多個JVM來並行地處理多Map或Reduce任務。TaskTracker的一個職責是不斷的與JobTracker通信，即“心跳”。

下面再來整體看一下整個Hadoop拓撲結構

下面就是一個典型的Hadoop拓撲圖，主動結構，NameNode和JobTracker位於主端，DataNode和TaskTracker位於從端。

客戶端向JobTracker發送Job任務，JobTracker會把Job切分，並分配不同的Map和Reduce任務到每一台機器。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 hadoop常用的端口配置 Hadoop常用端口記錄 Hadoop常用端口和定義方法 hadoop常用端口號 hadoop常用端口號 hadoop常用端口號 hadoop常用端口及定義方法 Hadoop集群參數和常用端口常用的hadoop和yarn的端口總結 hadoop常用端口及定義方法

hadoop 常用端口 及模塊介紹

免責聲明！

hadoop 常用端口及模塊介紹