hadoop 常用端口 及模塊介紹


  • 50070                 namenode http port
  • 50075                 datanode   http  port
  • 50090                 2namenode http port
  • 8020                    namenode rpc port
  • 50010                  datanode rpc port  
  • j進程  
    • DataNode
    • ResourceManager
    • NameNode
    • SecondaryNameNode
    • NodeManager
  • 四大模塊
    • common
    • hdfs 
      • namenode
      • datanode
      • 2namenode
    • mapred
    • yarn  
      • resourceManager nodemanger 

       轉自:https://www.cnblogs.com/tnsay/p/5753838.html

 

組件 節點 默認端口 配置 用途說明
HDFS DataNode 50010 dfs.datanode.address datanode服務端口,用於數據傳輸
HDFS DataNode 50075 dfs.datanode.http.address http服務的端口
HDFS DataNode 50475 dfs.datanode.https.address https服務的端口
HDFS DataNode 50020 dfs.datanode.ipc.address ipc服務的端口
HDFS NameNode 50070 dfs.namenode.http-address http服務的端口
HDFS NameNode 50470 dfs.namenode.https-address https服務的端口
HDFS NameNode 8020 fs.defaultFS 接收Client連接的RPC端口,用於獲取文件系統metadata信息。
HDFS journalnode 8485 dfs.journalnode.rpc-address RPC服務
HDFS journalnode 8480 dfs.journalnode.http-address HTTP服務
HDFS ZKFC 8019 dfs.ha.zkfc.port ZooKeeper FailoverController,用於NN HA
YARN ResourceManager 8032 yarn.resourcemanager.address RM的applications manager(ASM)端口
YARN ResourceManager 8030 yarn.resourcemanager.scheduler.address scheduler組件的IPC端口
YARN ResourceManager 8031 yarn.resourcemanager.resource-tracker.address IPC
YARN ResourceManager 8033 yarn.resourcemanager.admin.address IPC
YARN ResourceManager 8088 yarn.resourcemanager.webapp.address http服務端口
YARN NodeManager 8040 yarn.nodemanager.localizer.address localizer IPC
YARN NodeManager 8042 yarn.nodemanager.webapp.address http服務端口
YARN NodeManager 8041 yarn.nodemanager.address NM中container manager的端口
YARN JobHistory Server 10020 mapreduce.jobhistory.address IPC
YARN JobHistory Server 19888 mapreduce.jobhistory.webapp.address http服務端口
HBase Master 60000 hbase.master.port IPC
HBase Master 60010 hbase.master.info.port http服務端口
HBase RegionServer 60020 hbase.regionserver.port IPC
HBase RegionServer 60030 hbase.regionserver.info.port http服務端口
HBase HQuorumPeer 2181 hbase.zookeeper.property.clientPort HBase-managed ZK mode,使用獨立的ZooKeeper集群則不會啟用該端口。
HBase HQuorumPeer 2888 hbase.zookeeper.peerport HBase-managed ZK mode,使用獨立的ZooKeeper集群則不會啟用該端口。
HBase HQuorumPeer 3888 hbase.zookeeper.leaderport HBase-managed ZK mode,使用獨立的ZooKeeper集群則不會啟用該端口。
Hive Metastore 9083 /etc/default/hive-metastore中export PORT=<port>來更新默認端口  
Hive HiveServer 10000 /etc/hive/conf/hive-env.sh中export HIVE_SERVER2_THRIFT_PORT=<port>來更新默認端口  
ZooKeeper Server 2181 /etc/zookeeper/conf/zoo.cfg中clientPort=<port> 對客戶端提供服務的端口
ZooKeeper Server 2888 /etc/zookeeper/conf/zoo.cfg中server.x=[hostname]:nnnnn[:nnnnn],標藍部分 follower用來連接到leader,只在leader上監聽該端口。
ZooKeeper Server 3888 /etc/zookeeper/conf/zoo.cfg中server.x=[hostname]:nnnnn[:nnnnn],標藍部分 用於leader選舉的。只在electionAlg是1,2或3(默認)時需要。

 

所有端口協議均基於TCP。

對於存在Web UI(HTTP服務)的所有hadoop daemon,有如下url:

/logs 
日志文件列表,用於下載和查看

/logLevel 
允許你設定log4j的日志記錄級別,類似於hadoop daemonlog

/stacks 
所有線程的stack trace,對於debug很有幫助

/jmx 
服務端的Metrics,以JSON格式輸出。

/jmx?qry=Hadoop:*會返回所有hadoop相關指標。 
/jmx?get=MXBeanName::AttributeName 查詢指定bean指定屬性的值,例如/jmx?get=Hadoop:service=NameNode,name=NameNodeInfo::ClusterId會返回ClusterId。 
這個請求的處理類:org.apache.hadoop.jmx.JMXJsonServlet

而特定的Daemon又有特定的URL路徑特定相應信息。

NameNode:http://:50070/

/dfshealth.jsp 
HDFS信息頁面,其中有鏈接可以查看文件系統

/dfsnodelist.jsp?whatNodes=(DEAD|LIVE) 
顯示DEAD或LIVE狀態的datanode

/fsck 
運行fsck命令,不推薦在集群繁忙時使用!

DataNode:http://:50075/

/blockScannerReport 
每個datanode都會指定間隔驗證塊信息

 

轉自:http://www.myexception.cn/cloud/1716284.html

先從概念層次介紹下Hadoop的各個組件,下一部分會深入Hadoop的每個組件,並從實戰層次講解。

一、Hadoop構造模塊

     運行Hadoop的意思其實就是運行一組守護進程(daemons),每個進程都有各自的角色,有的僅運行在單個服務器上,有的則運行在集群多個服務器上,它們包括:
  • NameNode
  • Secondary NameNode
  • DataNode
  • JobTracker
  • TaskTracker
     Hadoop是一個分布式存儲與計算系統,分布式存儲部分是HDFS,分布式計算部分是MapReduce,它們都是遵循主/從(Master/Slave)結構,上面前3個組件屬於分布式存儲部分,后面2個組件屬於分布式計算部分,下面詳細介紹一下它們。
 
二、NameNode
 
     前面說了,NameNode屬於HDFS,它位於HDSF的主端,由它來指導DataNode執行底層I/O任務。NameNode相當於HDFS的書記員,它會跟蹤文件如何被分割成文件塊,而這些塊又是被哪些節點存儲,以及分布式文件系統整體運行狀態是否正常等。
     運行NameNode會消耗大量內存和IO資源,因此為減輕機器負載,駐留NameNode的服務器通常不會存儲用戶數據或者進行MapReduce計算任務,這也就意味着一台NameNode服務器不會同時是DataNode或者TaskTracker服務器。
     不過NameNode的重要性也帶來了一個負面影響---單點故障。對於其他任何守護進程,其駐留節點發生軟件或硬件故障,Hadoop集群還可平穩運行,但是對於NameNode來說,則不可以。不過后面版本(2.0以后的版本)已經解決此問題。
 
三、DataNode
 
     集群中每一個從節點都會駐留一個DataNode的守護進程,用來將HDFS數據庫寫入或讀取到本地文件系統中。當對HDFS文件進行讀寫時,文件會被分割成多個塊,有NameNode告知客戶端每個數據駐留在哪個DataNode,客戶端直接與DataNode進行通信,DataNode還會與其它DataNode通信,復制這些塊以實現冗余。
     
NameNode跟蹤源數據,DataNode提供數據塊的備份存儲並持續不斷地向NameNode報告,以保持元數據最新狀態。
 
四、 Secondary NameNode
     SNN是一個監測HDFS的輔助進程,它只與NameNode進程通信,根據集群配置時間間隔獲取HDFS元數據快照,我們知道HDFS有單點故障,SNN快照有助於減少宕機而導致的數據丟失風險,其一般也單獨占一台服務器。
五、 JobTracker
     它是應用程序和Hadoop之間的紐帶,監控MapReduce作業執行過程,一旦提交代碼到集群,JobTracker就會確定執行計划,包括決定處理哪些文件、為不同的任務分配節點以及監控所有任務運行。每個集群只有一個JobTracker進程,一般運行在主節點。
六、 TaskTracker
     TaskTracker管理各個任務在從節點上的執行情況。它負責執行有JobTracker分配的單項任務,雖然每個從節點只有一個TaskTracker運行,但每個TaskTracker可以生產多個JVM來並行地處理多Map或Reduce任務。TaskTracker的一個職責是不斷的與JobTracker通信,即“心跳”。
 
下面再來整體看一下整個Hadoop拓撲結構
 
下面就是一個典型的Hadoop拓撲圖,主動結構,NameNode和JobTracker位於主端,DataNode和TaskTracker位於從端。
 
客戶端向JobTracker發送Job任務,JobTracker會把Job切分,並分配不同的Map和Reduce任務到每一台機器。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM