一、Dashboard(儀表盤,總覽頁面)
【總覽】



【集群操作】


【配置文件下載】


【圖表操作】

【圖表時間配置】

【集群總體監控圖表】



Memory Usage:整個集群的內存使用情況,包括 cached,swapped,used,和shared。
Network usage:整個就群的網絡流量,包括上行和下行;
CPU Usage:集群的CPU使用情況;
Cluster Load:集群整體加載信息,包括節點數目,總CPU個數,正在運行的進程
【HDFS層面】
【HDFS Disk Usage】




左圖:整個集群的磁盤使用情況。
右圖:DFS的使用情況;non DFS的使用情況;磁盤實際剩余空間。
總共:100G空間。
如果配置了dfs.datanode.du.reserved = 30G。
那么,HDFS可以理所應當的占據70GB的空間。
這個時候,如果系統文件或者其他文件已經使用了40GB。
那么就意味着,最多給HDFS的空間只剩下60GB了!!
本來講道理,HDFS有70GB的空間可以揮霍,但是現在空間只有60GB。
是不是說,有10GB應當給HDFS用的空間,卻被其他東西使用了?
這個10GB的空間,就是Non - DFS!
如果dfs.datanode.du.reserved配置了0GB。
那么就意味着,只要不是HDFS使用的空間,都是NonDFS!!
【NameNode Heap】




NameNode的JVM堆使用情況。
【NameNode CPU WIO】




NameNode節點的CPU WIO。表示CPU空閑等待IO的情況,參數越高,說明CPU在長時間等待磁盤、網絡等IO的操作而空閑。IO瓶頸較大。
【NameNode RPC】


RPC請求在隊列中的平均滯留時間。
【NameNode Uptime】




NameNode累計上線時間,以及上線時間點。
【DataNodes Live】




DataNode的狀態。
【HDFS Links】


HDFS相關頁面的快速鏈接。
【Yarn 層面】




YARN Memory:Yarn集群的內存使用率。
【ResourceManager Heap】




RM的JVM堆使用情況。
【ResourceManager Uptime】




RM累計上線時間,以及上線時間點。
【NodeManagers Live】


NM的節點狀態監控。


【節點熱力圖】


【服務參數版本管理】


【查看操作】


【查看告警】


二、服務面板
下面是HDFS的主面板,其他的類似。


三、參數配置、組、版本


【服務配置版本與組的時間上關系】





可以把Default理解為主版本(master版本),默認所有的節點配置都是按照這個來。
可以對這個主版本創建一個分支,也就是創建一個group。group中存儲額外override覆蓋的參數。
group中的參數會在哪個節點中生效取決於該group中配置了哪些host。
在默認的Default組的config面板中,參數都可以直接修改,這里改的是master主版本的配置。


核心參數不允許Override。


也可以Override這個參數,一旦點擊,就會提示說在哪個group中改這個參數。


在分支組中的配置面板如下:



四、Host主機管理
主機列表視圖:


主機視圖:


五、告警管理
告警列表視圖:


告警詳情:


六、Ambari管理


總體界面:


【自定義頁面管理】

【用戶和用戶組角色分配】

【角色權限列表】
七、擴展頁面
【Yarn隊列管理】

【HDFS】文件管理
七、AMS(Ambari Metrics System)
AMS包括4個部分:
Metrics Monitors:在各個節點中收集系統級別的度量參數,然后推送給Metrics Collector。
Hadoop Sinks:內嵌在Hadoop的各個組件中,將Hadoop的度量參數推送給Metrics Collector。
Metrics Collector:一個守護進程,運行在特定的節點中,用來接收已經注冊的“Publisher”的數據。
Grafana:開源的度量分析和可視化套件。數據源為Collector。
【AMS架構圖】
【訪問Grafana界面】
默認端口號是3000。
【Grafana簡單操作】