集群管理系統slurm:
1,平行計算機粘合劑,用於執行並行作業
2,它使得並行計算就像pc一樣簡單實用
3,通常用來管理並行程序之間的通信
slurm設計框架:
1,為集群提供簡單的資源管理
2,通過插件完成功能強大的祖業調度器
3,由c語言編寫,對管理員友好
常用的操作組件:
資源管理器:通過使用集群來管理資源
1,節點
1),節點根據ip地址進行節點划分
2),節點之間使用 sockets進行通信,核心是使用超線程
3),節點之間互相關聯,並且共用資源
4),節點具有緩存功能
作業調度器(scheduler):當作業很多,作業調度器管理作業隊列
1),支持復雜的調度算法,對於網絡拓撲結構可以共享調度去調度
2),可以進行資源限制,作業之間可以互相調度
插件(plugins):
1,有的插件支持mysql,postgresql存儲
slurmctld: 中央控制器通常每個集群一個
1, 如果出現故障可以自動備份(可選)
2, 監控資源狀態
3, 分配資源
slurmd: 守護進程,安裝在每一個計算節點之上
1, 啟動和管理任務
2, 需要很少的內存和CPU時間片
3, 支持具有可配置的分層通信
slurmdbd: 守護進程 一個項目需要一個就可以
1,存儲備份信息
系統命令:
sinfo 查看系統狀態(節點,隊列信息)
squeue 查看作業和作業步驟狀態
scontrol 管理員工具用來更新或者查看 系統,作業或者預留狀態