作業調度系統PBS(Torque)的設置


1、修改/var/spool/torque/server_priv/目錄下的nodes文件##

Node1 np=16 gpus=4
Node2 np=16 gpus=4
...

其中Node1為計算節點名字,np為邏輯核數,gpus為顯卡數
該文件給出了計算集群的最大可用資源

2、 重新啟動pbs##

\#service pbs_mon restart
\#service pbs_server restart
\#service pbs_sched restart

注意要按照順序重啟服務

3、 qmgr 是Torque用戶對隊列進行管理的交互界面##

在root賬戶下進入qmgr

\#qmgr
Qmgr:list queue QueueName  //查看隊列屬性

Queue QueueName
queue_type = Execution
max_user_queuable = 100
total_jobs = 0
state_count = Transit:0 Queued:4 Held:0 Waiting:0 Running:1 Exiting:0 Complete:0
resources_max.ncpus = 12
resources_default.ncpus = 12
resources_default.nodes = 1
resources_default.walltime = 01:00:00
mtime = Tue Jan 30 16:14:38 2018
resources_assigned.ncpus = 4
resources_assigned.nodect = 1
max_user_run = 1
enabled = True
started = True

如要啟用隊列Qmgr:set queue QueueName enabled=True

相應的設置項在PBS命令相關中給出

max_user_queuable : 隊列中一個用戶能提交的最大作業數
max_user_run : 隊列中一個用戶同時運行的作業數
resources_max.ncpus :最大可用邏輯核數
total_jobs : 當前提交的作業數

如果要求一次執行一個任務,該任務占用12個核,其余任務需要排隊,則設置max_user_run=1.然后在作業提交腳本.pbs中 -np 12

qmgr不需要重新啟動pbs服務

4、如何將pbs_mom, pbs_server 和 pbs_sched ,並添加為系統服務,設置為開機啟動##

cd /usr/local/src/torque-2.5.12/contrib/init.d/
cp pbs_mom pbs_server pbs_sched /etc/init.d/
chkconfig --add pbs_mom
chkconfig --add pbs_server
chkconfig --add pbs_sched


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM