1、修改/var/spool/torque/server_priv/目錄下的nodes文件##
Node1 np=16 gpus=4
Node2 np=16 gpus=4
...
其中Node1為計算節點名字,np為邏輯核數,gpus為顯卡數
該文件給出了計算集群的最大可用資源
2、 重新啟動pbs##
\#service pbs_mon restart
\#service pbs_server restart
\#service pbs_sched restart
注意要按照順序重啟服務
3、 qmgr 是Torque用戶對隊列進行管理的交互界面##
在root賬戶下進入qmgr
\#qmgr
Qmgr:list queue QueueName //查看隊列屬性
Queue QueueName
queue_type = Execution
max_user_queuable = 100
total_jobs = 0
state_count = Transit:0 Queued:4 Held:0 Waiting:0 Running:1 Exiting:0 Complete:0
resources_max.ncpus = 12
resources_default.ncpus = 12
resources_default.nodes = 1
resources_default.walltime = 01:00:00
mtime = Tue Jan 30 16:14:38 2018
resources_assigned.ncpus = 4
resources_assigned.nodect = 1
max_user_run = 1
enabled = True
started = True
如要啟用隊列Qmgr:set queue QueueName enabled=True
相應的設置項在PBS命令相關中給出
max_user_queuable : 隊列中一個用戶能提交的最大作業數
max_user_run : 隊列中一個用戶同時運行的作業數
resources_max.ncpus :最大可用邏輯核數
total_jobs : 當前提交的作業數
如果要求一次執行一個任務,該任務占用12個核,其余任務需要排隊,則設置max_user_run=1.然后在作業提交腳本.pbs中 -np 12
qmgr不需要重新啟動pbs服務
4、如何將pbs_mom, pbs_server 和 pbs_sched ,並添加為系統服務,設置為開機啟動##
cd /usr/local/src/torque-2.5.12/contrib/init.d/
cp pbs_mom pbs_server pbs_sched /etc/init.d/
chkconfig --add pbs_mom
chkconfig --add pbs_server
chkconfig --add pbs_sched