PBS(Protable Batch System)是功能最為齊全,歷史最悠久,支持最廣泛的本地集群調度器之一。 PBS的目前包括openPBS,PBS Pro和Torque三個主要分支。其中OpenPBS是最早的PBS系統,目前已經沒有太多后續開發,PBS pro是PBS的商業版本,功能最為豐富。Torque是Clustering公司接過了OpenPBS,並給與后續支持的一個開源版本。
幾個常用命令:
1.qsub(提交作業)
例:
qsub -l mem=20g,vmem=20g -l nodes=fat03 -l nodes=1:ppn=1 -l walltime=144:00:0 -V -joe -q fat -d /data/nfs/fat/home/ test.sh
也可寫成:(把所有-l的參數可以合並一起,以逗號分隔)
qsub -l mem=20g,vmem=20g,nodes=fat03,nodes=1:ppn=1,walltime=144:00:0 -V -joe -q fat -d /data/nfs/fat/home test.sh
qsub常用參數
-l 指定作業所需要的資源,設定對可消耗資源的限制。如果不設置,則無限制。
-l mem=220g,vmem=220g(根據文件大小、文件處理方式、計算復雜情況自行估計)
mem 任務的所有進程能夠分配到的最大物理內存數;
vmem任務的所有進程能夠使用的最大虛擬內存數;
-l nodes=fat03
指定節點名字
-l nodes=1:ppn=10(有時軟件內部會有設置線程的參數,實際運行時,兩者取最小)
指定使用節點數及線程數
-l walltime=144:00:0
指定運行最長時間,walltime指鍾表時間(作業的實際運行時間=walltime/線程數)
-V -joe -q fat -d
-V 表明qsub命令的所有環境變量都export到此作業
作用: 以腳本文件的形式向批處理服務器提交作業
-joe錯誤日志和運行日志輸出到同一個文件下
-q指定作業的目的地(結點池),此處指定為fat節點
-d 路徑,作業輸出文件產生路徑(每一個作業都會產生一個 文件名.o作業號,該文件出現在-d指定的路徑中)
2.qstat(查看作業狀態,作業結束一段時間后查看不到)
查看作業狀態:R運行、Q排隊、C終止(可能是結束、也可能是出錯中斷)
提交作業會在指定目錄下產生.oXXXX文件(例如test.sh.o106972),文件內包含程序運行的輸出信息,及錯誤信息,可根據文件內容判斷作業是否是正常結束
3.qdel(kill作業)
kill已提交作業
qdel 作業號
qdel 106970
4.tracejob(查看作業情況,作業結束之后仍能查看)
tracejob –n 查找天數 job_id
tracejob –n 10 106972(查找10天內的記錄,尋找106972的作業信息)
tracejob 106972不加時間參數,查找當天作業
在返回結果中會顯示提交任務的設置信息,及程序運行時的內存和時間實際使用信息
5.qnodes(查看節點狀態)
qnodes | less查看節點狀態
根據節點可用情況指定作業提交節點
qnodes | grep job_id
提交作業未指定節點時,可以使用qnodes結合grep job_id方式查看作業分配的節點