torque提交作業


  PBS(Protable Batch System)是功能最為齊全,歷史最悠久,支持最廣泛的本地集群調度器之一。 PBS的目前包括openPBS,PBS Pro和Torque三個主要分支。其中OpenPBS是最早的PBS系統,目前已經沒有太多后續開發,PBS pro是PBS的商業版本,功能最為豐富。Torque是Clustering公司接過了OpenPBS,並給與后續支持的一個開源版本。

幾個常用命令:

  1.qsub(提交作業)

  例:

  qsub -l mem=20g,vmem=20g -l nodes=fat03 -l nodes=1:ppn=1 -l walltime=144:00:0 -V -joe -q fat -d /data/nfs/fat/home/ test.sh

  也可寫成:(把所有-l的參數可以合並一起,以逗號分隔)

  qsub -l mem=20g,vmem=20g,nodes=fat03,nodes=1:ppn=1,walltime=144:00:0 -V -joe -q fat -d /data/nfs/fat/home test.sh

  

  qsub常用參數

  -l 指定作業所需要的資源,設定對可消耗資源的限制。如果不設置,則無限制。

  -l mem=220g,vmem=220g(根據文件大小、文件處理方式、計算復雜情況自行估計)

  mem 任務的所有進程能夠分配到的最大物理內存數;

  vmem任務的所有進程能夠使用的最大虛擬內存數;

  -l nodes=fat03

  指定節點名字

  -l nodes=1:ppn=10(有時軟件內部會有設置線程的參數,實際運行時,兩者取最小)

  指定使用節點數及線程數

  -l walltime=144:00:0

  指定運行最長時間,walltime指鍾表時間(作業的實際運行時間=walltime/線程數)

  -V -joe -q fat -d

  -V 表明qsub命令的所有環境變量都export到此作業

  作用: 以腳本文件的形式向批處理服務器提交作業

  -joe錯誤日志和運行日志輸出到同一個文件下

  -q指定作業的目的地(結點池),此處指定為fat節點

  -d 路徑,作業輸出文件產生路徑(每一個作業都會產生一個 文件名.o作業號,該文件出現在-d指定的路徑中)

  2.qstat(查看作業狀態,作業結束一段時間后查看不到)

  查看作業狀態:R運行、Q排隊、C終止(可能是結束、也可能是出錯中斷)

  提交作業會在指定目錄下產生.oXXXX文件(例如test.sh.o106972),文件內包含程序運行的輸出信息,及錯誤信息,可根據文件內容判斷作業是否是正常結束

  

  3.qdel(kill作業)

  kill已提交作業

  qdel 作業號

  qdel 106970

  4.tracejob(查看作業情況,作業結束之后仍能查看)

  tracejob –n 查找天數 job_id

  tracejob –n 10 106972(查找10天內的記錄,尋找106972的作業信息)

  tracejob 106972不加時間參數,查找當天作業

  在返回結果中會顯示提交任務的設置信息,及程序運行時的內存和時間實際使用信息

  

  5.qnodes(查看節點狀態)

  qnodes | less查看節點狀態

  根據節點可用情況指定作業提交節點

  

  qnodes | grep job_id

  提交作業未指定節點時,可以使用qnodes結合grep job_id方式查看作業分配的節點

  

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM