ParaCloud超算平台使用命令及常见问题汇总


超算平台使用命令及常见问题汇总

命令 功能 示例
module avail 查看可用的软件列表
module load [modulesfile] 加载需要使用的软件 module load cuda/10.0
module show [modulesfile] 查看对应软件的环境(安装路径、库路径等) module show cuda/10.0
module list 查看当前已加载的所有软件
module unload [modulesfile] 移除使用 module 加载的软件 module unload cuda/10.0

module 其它用法,可使用 module --help 中查询。module 加载的软件环境只在当前登陆窗口有效,退出登陆后软件环境就会失效。用户如果需要经常使用一个软件,可以把 load 命令放在~/.bashrc 或者提交脚本里面。

.bashrc

打开.bashrc

$ vim ~/.bashrc

使用.bashrc

先按Esc,然后输入

:wq   保存后退出vim

:wq!  为强制储存后退出

:w    保存但不退出(常用)

:w!   若文件属性为『只读』时,强制写入该档案

:q    离开 vim (常用)

:q!   若曾修改过档案,又不想储存,使用 ! 为强制离开不储存档案。

:e!   将档案还原到最原始的状态!

建议在文件最后追加写入.bashrc

torch报错

Linux下激活虚拟环境

$ source activate env

linux上安装完torch后仍报错:

Traceback (most recent call last):
  File "cifar10_tutorial.py", line 58, in <module>
    import torch
ImportError: No module named torch 

是因为还要进行环境配置:

首先进入:

$ vim ~/.bashrc

添加下面的语句

. /home/yourdirectory/torch/install/bin/torch-activate
# added by Anaconda3 installer
export PATH="/home/yourdirectory/anaconda3/bin:$PATH"

然后更新一下环境变量就可以了

$ source ~/.bashrc

sh文件

运行脚本:

$ sbatch --gpus=1 ./run.sh

.sh文件是在windows系统编辑的情况下,Linux系统不识别这个文件,执行“dos2unix 文件名字” 转换下文件格式,之后再提交

脚本 run.sh 示例 1,python 程序运行脚本示例:

\#!/bin/bash

\#加载环境,此处加载 anaconda 环境以及通过 anaconda 创建的名为 pytorch 的环

境

module load anaconda/2020.11 

source activate pytorch

\#python 程序运行,需在.py 文件指定调用 GPU,并设置合适的线程数,batch_size

大小等

python train.py

查看显存状态

$ parajobs
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
9987110 gpu .jobscri paraai_t R 1:52 1 g0028
 9987110 作业 GPU 利用率为:
g0028: pci.bus_id, utilization.gpu [%], utilization.memory [%], memory.total [MiB], 
memory.free [MiB], memory.used [MiB]
g0028: 00000000:85:00.0, 0 %, 0 %, 16160 MiB, 16160 MiB, 0 MiB

取消作业

执行 scancel 作业 ID 取消作业

$ scancel 2011812

查看输出文件

$ cat slurm-作业号.out

实时查看输出

$ tail -f slurm-作业号.out
如果遇到报错,Ctrl+C退出

有些python程序可能默认没有输出到slurm文件里,可以run.sh 脚本里加上 export PYTHONUNBUFFERED=1 提交试试


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM