超算平台使用命令及常见问题汇总
命令 | 功能 | 示例 |
---|---|---|
module avail | 查看可用的软件列表 | |
module load [modulesfile] | 加载需要使用的软件 | module load cuda/10.0 |
module show [modulesfile] | 查看对应软件的环境(安装路径、库路径等) | module show cuda/10.0 |
module list | 查看当前已加载的所有软件 | |
module unload [modulesfile] | 移除使用 module 加载的软件 | module unload cuda/10.0 |
module 其它用法,可使用 module --help 中查询。module 加载的软件环境只在当前登陆窗口有效,退出登陆后软件环境就会失效。用户如果需要经常使用一个软件,可以把 load 命令放在~/.bashrc 或者提交脚本里面。
.bashrc
打开.bashrc
$ vim ~/.bashrc
使用.bashrc
先按Esc,然后输入
:wq 保存后退出vim
:wq! 为强制储存后退出
:w 保存但不退出(常用)
:w! 若文件属性为『只读』时,强制写入该档案
:q 离开 vim (常用)
:q! 若曾修改过档案,又不想储存,使用 ! 为强制离开不储存档案。
:e! 将档案还原到最原始的状态!
建议在文件最后追加写入.bashrc
torch报错
Linux下激活虚拟环境
$ source activate env
linux上安装完torch后仍报错:
Traceback (most recent call last):
File "cifar10_tutorial.py", line 58, in <module>
import torch
ImportError: No module named torch
是因为还要进行环境配置:
首先进入:
$ vim ~/.bashrc
添加下面的语句:
. /home/yourdirectory/torch/install/bin/torch-activate
# added by Anaconda3 installer
export PATH="/home/yourdirectory/anaconda3/bin:$PATH"
然后更新一下环境变量就可以了
$ source ~/.bashrc
sh文件
运行脚本:
$ sbatch --gpus=1 ./run.sh
.sh文件是在windows系统编辑的情况下,Linux系统不识别这个文件,执行“dos2unix 文件名字” 转换下文件格式,之后再提交
脚本 run.sh 示例 1,python 程序运行脚本示例:
\#!/bin/bash
\#加载环境,此处加载 anaconda 环境以及通过 anaconda 创建的名为 pytorch 的环
境
module load anaconda/2020.11
source activate pytorch
\#python 程序运行,需在.py 文件指定调用 GPU,并设置合适的线程数,batch_size
大小等
python train.py
查看显存状态
$ parajobs
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
9987110 gpu .jobscri paraai_t R 1:52 1 g0028
9987110 作业 GPU 利用率为:
g0028: pci.bus_id, utilization.gpu [%], utilization.memory [%], memory.total [MiB],
memory.free [MiB], memory.used [MiB]
g0028: 00000000:85:00.0, 0 %, 0 %, 16160 MiB, 16160 MiB, 0 MiB
取消作业
执行 scancel 作业 ID 取消作业
$ scancel 2011812
查看输出文件
$ cat slurm-作业号.out
实时查看输出
$ tail -f slurm-作业号.out
如果遇到报错,Ctrl+C退出
有些python程序可能默认没有输出到slurm文件里,可以run.sh 脚本里加上 export PYTHONUNBUFFERED=1 提交试试