0、檢查硬件的超線程
由於模型運行時,每個進程幾乎都會占用100%的CPU計算能力,開啟超線程之后,每個進程最多使用每個核心50%的計算能力,導致程序運行變慢。
1,物理CPU個數:
cat /proc/cpuinfo | grep "physical id" | sort | uniq
2,每個物理CPU的邏輯核數:
cat /proc/cpuinfo | grep "cores" | uniq
3,系統整個cpu線程數:
cat /proc/cpuinfo | grep "processor" | wc -l
1、查看操作系統版本
cat /etc/redhat-release
2、關閉SELinux
修改/etc/sysconfig/selinux確保SELINUX=disabled,
臨時關閉:setenforce 0
reboot服務器以生效
3、關閉防火牆
查看防火牆狀態:
systemctl status firewalld
臨時關閉防火牆:
systemctl stop firewalld
永久關閉防火牆:
systemctl disable firewalld
4、時間同步
在crontab中添加如下
01 23 * * * "systemctl stop ntpd.service;ntpdate -u time.windows.com;hwclock -w;systemctl start ntpd.service"
同步的時候,要把ntp服務停掉,同步之后再開啟。
手動執行命令
systemctl stop ntpd.service ntpdate -u time.windows.com hwclock -w systemctl start ntpd.service
5、修改節點名稱
hostnamectl set-hostname node5
或者修改/etc/hostname,然后重啟網卡:
systemctl restart network.service
6、配置集群主機列表
修改/etc/hosts,加入ip和主機名
192.168.126.39 manager 192.168.126.40 node1 192.168.126.41 node2 192.168.126.42 node3 192.168.126.43 node4
7、root用戶無密碼訪問
注意點:所有節點的root密碼必須一樣
ssh-keygen -t rsa //.ssh下生成秘鑰id_rsa,id_rsa.pub文件 ssh-copy-id -i /root/.ssh/id_rsa.pub root@node1 //將公鑰拷貝到node1的authorized_keys中,可以實現管理節點登陸到node1
這個過程中要輸入對方機器的密碼
cat authorized_keys // 將公鑰加到authorized_keys文件里, scp -rp .ssh root@node4:/root/ //將管理節點的目錄,拷貝到計算節點
可以等所有計算節點的公鑰都拷貝到管理節點的authorized_keyz中,然后再把管理節點的.ssh目錄拷貝到計算節點下,實現所有集群無密碼訪問。
8、nfs文件共享
NFSv4會有一些不穩定的因素,導致客戶端無法讀寫數據,一定使用v3
下面配置文件代碼可以關閉nfs的v4的版本
[root@omgt1 ~]# vim /etc/sysconfig/nfs # Turn off v4 protocol support RPCNFSDARGS="-N 4"
查看nfs版本,客戶端命令:nfsstat -m
/public from 12.12.12.101:/public Flags: rw,relatime,vers=3,rsize=1048576,wsize=1048576,namlen=255,hard,proto=tcp,timeo=600,retrans=2,sec=sys,mountaddr=12.12.12.101,mountvers=3,mountport=56207,mountproto=udp,local_lock=none,addr=12.12.12.101
服務端:
(1)、服務端安裝
yum install nfs-utils
只安裝 nfs-utils 即可,rpcbind 屬於它的依賴,也會自動安裝上。
(2)、配置共享目錄
編輯/etc/exports文件,添加1行:
/public 192.168.126.* (rw,no_root_squash,no_all_squash,sync)
將管理節點上的/public目錄,共享給192.168.126.*計算節點
權限:
rw
: 權限設置,可讀可寫。sync
: 同步共享目錄。no_root_squash
: 可以使用 root 授權。no_all_squash
: 可以使用普通用戶授權
(3)、服務開機自啟動
systemctl enable rpcbind.service
systemctl enable nfs-server.service
(4)、啟動nfs服務、
systemctl start rpcbind.service
systemctl start nfs-server.service
(5)、檢查本地共享目錄
showmount -e localhost
客戶端:
(1)、安裝服務
yum install nfs-utils
(2)、設置rpcbind的開機自啟動
systemctl enable rpcbind.service
(3)、啟動rpcbind服務
systemctl start rpcbind.service
注意:客戶端不需要啟動nfs服務
(4)、客戶端創建目錄,然后掛載
mkdir /public mount -t nfs 192.168.126.39:/public /public
用df -Th 檢查是否已經掛載成功
(5)自動掛載命令寫到fstab中
編輯/etc/fstab,加上
192.168.126.39:/public /public nfs defaults 0 0
9、普通用戶model的無密碼訪問
依次在管理節點和計算節點上創建用戶model,密碼保持一致
groupadd -g 200 model, useradd -d /public/home/model -u 200 -g 200 model passwd model
這里必須指明同一個組和用戶的uid,否則不同的計算節點可能會創建不同的uid,到時候就會識別成不同的用戶了
檢查方法:cat /etc/passwd,cat /etc/group
id_rsa:私鑰 id_rsa.pub:公鑰
ssh-keygen -t rsa //.ssh下生成秘鑰id_rsa,id_rsa.pub文件 cat .ssh/id_rsa.pub >> .ssh/authorized_keys //將公鑰拷貝到authorized_keys中 chmod 700 .ssh chmod 600 .ssh/authorized_keys chmod 600 .ssh/id_rsa chmod 644 .ssh/id_rsa.pub
因為model賬戶在公共存儲上,各個節點model用戶用的同一個家目錄,不需要同步.ssh 目錄
注意:/public/home/model 用戶目錄權限為 755 或者 700,就是不能是77x
如果配置之后,還是不能無密碼訪問,需要進入/var/log/secure查看日志記錄信息
10、安裝基礎軟件
yum install -y ftp expect nfs-utils xterm gthumb OpenIPMI ipmitool sysstat numactl glibc glibc-static openssl ntpdate ntp dmidecode wget
其他問題處理
1、系統無法訪問域名
進入 /etc/sysconfig/network-scripts/,
修改網卡配置ifcfg-eth0,增加:
DNS1=8.8.8.8
DNS2=114.114.114,
然后重啟網卡:systemctl restart network
2、yum配置
進入yum目錄:/etc/yum.repos.d,
將管理節點2個repo拷貝過去