centos7 hpc高性能計算集群配置(無密碼訪問、nfs文件共享)


0、檢查硬件的超線程

由於模型運行時,每個進程幾乎都會占用100%的CPU計算能力,開啟超線程之后,每個進程最多使用每個核心50%的計算能力,導致程序運行變慢。

1,物理CPU個數:
cat /proc/cpuinfo | grep "physical id" | sort | uniq
2,每個物理CPU的邏輯核數:
cat /proc/cpuinfo | grep "cores" | uniq
3,系統整個cpu線程數:
cat /proc/cpuinfo | grep "processor" | wc -l

 

 

1、查看操作系統版本

cat /etc/redhat-release

2、關閉SELinux

修改/etc/sysconfig/selinux確保SELINUX=disabled,

臨時關閉:setenforce 0

reboot服務器以生效

3、關閉防火牆

查看防火牆狀態:

systemctl status firewalld

臨時關閉防火牆:

systemctl stop firewalld

永久關閉防火牆:

systemctl disable firewalld

4、時間同步

 在crontab中添加如下

01 23 * * * "systemctl stop ntpd.service;ntpdate -u time.windows.com;hwclock -w;systemctl start ntpd.service" 

同步的時候,要把ntp服務停掉,同步之后再開啟。

手動執行命令

systemctl stop ntpd.service
ntpdate -u time.windows.com
hwclock -w
systemctl start ntpd.service

 

5、修改節點名稱

hostnamectl set-hostname node5

或者修改/etc/hostname,然后重啟網卡:

systemctl restart network.service

6、配置集群主機列表

修改/etc/hosts,加入ip和主機名

192.168.126.39 manager
192.168.126.40 node1
192.168.126.41 node2
192.168.126.42 node3
192.168.126.43 node4

7、root用戶無密碼訪問

注意點:所有節點的root密碼必須一樣

ssh-keygen -t rsa  //.ssh下生成秘鑰id_rsa,id_rsa.pub文件
ssh-copy-id -i /root/.ssh/id_rsa.pub root@node1  //將公鑰拷貝到node1的authorized_keys中,可以實現管理節點登陸到node1
這個過程中要輸入對方機器的密碼
cat authorized_keys // 將公鑰加到authorized_keys文件里,
scp -rp .ssh root@node4:/root/  //將管理節點的目錄,拷貝到計算節點
可以等所有計算節點的公鑰都拷貝到管理節點的authorized_keyz中,然后再把管理節點的.ssh目錄拷貝到計算節點下,實現所有集群無密碼訪問。

8、nfs文件共享

NFSv4會有一些不穩定的因素,導致客戶端無法讀寫數據,一定使用v3

下面配置文件代碼可以關閉nfs的v4的版本

[root@omgt1 ~]# vim /etc/sysconfig/nfs
# Turn off v4 protocol support
RPCNFSDARGS="-N 4"

查看nfs版本,客戶端命令:nfsstat -m

/public from 12.12.12.101:/public
 Flags:    rw,relatime,vers=3,rsize=1048576,wsize=1048576,namlen=255,hard,proto=tcp,timeo=600,retrans=2,sec=sys,mountaddr=12.12.12.101,mountvers=3,mountport=56207,mountproto=udp,local_lock=none,addr=12.12.12.101

 

 

服務端:

(1)、服務端安裝

yum install nfs-utils

只安裝 nfs-utils 即可,rpcbind 屬於它的依賴,也會自動安裝上。

(2)、配置共享目錄

編輯/etc/exports文件,添加1行:

/public 192.168.126.* (rw,no_root_squash,no_all_squash,sync)

將管理節點上的/public目錄,共享給192.168.126.*計算節點

權限:

  1. rw: 權限設置,可讀可寫。
  2. sync: 同步共享目錄。
  3. no_root_squash: 可以使用 root 授權。
  4. no_all_squash: 可以使用普通用戶授權

(3)、服務開機自啟動

systemctl enable rpcbind.service

systemctl enable nfs-server.service

(4)、啟動nfs服務、

systemctl start rpcbind.service

systemctl start nfs-server.service

(5)、檢查本地共享目錄

showmount -e localhost

客戶端:

(1)、安裝服務

yum install nfs-utils

(2)、設置rpcbind的開機自啟動

systemctl enable rpcbind.service

(3)、啟動rpcbind服務

systemctl start rpcbind.service

注意:客戶端不需要啟動nfs服務

(4)、客戶端創建目錄,然后掛載

mkdir /public
mount -t nfs 192.168.126.39:/public /public

用df -Th 檢查是否已經掛載成功

(5)自動掛載命令寫到fstab中

       編輯/etc/fstab,加上

192.168.126.39:/public /public nfs defaults 0 0

9、普通用戶model的無密碼訪問

依次在管理節點和計算節點上創建用戶model,密碼保持一致

groupadd -g 200 model,
useradd -d /public/home/model -u 200 -g 200  model
passwd model

這里必須指明同一個組和用戶的uid,否則不同的計算節點可能會創建不同的uid,到時候就會識別成不同的用戶了

檢查方法:cat /etc/passwd,cat /etc/group

id_rsa:私鑰  id_rsa.pub:公鑰

ssh-keygen -t rsa     //.ssh下生成秘鑰id_rsa,id_rsa.pub文件
cat .ssh/id_rsa.pub >> .ssh/authorized_keys   //將公鑰拷貝到authorized_keys中
chmod 700 .ssh
chmod 600 .ssh/authorized_keys
chmod 600 .ssh/id_rsa
chmod 644 .ssh/id_rsa.pub

因為model賬戶在公共存儲上,各個節點model用戶用的同一個家目錄,不需要同步.ssh 目錄

注意:/public/home/model 用戶目錄權限為 755 或者 700,就是不能是77x

如果配置之后,還是不能無密碼訪問,需要進入/var/log/secure查看日志記錄信息

10、安裝基礎軟件

yum install -y ftp expect nfs-utils xterm gthumb OpenIPMI ipmitool sysstat numactl glibc glibc-static openssl ntpdate ntp dmidecode wget

 

 

其他問題處理

1、系統無法訪問域名

進入 /etc/sysconfig/network-scripts/,

修改網卡配置ifcfg-eth0,增加:

DNS1=8.8.8.8 

DNS2=114.114.114,

然后重啟網卡:systemctl restart network

2、yum配置

進入yum目錄:/etc/yum.repos.d,

將管理節點2個repo拷貝過去


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM