centos7 hpc高性能計算集群配置（無密碼訪問、nfs文件共享）

本文轉載自查看原文 2020-08-25 00:42 854 linux

0、檢查硬件的超線程

由於模型運行時，每個進程幾乎都會占用100%的CPU計算能力，開啟超線程之后，每個進程最多使用每個核心50%的計算能力，導致程序運行變慢。

1，物理CPU個數：
cat /proc/cpuinfo | grep "physical id" | sort | uniq
2，每個物理CPU的邏輯核數：
cat /proc/cpuinfo | grep "cores" | uniq
3，系統整個cpu線程數：
cat /proc/cpuinfo | grep "processor" | wc -l

1、查看操作系統版本

cat /etc/redhat-release

2、關閉SELinux

修改/etc/sysconfig/selinux確保SELINUX=disabled，

臨時關閉：setenforce 0

reboot服務器以生效

3、關閉防火牆

查看防火牆狀態：

systemctl status firewalld

臨時關閉防火牆：

systemctl stop firewalld

永久關閉防火牆：

systemctl disable firewalld

4、時間同步

在crontab中添加如下

01 23 * * * "systemctl stop ntpd.service;ntpdate -u time.windows.com;hwclock -w;systemctl start ntpd.service"

同步的時候，要把ntp服務停掉，同步之后再開啟。

手動執行命令

systemctl stop ntpd.service
ntpdate -u time.windows.com
hwclock -w
systemctl start ntpd.service

5、修改節點名稱

hostnamectl set-hostname node5

或者修改/etc/hostname，然后重啟網卡：

systemctl restart network.service

6、配置集群主機列表

修改/etc/hosts，加入ip和主機名

192.168.126.39 manager
192.168.126.40 node1
192.168.126.41 node2
192.168.126.42 node3
192.168.126.43 node4

7、root用戶無密碼訪問

注意點：所有節點的root密碼必須一樣

ssh-keygen -t rsa  //.ssh下生成秘鑰id_rsa，id_rsa.pub文件
ssh-copy-id -i /root/.ssh/id_rsa.pub root@node1  //將公鑰拷貝到node1的authorized_keys中，可以實現管理節點登陸到node1
這個過程中要輸入對方機器的密碼

cat authorized_keys // 將公鑰加到authorized_keys文件里，
scp -rp .ssh root@node4:/root/  //將管理節點的目錄，拷貝到計算節點

可以等所有計算節點的公鑰都拷貝到管理節點的authorized_keyz中，然后再把管理節點的.ssh目錄拷貝到計算節點下，實現所有集群無密碼訪問。

8、nfs文件共享

NFSv4會有一些不穩定的因素，導致客戶端無法讀寫數據，一定使用v3

下面配置文件代碼可以關閉nfs的v4的版本

[root@omgt1 ~]# vim /etc/sysconfig/nfs
# Turn off v4 protocol support
RPCNFSDARGS="-N 4"

查看nfs版本,客戶端命令：nfsstat -m

/public from 12.12.12.101:/public
 Flags:    rw,relatime,vers=3,rsize=1048576,wsize=1048576,namlen=255,hard,proto=tcp,timeo=600,retrans=2,sec=sys,mountaddr=12.12.12.101,mountvers=3,mountport=56207,mountproto=udp,local_lock=none,addr=12.12.12.101

服務端：

（1）、服務端安裝

yum install nfs-utils

只安裝 nfs-utils 即可，rpcbind 屬於它的依賴，也會自動安裝上。

（2）、配置共享目錄

編輯/etc/exports文件，添加1行：

/public 192.168.126.* (rw,no_root_squash,no_all_squash,sync)

將管理節點上的/public目錄，共享給192.168.126.*計算節點

權限：

rw: 權限設置，可讀可寫。
sync: 同步共享目錄。
no_root_squash: 可以使用 root 授權。
no_all_squash: 可以使用普通用戶授權

（3）、服務開機自啟動

systemctl enable rpcbind.service

systemctl enable nfs-server.service

（4）、啟動nfs服務、

systemctl start rpcbind.service

systemctl start nfs-server.service

（5）、檢查本地共享目錄

showmount -e localhost

客戶端：

（1）、安裝服務

yum install nfs-utils

（2）、設置rpcbind的開機自啟動

systemctl enable rpcbind.service

（3）、啟動rpcbind服務

systemctl start rpcbind.service

注意：客戶端不需要啟動nfs服務

（4）、客戶端創建目錄，然后掛載

mkdir /public
mount -t nfs 192.168.126.39:/public /public

用df -Th 檢查是否已經掛載成功

（5）自動掛載命令寫到fstab中

編輯/etc/fstab，加上

192.168.126.39:/public /public nfs defaults 0 0

9、普通用戶model的無密碼訪問

依次在管理節點和計算節點上創建用戶model，密碼保持一致

groupadd -g 200 model,
useradd -d /public/home/model -u 200 -g 200  model
passwd model

這里必須指明同一個組和用戶的uid，否則不同的計算節點可能會創建不同的uid，到時候就會識別成不同的用戶了

檢查方法：cat /etc/passwd，cat /etc/group

id_rsa：私鑰 id_rsa.pub：公鑰

ssh-keygen -t rsa     //.ssh下生成秘鑰id_rsa，id_rsa.pub文件
cat .ssh/id_rsa.pub >> .ssh/authorized_keys   //將公鑰拷貝到authorized_keys中
chmod 700 .ssh
chmod 600 .ssh/authorized_keys
chmod 600 .ssh/id_rsa
chmod 644 .ssh/id_rsa.pub

因為model賬戶在公共存儲上，各個節點model用戶用的同一個家目錄，不需要同步.ssh 目錄

注意：/public/home/model 用戶目錄權限為 755 或者 700，就是不能是77x

如果配置之后，還是不能無密碼訪問，需要進入/var/log/secure查看日志記錄信息

10、安裝基礎軟件

yum install -y ftp expect nfs-utils xterm gthumb OpenIPMI ipmitool sysstat numactl glibc glibc-static openssl ntpdate ntp dmidecode wget

其他問題處理

1、系統無法訪問域名

進入 /etc/sysconfig/network-scripts/，

修改網卡配置ifcfg-eth0，增加：

DNS1=8.8.8.8

DNS2=114.114.114，

然后重啟網卡：systemctl restart network

2、yum配置

進入yum目錄：/etc/yum.repos.d，

將管理節點2個repo拷貝過去

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 NFS網絡文件共享 NFS網絡文件共享服務 Linux 文件共享NFS、SSH NFS網絡文件共享服務 linux Centos 服務器之間NFS文件共享掛載搭建FTP服務器實現文件共享和NFS服務器配置 Kerberos認證原理及基於Kerberos認證的NFS文件共享【文件共享】nfs和samba都有什么區別 CentOS7配置共享文件夾，win10可訪問 Centos7.2 配置samba文件共享服務詳細