作為測試,在VMware上安裝centos7,然后在centos7上安裝lsf 10.2 社區版(其實是10.2.0.6版本),社區版和正式版的安裝基本一致,不過不需要license。
redhat上安裝步驟基本相同。
下面是具體的安裝步驟:
1.1 設置hostname及IP
通過修改/etc/hostname設置機器名,機器名不要太長,也不要帶特殊字符。
[root@master ~]# cat /etc/hostname
master
最好設置靜態IP
編輯/etc/hosts解析
[root@master ~]# cat /etc/hosts
127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.253.11 master
確認SSH服務開啟
service sshd start
ssh-keygen命令產生公鑰和私鑰。
把本機上的公鑰寫入本機,所以本機登陸本機不需要密碼。
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys
scp ~/.ssh/authorized_keys root@node01:~/.ssh/
1.3 設置共享存儲
如果有多台機器,需要在所有機器上啟動NFS服務,設置好共享目錄,lsf需要安裝在共享目錄,以保證所有的機器都能夠讀取同一份設置。
1.4 關閉防火牆
采用命令systemctl status firewalld獲取防火牆狀態。如下綠色部分字體可知,防火牆仍然處於running狀態。
2. 安裝
2.1 安裝包下載
從如下地址可以下載到10.2版本的lsfsce安裝包。
https://www-01.ibm.com/marketing/iwm/mrs/DownloadList?source=swerpzsw-lsf-3&lang=en_US#dh
2.2 安裝包解壓
拷貝到linux中的工具路徑下,解壓縮。(如下操作,如無說明均采用root賬號)
tar xf lsfsce10.2.0.6-x86_64.tar.gz
進入解壓路徑下,lsf為lsf sce版的安裝文件目錄。
進入lsf目錄下,繼續解壓縮文件lsf10.1_lsfinstall_linux_x86_64.tar.Z。(glibc文件無需處理)
進入解壓后的安裝包路徑下。
2.3 安裝
其中install.config為安裝配置文件,我們將其備份一下(到install.config.orig),然后更新其中的設置。
我們的配置如下。
備份install.config
install.config.bak
[root@master lsf10.1_lsfinstall]# cat install.config | grep -v "#"
LSF_TOP="/usr/share/lsf"
LSF_ADMINS="lsfadmin"
LSF_CLUSTER_NAME="cluster1"
LSF_MASTER_LIST="master"
LSF_TARDIR="/usr/local/lsfsce10.2.0.6-x86_64/lsf"
CONFIGURATION_TEMPLATE="HIGH_THROUGHPUT"
LSF_TOP : 設置安裝路徑。
LSF_ADMINS : 設置管理員賬號,當前設置為我自己的賬號,但是企業中建議創建一個公用的管理員賬號lsfadmin。
LSF_CLUSTER_NAME : 集群名稱。
LSF_MASTER_LIST :master機器列表,如果有多台機器,建議至少設置兩台master,作為冗余備份。
LSF_TARDIR : 安裝文件解壓縮路徑。
CONFIGURATION_TEMPLATE :配置模式,如果是IC應用場景,建議設置為HIGH_THROUGHPUT高性能模式。
LSF_ADD_SERVERS :添加計算機節點機器,也可以安裝后配置。
LSF_ADD_CLIENTS :添加客戶機(投遞機)節點,也可以安裝后配置。
執行./lsfinstall -f install.config來安裝lsf。
此處選1,繼續。
2.4 配置
到安裝目錄的conf路徑下,將如下信息插入到lsf.conf文件中。
LSF_RSH=“ssh”
將conf路徑下的cshrc.lsf和profile.lsf兩個文件拷貝到/etc/profile.d/下面。(可以開機自動加載lsf環境)
cp cshrc.lsf profile.lsf /etc/profile.d/
手工載入環境。如果是csh/tcsh則source cshrc.lsf,否則source profile.lsf。
在所有機器上,用root賬號執行如下命令以啟動守護進程。
./hostsetup --top="/usr/share/lsf" --boot="y"
登陸master節點,用root賬號執行lsfstartup以啟動lsf集群。(請注意,lsf社區版不允許機器cpu核數超過兩個核,否則lsfstartup無法啟動)
啟動
lsfstartup
執行lsid確定lsf服務啟動無誤。
2.5 測試
切換到普通賬號測試一下。
1號任務,睡一會。
bsub -n 2 "sleep 3600"
從queue和hosts上可以看到這兩個slots占用,也可以查看機器的靜態資源及動態負載狀況。
lsf安裝配置成功。