前言:本人做系統集成方面和服務器運維方面的工作,最近一直忙着處理故障,很少總結。難得閑暇,總結下經驗,僅作備忘或隨筆,或許能幫助被同樣問題困擾的家伙,那就更值得了。
華碩ESC4000G2服務器如何使用NVIDIA GRID K2及NVIDIA Tesla K10顯卡——VMware ESXI 5.5虛擬機版
一.測試時間:
2018年4月20日 15:14:56
二.測試背景:
如題,ASUS ESC4000 G2服務器安裝K2,K10顯卡后,現有CONTOS6.5及CENTOS7.2開機均會出現卡住進不去系統的情況(見下圖)(其實是驅動沖突引起的,可以解決)。經與服務器售后人員聯系,得知此機型的推薦使用環境不是linux系統而是VMware esxi和xenserven 。剛好手頭有vmware系統,就測試了在vmware 環境下2種顯卡是否能識別和正常安裝驅動。
6.5環境下卡住↓
7.2環境下卡住↓
三.測試結果
顯卡 |
vSGA共享模式 |
vDGA直通模式 |
備注 |
GRID K2 |
可用 |
可用 |
|
Tesla K10 |
無vmware安裝包 |
可用 |
|
K2 K10顯卡在vmware 客戶端client下均可識別到。
K2顯卡用共享模式(VSGA)能安裝驅動成功,K10顯卡官網下載不到vmware配套驅動。在直通模式(VDGA)下,2種顯卡可用,只需要禁用LINUX自帶驅動即可。
四.測試過程
(1)
硬件環境:ASUS ESC4000G2 服務器一台。K2 K10顯卡各2張
軟件環境:vmware esxi 5.5 光盤版和客戶端軟件 VMware-viclient-all-5.5.0-1618071-5.5.exe
參考網址1:http://blog.51cto.com/dabei/1394323
參考網址2:http://blog.51cto.com/chenchunjia/1952675
NVIDIA 驅動程序下載: http://www.nvidia.cn/Download/index.aspx?lang=cn
(2)
VSGA 顯卡共享模式 K2 有對應EXSI 5.5驅動,可以安裝成功。K10無對應驅動,可識別,驅動沒安裝成功。
操作過程見參考網站,很詳細了。不再贅述,此處僅記錄實際操作命令
執行命令步驟記錄:
1、下載對應驅動
略
2、安裝NVIDIA驅動
SSH連接主機后,使ESXi主機進入維護模式
# vim-cmd hostsvc/maintenance_mode_enter
# cd /vmfs/volumes/5ad4d811-11783f6c-058e-bcee7b0f75e0/
# cp NVIDIA-kepler-VMware_ESXi_5.5_Host_Driver_367.124
-1OEM.550.0.0.1331820.vib /var/log/vmware/
# cd /var/log/vmware/
# esxcli software vib install -v NVIDIA-kepler-VMware_ESXi_5.5_Host_Driver_367.124-1OEM.
550.0.0.1331820.vib
退出維護模式
# vim-cmd hostsvc/maintenance_mode_exit
檢查驅動安裝
# esxcli software vib list | grep NVIDIA
3、開啟xorg服務
# /etc/init.d/xorg start
# /etc/init.d/xorg status
VDGA顯卡直通模式
以K10顯卡為例。配置方式如下。
首先BIOS 設置:開啟VT-D 模式,默認即為開啟,其他選項也默認。登錄ESXI主機,開啟直通模式,勾選顯卡並重啟。
新建虛擬機,名字隨便起,設置完成編輯虛擬機,添加硬件-PCI設備,可多次選擇全部添加進去。
記得在資源-內存頁面-勾選全部鎖定
配置完畢啟動虛擬機,多顯卡時出現如下錯誤提示,需要更改虛擬機配置文件
按照提示下載虛擬機配置文件並在最后添加1行pciHole.start = "1792",然后備份好重新上傳。
啟動正常,安裝centos 6.5系統
出現錯誤提示:Nouveau kernel driver 這個驅動正在被系統使用,這個驅動和Nvidia驅動沖突,要想繼續安裝,則必須禁用此驅動
1.打開/etc/modprobe.d/50-blacklist.conf,在里面添加一條:
echo "blacklist nouveau" >> /etc/modprobe.d/50-blacklist.conf
2 在 /boot/grub/grub.conf 里加上 nouveau.modeset=0 參數,以禁止 nouveau KMS 的使用。如果是PAE的內核,則還需要添加 vmalloc=256m 這個參數:
# vi /boot/grub/grub.conf
#修改以下行禁止 nouveau KMS 的使用 kernel /vmlinuz-2.6.32.9-70.fc12.i686.PAE ro root=/dev/mapper/volumeGroup-Root LANG= zh_CN.UTF-8 KEYBOARDTYPE=pc KEYTABLE=us rhgb quiet nouveau.modeset=0 vmalloc=256m
3.重啟系統再次裝nvidia官網下的驅動就OK了,
若多張卡進系統卡死,需要先用單張卡進系統,裝好驅動,改好內核后再添加其余卡。