今天由於裝了高版本的顯卡驅動,把機器搞癱瘓了,然后又一頓瞎操作把情況搞的更糟,然后從7點辦搞到2點,又被朱幟帆搶救回來了。並且,更重要的是,把環境配置的相關操作又梳理了下,對各個相關的東西又有了清晰一些的了解了。
總結一下,首先是他移動來移動去硬盤分區,把開機只閃動下划線的問題搞好了(毅力驚人),能進入登陸界面了,然后ctrl+alt+f1,然后卸載高版本驅動,裝回384版本驅動,可以重新開機,故障修復完成。然后是教我使用anaconda虛擬環境,這個虛擬環境相當於一個虛擬機,所有東西都在這個虛擬環境中操作,與外部隔離開,有問題直接刪除這個環境就行。然后是在虛擬環境中重新裝tensorflow1.4和cuda8,這時候了解到conda安裝和pip安裝來自不同的源,pip源官方,但是慢,conda源不官方,但是快而且會自動幫助安裝所安裝模塊需要的其他依賴模塊。安裝完tensorflow后,import有問題,提示libculbas.so.10.0不存在,說明cuda與tensorflow版本不匹配,而且是需要cuda10,但是查閱官網https://www.tensorflow.org/install/source#common_installation_problems 發現明明裝的是匹配的,朱幟帆這時候來了一個神操作,把外部的tensorflow刪了,然后這個提示就消失了,說明啥?說明我們在虛擬環境中使用import tensorflow命令的時候,這個tensorflow不是我們虛擬環境中的tensorflow,而是外面的tensorflow,這是為什么呢,查看.bashrc,發現了這么一行 alias python=/home/cs1028/anaconda3/bin/python3.6,所有Python命令都被定位到這個位置的Python,而不是虛擬環境中的Python,隨之,倒入的tensorflow也就不是虛擬環境中安裝的tensorflow1.4而是外面的tensorflow1.13,所以之前報錯需要安裝cuda10,所以把這行注釋掉。然后在虛擬環境中再import tensorflow的時候,發現又報錯,缺少cuDNN6,在conda install cuda==8.0的時候,明明自動安裝好了cuDNN7,之前只知道cuda和tensorflow和顯卡驅動要匹配,沒想到cuDNN也要匹配,這個也是查了https://www.tensorflow.org/install/source#common_installation_problems才知道需要裝6版本的cuDNN,而且cuDNN也可以指定版本安裝,然后卸載原來的裝上6版本的,問題解決。
命令總結:
虛擬環境相關:
https://docs.conda.io/projects/conda/en/4.6.0/_downloads/52a95608c49671267e40c689e0bc00ca/conda-cheatsheet.pdf
conda create -n tf_zp python=3.6 (等價於conda create --name tf_zp python=3.6)
conda activate tf_zp
conda deactivate
conda install module
conda list
conda env list
conda search module
which python
安裝環境相關:
conda install tensorflow=1.4.0 (只能用一個“=”,兩個會報錯,不知道為毛)
conda uninstall tensorflow=1.4.0
conda install cudatoolkit==8.0
conda install cuDNN==6.0
