nvidia-docker


參考資料

https://github.com/NVIDIA/nvidia-docker/wiki/Installation#prerequisites

https://github.com/NVIDIA/nvidia-docker

安裝最新的 1.0.0 RC3的時候報錯

cpio read 失敗 未發現 /usr/bin/nvidia-docker

解決:安裝RC2版本,

安裝后並不支持最新的0.12的docker

所以再次安裝RC3 (強制覆蓋)

rpm -ivh nvidia-docker-1.0.0.rc.3-1.x86_64.rpm  --force --nodeps

隨后用  nvidia-docker run --rm nvidia/cuda nvidia-smi 測試

 

GPU isolation

NV_GPU=0,1 nvidia-docker run -ti nvidia/cuda nvidia-smi

 

使用tensorflow:lasted-gpu鏡像有報錯

https://github.com/tensorflow/tensorflow/issues/2525

更新到0.10鏡像運行測試

tensorflow安裝在image的 :/usr/local/lib/python2.7/dist-packages/tensorflow 目錄下

 

NV_GPU=1 nvidia-docker run -it --restart=always 10.100.208.23:6000/tensorflow:0.10.0-gpu /bin/bash

 

運行cifar10_multi_gpu_train 發現只使用了一個gpu

 

新安裝的一台機器遇到錯誤 在docker-daemon日志中看到

/run/docker/plugins/nvidia-docker.sock/Plugin.Activate: Post http://%2Frun%2Fdocker%2Fplugins%2Fnvidia-docker.sock/Plugin.Activate: dial unix /run/docker/plugins/nvidia-docker.sock: connect: connection refused,

刪除了 /run/docker/plugins/ 目錄重啟 service nvidia-docker restart 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM