參考資料
https://github.com/NVIDIA/nvidia-docker/wiki/Installation#prerequisites
https://github.com/NVIDIA/nvidia-docker
安裝最新的 1.0.0 RC3的時候報錯
cpio read 失敗 未發現 /usr/bin/nvidia-docker
解決:安裝RC2版本,
安裝后並不支持最新的0.12的docker
所以再次安裝RC3 (強制覆蓋)
rpm -ivh nvidia-docker-1.0.0.rc.3-1.x86_64.rpm --force --nodeps
隨后用 nvidia-docker run --rm nvidia/cuda nvidia-smi 測試
GPU isolation
NV_GPU=0,1 nvidia-docker run -ti nvidia/cuda nvidia-smi
使用tensorflow:lasted-gpu鏡像有報錯
https://github.com/tensorflow/tensorflow/issues/2525
更新到0.10鏡像運行測試
tensorflow安裝在image的 :/usr/local/lib/python2.7/dist-packages/tensorflow 目錄下
NV_GPU=1 nvidia-docker run -it --restart=always 10.100.208.23:6000/tensorflow:0.10.0-gpu /bin/bash
運行cifar10_multi_gpu_train 發現只使用了一個gpu
新安裝的一台機器遇到錯誤 在docker-daemon日志中看到
/run/docker/plugins/nvidia-docker.sock/Plugin.Activate: Post http://%2Frun%2Fdocker%2Fplugins%2Fnvidia-docker.sock/Plugin.Activate: dial unix /run/docker/plugins/nvidia-docker.sock: connect: connection refused,
刪除了 /run/docker/plugins/ 目錄重啟 service nvidia-docker restart