==========================================================
安裝openpai請參考這篇
https://www.cnblogs.com/jins-note/p/9673883.html
==========================================================
首先准備兩台服務器(必須為Ubuntu16.04 Server),一台作為master,一台作為worker(master和worker由我們自己指定)。每台服務器都必須要有的:
1、ssh服務(這在安裝Ubuntu16.04 Server的時候有選擇)
2、docker-ce
3、兩台服務器必須要有相同的用戶名以及密碼
4、用於登錄每台計算機的用戶名應具有sudo權限
5、兩台服務器要在同一個網段中
准備好之后,我們需要先在master的docker中執行以下命令:
sudo docker pull docker.io/openpai/dev-box sudo docker run -itd \ -e COLUMNS=$COLUMNS -e LINES=$LINES -e TERM=$TERM \ -v /var/lib/docker:/var/lib/docker \ -v /var/run/docker.sock:/var/run/docker.sock \ -v /pathHadoop:/pathHadoop \ -v /pathConfiguration:/cluster-configuration \ --pid=host \ --privileged=true \ --net=host \ --name=dev-box \ docker.io/openpai/dev-box sudo docker exec -it dev-box /bin/bash cd /pai/pai-management
第一條指令是拉dev-box的鏡像
第二條指令是運行dev-box
第三條指令是進入dev-box
然后
cd quick-start cp quick-start-example.yaml ../quick-start.yaml cd .. vi quick-start.yaml
master-ip寫你指定的master的ip
worker-ip就是另外一台服務器的ip
ssh-username就是你的服務器的username
ssh-password就是相應的password
完成之后
python paictl.py cluster generate-configuration \ -i quick-start.yaml \ -o /path/to/cluster-configuration/dir
/path/to/cluster-configuration/dir 這個路徑可以隨意放置,建議寫成 /cluster-configuration/
然后進入 /cluster-configuration/ 會發現有四個.yaml文件,一般是不用改的。
然后執行
python paictl.py cluster k8s-bootup \ -p /path/to/cluster-configuration/dir
同樣,這里的/path/to/cluster-configuration/dir 寫成你放那四個.yaml配置文件的地方,/cluster-configuration/
這時可能要等一段時間,執行快完成的時候如果出現kube-proxy已經存在的錯誤的話,執行
python paictl.py cluster k8s-clean -p /cluster-configuration 這個paictl.py文件在/pai/pai-management/ 目錄下
然后再執行第二步的命令就可以了。
此時你可以訪問
http://<master>:9090
這個網頁
然后就是最后一步
python paictl.py service start \ -p /path/to/cluster-configuration/dir
同樣的/path/to/cluster-configuration/dir改為你放四個.yaml文件的目錄,這里是 /cluster-configuration/
這里執行也要等一段時間,如果出現了driver-one-shot等待,這里可以等一段時間,如果等待時間過長的話,直接終止,然后執行
python paictl.py service delete -p /cluster-configuration
這里的/cluster-configuration改為你存放四個.yaml文件的目錄,相當於清理容器內容
然后再執行
python paictl.py cluster k8s-clean -p /cluster-configuration
這個命令,相當於卸載k8s
然后再從第二步開始執行。
如果出現zookeeper錯誤的話,你執行
echo hostname
這個命令,然后進入你存放四個yaml文件的目錄,查看cluster-configuration.yaml這個文件,看看machine-list中的master的hostname是否和執行上面的命令的hostname不一樣,如果不一樣則修改回和執行上面的命令一樣的hostname。
如果你發現執行上面的命令和.yaml文件一樣的hostname,那很遺憾,執行這兩條命令吧:
python paictl.py service delete -p /cluster-configuration
python paictl.py cluster k8s-clean -p /cluster-configuration
然后從第二步開始執行。
如果一直沒報錯的話,恭喜你安裝成功可以訪問
http://<master>:9286
這個網頁,如果你發現你的GPU沒有顯示信息,很可能是因為你的GPU版本太低,樓主的GeForce GT 730就是不支持顯示,但不代表沒有GPU。
然后就是如何提交代碼了。
=================================================================
我們這里使用vscode,首先安裝vscode,最新版就可以,然后下載vs的插件https://marketplace.visualstudio.com/items?itemName=ms-toolsai.vscode-ai 點擊install然后再vscode里面安裝即可。
安裝完成之后會有這些東西
然后右擊PAI-Cluster Add Configuration
這個username 是 admin
password 是admin-password
這個賬號密碼是默認的,如何添加新的賬戶,我還沒研究好。
然后其他的uri將ip改為你的master的ip,端口別改。
然后點finish你會發現你的PAI-Cluster目錄里面多了一個東西,然后右擊它,點擊submit job,會進入一個json文件,需要改的地方為
改為這個,*為通配符,這里是提交.py文件,如果你要提交其他東西的話,如名字為data.xls你可以再includes里面再加入"*.xls"即可。
這個是docker的鏡像,你可以去docker-hub找到。
這個codeDir是存放代碼文件的目錄,你可以右擊PAI-Clusters目錄下的東西,然后點擊open storage explorer,就可以看到一些目錄,你可以自己創一個目錄,或者使用里面已經有的目錄,在codeDir添加上去就可以了。
然后這個command 就是你執行這個代碼文件的命令,如python 123.py (如果有參數,可以添加)。
然后點擊Finish就可以了,然后他就會上傳。
如果出現submit fail 沒有這個文件的是因為你的AI Storage Explorer里面沒有這個目錄,你可以自己添加進去。就像outputDir一樣。
