安裝部署OpenPAI + VSCode 提交


==========================================================

安裝openpai請參考這篇

https://www.cnblogs.com/jins-note/p/9673883.html

==========================================================

 

首先准備兩台服務器(必須為Ubuntu16.04 Server),一台作為master,一台作為worker(master和worker由我們自己指定)。每台服務器都必須要有的:

1、ssh服務(這在安裝Ubuntu16.04 Server的時候有選擇)

2、docker-ce

3、兩台服務器必須要有相同的用戶名以及密碼

4、用於登錄每台計算機的用戶名應具有sudo權限

5、兩台服務器要在同一個網段中

 

准備好之后,我們需要先在master的docker中執行以下命令:

sudo docker pull docker.io/openpai/dev-box 

sudo docker run -itd \

-e COLUMNS=$COLUMNS -e LINES=$LINES -e TERM=$TERM \

-v /var/lib/docker:/var/lib/docker \

-v /var/run/docker.sock:/var/run/docker.sock \

-v /pathHadoop:/pathHadoop \

-v /pathConfiguration:/cluster-configuration \

--pid=host \

--privileged=true \

--net=host \

--name=dev-box \

docker.io/openpai/dev-box


sudo docker exec -it dev-box /bin/bash


cd /pai/pai-management

 

第一條指令是拉dev-box的鏡像

第二條指令是運行dev-box

第三條指令是進入dev-box

然后

cd quick-start

cp quick-start-example.yaml ../quick-start.yaml

cd ..

vi quick-start.yaml

 

 

master-ip寫你指定的master的ip

worker-ip就是另外一台服務器的ip

ssh-username就是你的服務器的username

ssh-password就是相應的password

完成之后

python paictl.py cluster generate-configuration \

-i quick-start.yaml \

-o /path/to/cluster-configuration/dir

/path/to/cluster-configuration/dir 這個路徑可以隨意放置,建議寫成 /cluster-configuration/

然后進入 /cluster-configuration/ 會發現有四個.yaml文件,一般是不用改的。

然后執行

python paictl.py cluster k8s-bootup \

-p /path/to/cluster-configuration/dir

同樣,這里的/path/to/cluster-configuration/dir 寫成你放那四個.yaml配置文件的地方,/cluster-configuration/

這時可能要等一段時間,執行快完成的時候如果出現kube-proxy已經存在的錯誤的話,執行

python paictl.py cluster k8s-clean -p /cluster-configuration  這個paictl.py文件在/pai/pai-management/ 目錄下

然后再執行第二步的命令就可以了。

此時你可以訪問 

http://<master>:9090

這個網頁

然后就是最后一步

python paictl.py service start \

-p /path/to/cluster-configuration/dir

同樣的/path/to/cluster-configuration/dir改為你放四個.yaml文件的目錄,這里是 /cluster-configuration/

這里執行也要等一段時間,如果出現了driver-one-shot等待,這里可以等一段時間,如果等待時間過長的話,直接終止,然后執行

python paictl.py service delete -p /cluster-configuration

這里的/cluster-configuration改為你存放四個.yaml文件的目錄,相當於清理容器內容

然后再執行

python paictl.py cluster k8s-clean -p /cluster-configuration

這個命令,相當於卸載k8s

然后再從第二步開始執行。

如果出現zookeeper錯誤的話,你執行 

echo hostname

 這個命令,然后進入你存放四個yaml文件的目錄,查看cluster-configuration.yaml這個文件,看看machine-list中的master的hostname是否和執行上面的命令的hostname不一樣,如果不一樣則修改回和執行上面的命令一樣的hostname。

如果你發現執行上面的命令和.yaml文件一樣的hostname,那很遺憾,執行這兩條命令吧:

python paictl.py service delete -p /cluster-configuration

python paictl.py cluster k8s-clean -p /cluster-configuration

 然后從第二步開始執行。

如果一直沒報錯的話,恭喜你安裝成功可以訪問

http://<master>:9286

這個網頁,如果你發現你的GPU沒有顯示信息,很可能是因為你的GPU版本太低,樓主的GeForce GT 730就是不支持顯示,但不代表沒有GPU。

然后就是如何提交代碼了。

=================================================================

我們這里使用vscode,首先安裝vscode,最新版就可以,然后下載vs的插件https://marketplace.visualstudio.com/items?itemName=ms-toolsai.vscode-ai 點擊install然后再vscode里面安裝即可。

安裝完成之后會有這些東西

然后右擊PAI-Cluster  Add Configuration 

這個username 是 admin

password 是admin-password 

這個賬號密碼是默認的,如何添加新的賬戶,我還沒研究好。

然后其他的uri將ip改為你的master的ip,端口別改。

然后點finish你會發現你的PAI-Cluster目錄里面多了一個東西,然后右擊它,點擊submit job,會進入一個json文件,需要改的地方為

改為這個,*為通配符,這里是提交.py文件,如果你要提交其他東西的話,如名字為data.xls你可以再includes里面再加入"*.xls"即可。

這個是docker的鏡像,你可以去docker-hub找到。

這個codeDir是存放代碼文件的目錄,你可以右擊PAI-Clusters目錄下的東西,然后點擊open storage explorer,就可以看到一些目錄,你可以自己創一個目錄,或者使用里面已經有的目錄,在codeDir添加上去就可以了。

然后這個command 就是你執行這個代碼文件的命令,如python 123.py (如果有參數,可以添加)。

然后點擊Finish就可以了,然后他就會上傳。

如果出現submit fail 沒有這個文件的是因為你的AI Storage Explorer里面沒有這個目錄,你可以自己添加進去。就像outputDir一樣。

 

 

 

 

 

來自為知筆記(Wiz)




免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM