阿里雲深度學習采坑記


原因

打算研究下AI,以便不那么落后於這個時代,但是看了看,搞一個能支持AI算法的顯卡就要天文數字。所以找到了阿里雲的PAI平台,打算跑跑自己寫的算法,采坑無數,搞了兩天才搞定。

基本流程

阿里雲提供了官方的教程:如果打算把自己的深度學習代碼到阿里雲PAI上運行的話,照着官方文檔去試試:https://help.aliyun.com/document_detail/49571.html?spm=a2c4g.11186623.6.570.1c3564f9tpM92k#讀OSSBucket

踩過的坑(需要注意事項)

數據文件

自己寫的python代碼本身讀取數據和保存模型都在本地,可能做了硬編碼,如果要遷移到阿里雲,需要從OSS上讀寫文件。那么需要做下修改

1、 首先需要設置一個讓獲得阿里雲關於OSS配置的參數

if __name__ == '__main__':
        parser = argparse.ArgumentParser()
        parser.add_argument('--buckets', type=str, default='',help='input data path')
        parser.add_argument('--checkpointDir', type=str, default='',help='output model path')
        FLAGS, _ = parser.parse_known_args()

2、在程序中這樣獲得數據文件和模型保存的位置

tfrecords_file = os.path.join(FLAGS.buckets, "post_train.tfrecords")
        
        checkpoint_path = os.path.join(FLAGS.checkpointDir, 'model.ckpt')

關於編碼

這個搞了很久老失報錯有不合法代碼,在每個文件頭部加上# encoding: utf-8

文件分目錄

這個問題也讓我抓狂很久,我寫的時候,比較隨意,把數據文件,模型文件和python寫一個文件夾下面了,到了阿里雲就很難跑起來。后來把代碼放在一個單獨的文件夾,數據文件一個文件夾,然后給checkpoint和模型單獨一個文件夾。

多代碼文件一定要打包

多個代碼文件,需要打包成.tar.gz的格式,進行上傳
配置圖片

關於如何在windows下面制作.tar.gz的方法:http://blog.sina.com.cn/s/blog_535b828801010cb6.html

一定要在tensorflow的節點前面先選擇一個讀OSS_bucket的節點:

具體如下


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM