原因

打算研究下AI，以便不那么落后於這個時代，但是看了看，搞一個能支持AI算法的顯卡就要天文數字。所以找到了阿里雲的PAI平台，打算跑跑自己寫的算法，采坑無數，搞了兩天才搞定。

基本流程

阿里雲提供了官方的教程：如果打算把自己的深度學習代碼到阿里雲PAI上運行的話，照着官方文檔去試試：https://help.aliyun.com/document_detail/49571.html?spm=a2c4g.11186623.6.570.1c3564f9tpM92k#讀OSSBucket

踩過的坑（需要注意事項）

數據文件

自己寫的python代碼本身讀取數據和保存模型都在本地，可能做了硬編碼，如果要遷移到阿里雲，需要從OSS上讀寫文件。那么需要做下修改

1、首先需要設置一個讓獲得阿里雲關於OSS配置的參數

if __name__ == '__main__':
        parser = argparse.ArgumentParser()
        parser.add_argument('--buckets', type=str, default='',help='input data path')
        parser.add_argument('--checkpointDir', type=str, default='',help='output model path')
        FLAGS, _ = parser.parse_known_args()

2、在程序中這樣獲得數據文件和模型保存的位置

tfrecords_file = os.path.join(FLAGS.buckets, "post_train.tfrecords")
        
        checkpoint_path = os.path.join(FLAGS.checkpointDir, 'model.ckpt')

關於編碼

這個搞了很久老失報錯有不合法代碼，在每個文件頭部加上# encoding: utf-8

文件分目錄

這個問題也讓我抓狂很久，我寫的時候，比較隨意，把數據文件，模型文件和python寫一個文件夾下面了，到了阿里雲就很難跑起來。后來把代碼放在一個單獨的文件夾，數據文件一個文件夾，然后給checkpoint和模型單獨一個文件夾。

多代碼文件一定要打包

多個代碼文件，需要打包成.tar.gz的格式，進行上傳
配置圖片

關於如何在windows下面制作.tar.gz的方法：http://blog.sina.com.cn/s/blog_535b828801010cb6.html

一定要在tensorflow的節點前面先選擇一個讀OSS_bucket的節點：

具體如下

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Service worker (@nuxtjs/workbox) 采坑記記阿里雲SLB后配置Nginx反向代理百度地圖API的坑 Cloudera Manager 5.9 和 CDH 5.9 離線安裝指南及個人采坑填坑記 Python學習心得體會總結，不要采坑 Flutter gradle采坑 mpvue 采坑 Mongodb 筆記采坑 axios采坑之路 @WebFilter 的使用及采坑玩轉數據系列：利用阿里雲機器學習在深度學習框架下實現智能圖片分類