TensorFlow分布式訓練MNIST分類器

本文轉載自查看原文 2019-05-13 20:56 453 tensorflow/ 數據挖掘及機器學習

本節以分布式方式訓練完整的 MNIST 分類器。

注意，這個案例基於上一節，所以按順序閱讀可能會很方便。

具體做法

導入一些標准模塊並定義運行計算的 TensorFlow 集群，然后為指定任務啟動服務：
讀取 MNIST 數據並定義用於訓練的超參數：
檢查角色是參數服務器還是 worker，如果是 worker 就定義一個簡單的稠密神經網絡，定義一個優化器以及用於評估分類器的度量（例如精確度）：
啟動一個監督器作為分布式設置的主機，主機是管理集群其余部分的機器。會話由主機維護，關鍵指令是 sv=tf.train.Supervisor(is_chief=(FLAGS.task_index==0))。另外，通過 prepare_or_wait_for_session(server.target)，監督器將等待模型投入使用。請注意，每個 worker 將處理不同的批量模型，然后將最終的模型提供給主機：

這個案例描述了一個分布式 MNIST 分類器的示例，在這個例子中，TensorFlow 允許定義一個三台機器的集群，一個用作參數服務器，另外兩個用作獨立批量訓練數據的 worker。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 『TensorFlow』分布式訓練_其三_多機分布式使用tensorflow的retrain.py訓練圖片分類器『TensorFlow』分布式訓練_其一_邏輯梳理級聯分類器訓練分布式訓練 TensorFlow Distribution(分布式中的數據讀取和訓練) 【TF-2-5】Tensorflow-分布式訓練 [翻譯] 使用 TensorFlow 進行分布式訓練分類器訓練結果之混淆矩陣分析 opencv_haar分類器的訓練