閱讀AuTO利用深度強化學習自動優化數據中心流量工程(一)

本文轉載自查看原文 2018-12-02 21:42 677 Paper Reading

Sigcomm'18

AuTO: Scaling Deep Reinforcement Learning for Datacenter-Scale Automatic Traffic Optimization

問題

主要問題：流量算法的配置周期長，人工配置難且繁復。人工配置的時間成本大，人為錯誤導致的性能降低。

要計算MLFQ的閾值參數是很麻煩的事情，先前有人構建了一個數學模型來優化這個閾值，在幾個星期或者幾個月更新一次閾值，更新周期過長。

可以使用DRL(Deep Reinforcement Learning)的方法根據環境自動配置(決策)算法參數，減少人工配置的時間成本，減少人為錯誤導致的性能降低。

基於主流框架TensorFlow或是pytorch等框架的的DRL難以掌控TO(traffic optimization)的小流（速度過快）

使用DRL優化時遇見的問題：DRL配置TO時，由於小流通過速度大於配置下發的速度，所以來不及下發配置。

優化的算法：采用 Multi-Level Feedback Queueing(MLFQ)來管理流。第一級別的隊列為小流，所有流初始化為小流。當流的大小超過閾值時，判定為大流，在隊列中被降級到第二隊列。可以有k個隊列，按照流的不同級別分在不同的隊列當中。

決策參數：基於比特數和閾值來對每個流做出決策，判定流屬於第幾級別的隊列。

評價參數：當一次流處理完成時，計算一個比率，比率為本次的吞吐量與前一次的吞吐量之比。吞吐量Sizef（流長）與FCT(Flow completion time)之比。

使用DRL優化：使用強化學習優化閾值。根據結果反饋調整閾值的設定。

狀態和獎勵返回是隨機的馬爾科夫過程

公式一

公式一的改進：公式二

算法主要使用公式二

算法

論文從強化學習的算法PG講到DPG再講到DDPG，最后使用了DDPG。

經過查詢資料，DDPG使用了深度神經網絡，並且針對的是決策值為連續的情況，而參數值的變化又是連續的，所以使用DDPG較為合適且有效。

當一次流處理完成時，計算一個比率，比率為本次的吞吐量與前一次的吞吐量之比。吞吐量Sizef（流長）與FCT(Flow completion time)之比。

模型組成：

邊緣系統

有一個MLFQ，首級隊列為小流，當流超過閾值，判定為大流，在隊列中被降級。

邊緣系統分為增強模塊和探測模塊。

中心系統

其中的DRL有兩個agent：

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 深度強化學習——TRPO 【基於模型的強化學習】論文閱讀【推薦算法工程師技術棧系列】機器學習深度學習--強化學習深度學習和強化學習的關系深度強化學習方向論文整理深度強化學習——ppo(待重寫) 深度強化學習——GAE(待重寫) 主編推薦深度學習和強化學習在組合優化方面有哪些應用？論文：利用深度強化學習模型定位新物體(VISUAL SEMANTIC NAVIGATION USING SCENE PRIORS) OM | 哥大開源“FinRL”: 一個用於量化金融自動交易的深度強化學習庫