原文:阅读AuTO利用深度强化学习自动优化数据中心流量工程(一)

Sigcomm AuTO: Scaling Deep Reinforcement Learning for Datacenter Scale Automatic Traffic Optimization 目录 问题 解决方法 模型选择 框架构建 问题 主要问题:流量算法的配置周期长,人工配置难且繁复。人工配置的时间成本大,人为错误导致的性能降低。 要计算MLFQ的阈值参数是很麻烦的事情,先前有人构 ...

2018-12-02 21:42 0 677 推荐指数:

查看详情

深度强化学习——TRPO

TRPO 1.算法推导 ​ 由于我们希望每次在更新策略之后,新策略\(\tilde\pi\)能必当前策略\(\pi\)更优。因此我们希望能够将\(\eta(\tilde\pi)\)写为\(\eta ...

Fri Sep 10 22:33:00 CST 2021 0 191
【基于模型的强化学习】论文阅读

强化学习传说:第五章 基于模型的强化学习 无模型的方法是通过agent不断探索环境,不断试错,不断学习,因此导致了无模型的方法数据效率不高。而基于模型的方法则相反,它能够充分利用已有的模型,高效地利用数据。 简单的思路: 先训练得到环境模型,再利用规划求解。但是本来专家算法就是这么做 ...

Sun Mar 13 00:22:00 CST 2022 0 765
深度学习强化学习的关系

强化学习是一个连续决策的过程,传统的机器学习中的有监督学习是给定一些标注数据学习一个好的函数,对未知数据做出很好的决策。但有时候,并不知道标注是什么,即一开始不知道什么是“好”的结果,所以RL不是给定标注,而是给一个回报函数,这个回报函数决定当前状态得到什么样的结果(“好”还是“坏 ...

Thu Jul 19 05:44:00 CST 2018 0 3170
深度强化学习方向论文整理

一. 开山鼻祖DQN 1. Playing Atari with Deep Reinforcement Learning,V. Mnih et al., NIPS Workshop, ...

Sun Sep 30 07:47:00 CST 2018 0 2459
深度强化学习——ppo(待重写)

PPO abstract PPO通过与环境交互来采样数据和使用随机梯度上升优化"替代"目标函数之间交替使用。鉴于标准策略梯度方法对每个数据严格不能执行一次梯度更新,本文章提出了一个新的目标函数,该函数支持多个epochs的小批量更新。 Introduction 本文使用的算法在仅使用一阶 ...

Fri Oct 08 01:43:00 CST 2021 0 119
深度强化学习——GAE(待重写)

估计值的偏差。通过对策略和值函数使用置信域的方法来解决第二个问题。 Introduction 强化学习 ...

Fri Oct 08 01:38:00 CST 2021 0 110
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM