【KDD2018論文】基於強化學習技術的智能派單模型閱讀筆記

本文轉載自查看原文 2020-02-03 13:14 870 PaperReading/ ML

最大化全局的匹配概率

基於貝葉斯框架來預測用戶目的地

一、 Learning（離線）：序列決策 (Sequential Decision Making) 問題

二、 Planning（在線）：

收集待分配的司機和訂單列表;
計算每個司乘匹配對應的State-Action Function Q(s,a) ，優化為advantage function A(s,a) ，並以此為權重建立二分圖;
將上述匹配權值作為權重嵌入 KM 算法，充分考慮接駕距離、服務分等因素，求解最優匹配，進入最終派單環節。

三、 Combining（迭代）：

步驟 3 迭代重復進行 1 和 2，即根據新積累的數據離線更新價值函數，和使用更新后的價值函數指導派單的過程。

空間分片方式：

一般處理方式都是采用六邊形格子 ( google S2 ) 對地圖進行划分，單獨的格子可能會有稀疏問題，因此可以對相鄰的格子依據供需狀況做聚類，最終作為統一的空間分片。

advantage function的考慮因素：

[4] [高效的多維空間點索引算法 — Geohash 和 Google S2](

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【基於模型的強化學習】論文閱讀 [強化學習論文筆記(3)]:DRQN [強化學習論文筆記(2)]:DoubleDQN [強化學習論文筆記(7)]:DPG ICML 2018 | 從強化學習到生成模型：40篇值得一讀的論文 [強化學習論文筆記(4)]:DuelingDQN [強化學習論文筆記(1)]:DQN [強化學習論文閱讀(9)]:soft Q-learning 多智能體博弈強化學習研究綜述筆記1 多智能體強化學習