【KDD2018論文】 基於強化學習技術的智能派單模型 閱讀筆記


回顧KDD2017

A Taxi Order Dispatch Model based On Combinatorial Optimization

最大化全局的匹配概率

基於貝葉斯框架來預測用戶目的地

KDD2018

Large-Scale Order Dispatch in On-Demand Ride-Hailing Platforms: A Learning and Planning Approach
MDP+組合優化,value function 與 匹配組合優化的目標函數結合

一、 Learning(離線):序列決策 (Sequential Decision Making) 問題

  • 收集歷史數據中的訂單信息,表示為強化學習中的四元組形式;

  • 使用動態規划求解value function。將價值函數以查找表 (lookup table) 形式保存以供線上使用。

image-20200203181550076

二、 Planning(在線):

  • 收集待分配的司機和訂單列表;

  • 計算每個司乘匹配對應的State-Action Function Q(s,a) ,優化為advantage function A(s,a) ,並以此為權重建立二分圖;

  • 將上述匹配權值作為權重嵌入 KM 算法,充分考慮接駕距離、服務分等因素,求解最優匹配,進入最終派單環節。

image-20200203182509365

image-20200203183723212

三、 Combining(迭代):

步驟 3 迭代重復進行 1 和 2,即根據新積累的數據離線更新價值函數,和使用更新后的價值函數指導派單的過程。

Details

空間分片方式:

一般處理方式都是采用六邊形格子 ( google S2 ) 對地圖進行划分,單獨的格子可能會有稀疏問題,因此可以對相鄰的格子依據供需狀況做聚類,最終作為統一的空間分片。

advantage function的考慮因素:

  • 訂單價格,高價格訂單會更具有優勢,Rγ(j)Rγ(j);
  • 司機位置,司機當前的位置有一個負的影響,−V(si)−V(si),因此,在相同的條件下,司機在更小價值的位置更容易被選擇服務訂單;
  • 訂單目的地,選擇高價值地區的目的地的訂單更有優勢,因為它會有一個更大的V(s′ij)V(sij′);
  • 接乘客的距離,接乘客的距離也會影響advantage function,更長的距離需要更多的時間來接乘客,使得訂單的未來價值降低,總體的值降低。

其他解讀

[1] 滴滴 KDD 2018 論文詳解:基於強化學習技術的智能派單模型

[2] 基於 “ 滴滴 KDD 2018 論文:基於強化學習技術的智能派單模型 ” 再演繹

[3] Dispatching-in-Didichuxing-2

[4] [高效的多維空間點索引算法 — Geohash 和 Google S2](


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM