【文章推薦】強化學習在美團“猜你喜歡”的實踐

原文：強化學習在美團“猜你喜歡”的實踐

概述猜你喜歡是美團流量最大的推薦展位，位於首頁最下方，產品形態為信息流，承擔了幫助用戶完成意圖轉化發現興趣並向美團點評各個業務方導流的責任。經過多年迭代，目前猜你喜歡基線策略的排序模型是業界領先的流式更新的Wide amp Deep模型。考慮Point Wise模型缺少對候選集Item之間的相關性刻畫，產品體驗中也存在對用戶意圖捕捉不充分的問題，從模型特征入手，更深入地理解時間， ...

2018-11-16 16:47 1 918 推薦指數：

查看詳情

美團深度學習系統的工程實踐

背景深度學習作為AI時代的核心技術，已經被應用於多個場景。在系統設計層面，由於其具有計算密集型的特性，所以與傳統的機器學習算法在工程實踐過程中存在諸多的不同。本文將介紹美團平台在應用深度學習技術的過程中，相關系統設計的一些經驗。本文將首先列舉部分深度學習算法所需的計算量，然后再介紹為滿足 ...

美團技術分享：美團深度學習系統的工程實踐

更多美團技術分享收藏：MAYOU18-美團技術專欄背景深度學習作為AI時代的核心技術，已經被應用於多個場景。在系統設計層面，由於其具有計算密集型的特性，所以與傳統的機器學習算法在工程實踐過程中存在諸多的不同。本文將介紹美團平台在應用深度學習技術的過程中，相關系統設計的一些經驗 ...

強化學習總結

強化學習總結 強化學習的故事 強化學習是學習一個最優策略(policy)，可以讓本體(agent)在特定環境(environment)中，根據當前的狀態(state)，做出行動(action)，從而獲得最大回報(G or return)。有限馬爾卡夫決策過程馬爾卡夫決策過程理論 ...

強化學習——入門

強化學習： 強化學習作為一門靈感來源於心理學中的行為主義理論的學科，其內容涉及概率論、統計學、逼近論、凸分析、計算復雜性理論、運籌學等多學科知識，難度之大，門檻之高，導致其發展速度特別緩慢。一種解釋：人的一生其實都是不斷在強化學習，當你有個動作（action）在某個狀態 ...

強化學習（MATLAB）

1. 定義機器學習算法可以分為3種：有監督學習（Supervised Learning）、無監督學習（Unsupervised Learning）和強化學習（Reinforcement Learning）。強化學習（Reinforcement Learning, RL），又稱再勵學習、評價學習 ...

什么是強化學習？

Reinforcement learning 是機器學習里面的一個分支，特別善於控制一只能夠在某個環境下自主行動的個體 (autonomous agent)，透過和環境之間的互動，例如 sensory perception 和 rewards，而不斷改進它的行為。聽到強化學習 ...

強化學習雜談

強化學習從入門到放棄目錄 強化學習從入門到放棄雜談 MDP MP MRP Bellman Equation MDP ...

強化學習之CartPole

0x00 任務通過強化學習算法完成倒立擺任務，控制倒立擺在一定范圍內擺動。 0x01 設置jupyter登錄密碼 jupyter notebook --generate-config jupyter notebook password （會輸入兩次密碼，用來驗證 ...

原文：強化學習在美團“猜你喜歡”的實踐

相關推薦

相關標簽