基於MaxCompute+PAI的用戶增長方案實踐


簡介: 如何通過PAI+MaxCompute完成用戶增長模型AARRR全鏈路,包含拉新、促活、留存、創收、分享。

本文作者 李博 阿里雲智能 高級產品專家

在過去一年阿里雲PAI機器學習團隊做了很多偏業務的實踐,其中有一條就是基於 MaxCompute+PAI的產品方案實踐,解決客戶遇到用戶增長相關的問題。本文主要分享,阿里雲團隊在用戶增長領域的一些探索和實踐。希望可以通過本次分享給大家在用戶增長方面帶來一些幫助。

一、用戶增長模型

AARRR

用戶增長更多的是針對互聯網類型的公司,互聯網客戶的業務本質上都是在解決用戶增長的問題。用戶增長從業務角度講有很多的模型。今天主要針對AARRR用戶增長模型進行講解。

互聯網APP運營同學應該是非常熟悉AARRR模型,這個模型是把整個互聯網產品的用戶增長做為一個環狀結構,首先最上方是對業務比較重要的拉新,拉新對應到業務指標是訪問、下載、注冊、關注。之前幾年拉新是非常火,是因為互聯網用戶紅利還在。但現在中國互聯網用戶已經到了一個天花板,那我們的產品該如何增長,就對下面幾部分尤為重要。比如現在小說類的APP是比較火的,因為當我們用戶量不能增長的時候,做用戶時長的增加尤為重要,所以小說業務有助於拉長用戶在APP里面的停留時長。促活的指標是登錄、點擊瀏覽、停留時長。接下來就是留存,當我們沒有辦法獲取新用戶的時候,我們要嘗試把我們的不活躍用戶和流失用戶召回。MaxCompute+PAI在留存方面有很多經典案例存在。互聯網APP怎樣基於流量和用戶行為進行創收,這部分在AI領域也可以做很多工作。裂變型的APP會更加關注分享指標。

那在整個AARRR用戶增長模型里面,MaxCompute+PAI能在哪個模塊里面能做哪些工作?能給客戶帶來哪些價值?

1.png

MaxCompute+PAI業務支撐架構

MaxCompute+PAI做為底座支撐用戶增長,產品架構如下圖。

從計算引擎層是 MaxCompute,計算引擎之上就是AI的場景,我們重點介紹的是基於PAI機器學習的AI能力來賦能用戶增長的業務場景。首先我們提供了開放框架,可以基於TensorFlow\PYTorch,SQL\PYSpark\Spark開發自己的算法模型。再上面的產品層就是PAI機器學習的產品體系,整個產品體系也做為我們一個業務的支撐,包括PAI-DLC(雲原生深度學習運行環境)可以把自己的code訓練腳本打包成一個鏡像包在DLC內運行、PAI-Studio(可視化建模)會將用戶增長領域相關的算子做成模塊化經過簡單的拖拽,就可以來做整個用戶增長的模型訓練、PAI-DSW(交互式建模)對於技術能力比較強的開發者,可以自己開發相應的腳本,而不是使用我們封裝好的腳本、PAI-EAS(模型在線服務)可以把studio和DSW生成的模型生成一個RESTful API,再通過HTTP請求的方式調用該服務。生成的RESTful請求就可以支撐解決方案,包括廣告RTA解決方案、廣告DSP方案、智能推薦方案、用戶 召回方案、LTV計算方案。解決方案最終是要解決用戶增長問題,包括拉新、促活、留存、創收、分享。

2.png

二、MaxCompute+PAI用戶增長分類目詳細方案

用戶增長-拉新

當前通過廣告拉新依然是互聯網客戶的一個核心重要的手段。在廣告行業有一個比較流行的方案是RTA。在RTA方案里MaxCompute+PAI的作用是什么呢。首先看下RTA的原理,過去一個APP想要拉新用戶,會把錢投放給DSP廣告投放平台,由平台去圈選用戶進行競價。那RTA做了一件事情,就是當廣告主希望能控制一些DSP人群,之前是沒有辦法的,在RTA技術支持下,開放一個接口,每一次廣告平台在圈選用戶時,會請求一個模型,這個模型的作用就是告訴平台,這個用戶要不要。那MaxCompute+PAI就可以幫客戶生成這樣的模型。

通過MaxCompute做數據清理,通過PAI做競價模型的訓練,通過模型篩選值得投放的用戶。

核心優勢

1.強大的數據計算能力:MaxCompute提供PB級別的數據計算能力。

2.豐富的算法:PAI提供LR、GBDT等經典機器學習算法,同時也提供DeepFM、MultiTower等深度學習算法。

3.png

用戶增長-促活

在新用戶都比較少的情況下,我們希望存量客戶能在我們平台上面瀏覽時長增加,更多的點擊。打開一個互聯網APP,70%以上的APP都有一個feed流推薦也可以叫相關性推薦,這個系統推薦率准確的高低是影響用戶在平台上面的活躍度。如果推薦的內容都是用戶喜歡看的,喜歡瀏覽的,會天然的增加平台上面的點擊量,並且停留時長會增加。比如業內比較火的短視頻APP,其實都是有比較好的個性化推薦系統。那么怎么基於MaxCompute+PAI構建一套推薦系統。如下圖所示可以基於MaxCompute+PAI+DataWorks+Hologres+Flink做一套相關性推薦系統。更加具體信息可參考文章:PAI平台搭建企業級個性化推薦系統

做好一個推薦系統首先需要一個線上的服務模塊,服務模塊可以分為多路召回、過濾、排序、冷啟動。召回模塊是做一個粗篩,比如一個用戶進來,我們平台存量有1000萬個商品,拿這個用戶跟1000萬個商品去做比對,其實計算量非常大。那召回就是我先粗篩一下,比如選出幾百個商品,這個時候我再做這個用戶對這幾百個商品的排序,整個計算的復雜性就會變的非常低。

那召回跟排序這兩個模型怎么用MaxCompute+PAI訓練出來?從架構圖上來看,最底層我們要把用戶的行為日志、用戶畫像數據、物料屬性數據這三個核心的表,上傳到MaxCompute中,利用DataWorks針對表做一個特征加工,加工出訓練樣本、用戶特性數據、物料特征數據。接下來進入到PAI-Studio,一個內置的建模平台,里面內建了大量推薦領域的算法,比如PAI-EasyRec、GraphLearn、Alink。我們利用PAI-Studio里面的召回算法,生產一些基礎的召回表,比如u2i、i2i、c2i,把這些結果放到Hologres里面,這個我們可以把多路召回服務跟Hologres做一個關聯,解決了我們召回模型訓練的問題。

排序服務可以在PAI-Studio里面選擇排序算法,生產排序模型,排序模型可以部署到PAI-EAS里面,變成一個RESTful API,這樣排序模塊就可以請求排序模型的RESTful API,生產一個實時的排序結果返回。

經過我們的多路召回,把一些重復的商品過濾掉,在進行排序,就可以拿到一個TopN推薦列表。就可以展示到APP的feed流里面。那MaxCompute+PAI的價值就是完成整個排序業務的數據處理以及模型訓練。這一整套相關性推薦系統,會有效提升我們APP里feed流的CTR、CVR的轉化率,幫助APP提升用戶的活躍度和停留時長。

4.png

用戶增長-留存

當一個APP的存量用戶做到百萬、千萬、上億時,在數據庫中存放大量歷史用戶,但是又有一段時間沒有使用APP的用戶。所以當下互聯網拉新困難的情況下,我們需要對“沉睡”用戶和流失用戶做一個召回。當前互聯網行業比較流行的方案還是通過短信召回,因為短信沒有打電話的局限性,也不會像push那樣被攔截。針對短信來講,觸達用戶的效果和概率還是比較高的。

基於MaxCompute+PAI已經對很多行業用戶,如小說、社交、游戲等行業,構建了流失用戶短信召回解決方案。

大體的做法就是把用戶埋點數據存到MaxCompute中,通過DataWorks做特征加工,用PAI機器學習平台訓練一個流失用戶召回模型,之后就可以針對已有的存量用戶做一次預測,預測出哪些存量用戶當用短信觸達時,回到APP的概率比較高,這樣我們就可以只針對這部分高概率用戶進行短信召回,這樣可以節省我們的召回成本,並且提升我們的召回率。

客戶案例

客戶為一家陌生人社交APP,庫內有近千萬級別的沉睡用戶。通過短信實現流失用戶的召回。

PAI核心價值:

用了PAI之后百萬條短信召回比例從3%提升至8%,效果提升267%,變相降低成本2倍左右。

5.png

用戶增長-LTV分計算&分享分計算

通過PAI+MaxCompute構建分數預測模型,可以對LTV分、分享概率分進行預測。

當APP通過廣告帶來一個用戶時,都會關心這個用戶會不會付費,或者說產生的APP值有多少。有的客戶需要在新用戶進來的同時,計算出未來這個用戶在APP上的消費情況是多少。如果這個用戶是一個高價值用戶,那就需要通過優惠券或者補貼的的方式來進行用戶激活。我們提供了LTV方案,舉個例子,比如一個APP的新用戶,我們怎么計算他的LTV分呢?

找一個第三方的數據源,因為新用戶在APP內還沒有任何行為日志產生。MaxCompute+PAI會提供一套聯合建模的方案,符合可信計算標准。也就是說用戶數據和第三方數據不會有任何接觸,兩方數據可以聯邦建模,在PAI內生成模型,這個模型可以對每一個新用戶進行LTV打分,針對LTV分指導后續運營活動。

客戶案例

場景介紹:客戶是一家小說平台,對於純新用戶,需要做30天內購買VIP服務的預測。以便在用戶還幾乎沒有什么行為時,能夠對用戶未來購買VIP的行為進行預測,可以讓新用戶運營有的放矢,提高運營效率。

對於純新用戶購買VIP判斷准確率提升明顯,圈選出40%左右的用戶作為訓練數據,聯邦建模生成的模型就可以將67%的會自然購買VIP的會員識別出來,提高67.5%的運營效率(和隨機圈選用戶進行比較)。

6.png

三、實操介紹-流失用戶召回

數據上傳到MaxCompute

通過MaxCompute的Tunnel命令上傳數據到項目中:tunnelupload{file}{table};

文檔鏈接:https://help.aliyun.com/document_detail/196187.html

 

7.png

構建Workflow

進入PAI-Studio完成workflow的構建。

8.png

構建訓練樣本:7天不登錄的作為流失用戶

通過篩選注冊日期和最后一次登錄時間可以確定哪些用戶是7天不登錄用戶。

特征加工

通過加工把數據變成結構化數據。

9.png

One-hot編碼

One-Hot編碼可以將類別變量轉換為機器學習算法易於使用的形式,經過One-Hot轉換后的格式如下圖所示。

10.png

模型訓練和評估

進行邏輯回歸的模型訓練,PAI平台上有幾十種的分類模型,判斷發短信是否能召回可以定義為二分類問題,yes/no。可以使用二分類算法,進行模型訓練。邏輯模型訓練完后,我們把一部分數據做為測試數據,就能獲取到模型效果。我們在二分類評估下面生成一個模型評估報告。ROC值的面積越大說明模型效果越好。

11.png

模型預測

生成完模型后,我們可以把模型部署成RESTful服務,供業務方或者是運營同學去調用。調用格式如下圖所示:

本文為阿里雲原創內容,未經允許不得轉載。
 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM