**本文來自騰訊雲技術沙龍,本次沙龍主題為在線教育個性化教學技術實踐 **
演講嘉賓:譚安林,騰訊高級工程師。2015年加入騰訊,8年互聯網從業經歷,從事大數據平台與產品開發相關工作;先后參與廣告、金融等領域產品項目,目前負責行為預測解決方案,幫助客戶盤活現有客群、挖掘潛在高價值新客。目前我們的產品包括:智能客服、大數據套件、騰訊移動分析、騰訊移動推送等。
今天我分享的是在騰訊雲在大數據對用戶行為預測這個項目中,有關教育行業的一些實踐,希望可以給大家帶來一些幫助。這一年我們所做的是用戶行為預測解決方案,針對教育行業定制一些行為分析和預測,希望可以幫助大家更好地借助於數據。大數據對外開放有兩個模式。第一個模式是平台技術,我們會將大數據的能力開放到雲端給大家使用,比如騰訊大數據框架。第二個模式,我們考慮到對內數據服務的能力模型,復制對外,為大家提供一些有針對性的行業服務。
中國的網友有8億之多,98%的用戶群使用移動互聯網。2017年始,月活的移動設備數量穩定在12億左右,新增紅利在漸漸消失。深挖存量的大盤用戶價值,有兩方面的考慮:一方面,我們希望給整個大盤的存量用戶提供更有針對性的個性化服務、產品和推薦;同時針對各個行業,挖掘出大盤用戶的價值,為行業帶來數據上的增長。
我們以前做過智能推薦,在金融領域進行用戶逾期行為預測的開放,在相關的反欺詐、風控場景中進行使用。在教育行業,隨着技術的發展以及產品的日漸豐富,整個教育行業的用戶增長是很可觀的。在未來幾年,教育行業會持續發力,我們也希望可以在這方面做一些事情。
用戶行為預測幫大家解決的問題有哪些?從運營的角度考慮,獲取潛在客戶的環節,可以幫大家了解誰是你的用戶,哪個平台適合做精准化營銷。獲取用戶之后,我們會分析哪個用戶價值比較高,更容易付費轉化。我們可以做這樣的識別,哪些用戶在一定的生命周期后會流失,我們要做出流失預警以提前干預,而不是等到流失后再干預,這時候已經來不及了。
我們的產品運營會貫穿數據化的工作,從用戶引流開始,到判斷用戶來源渠道是好還是壞、用戶的價值是高還是低、提升轉化效果等。這就說明產品要做大,必然需要一些潛在的客戶,將當前用戶的盤子進一步擴大。其中涉及到的數據分析服務,主要可以分為三個方向:
- 新用戶的預測,即新增用戶。
- 留存用戶,即當前使用產品的用戶。
- 潛在用戶。
現在市場上的移動分析,也需要相應的工具。例如上面提到的三個方向,我們要做數據化的運營,首先要明白運營指標、目的是什么,從而把這個指標轉換成數據的指標。比如每天的轉化率,我們會推動終端做數據的采集、APP的打點,將數據分析和數據開發通過相應的報表進行呈現。整個過程中,不管是我們自研還是用外界的工具,比如雲盟和騰訊分析等,我們都可以直觀地看到一個產品運營的情況。但是要做深入挖掘,判斷哪一個用戶有價值,這肯定是不夠的。我們還要進行標簽的建設、模型的建設,判斷應該構建哪些標簽、哪些模型。最終構建的標簽和模型都需要落地去做數據產品,做到可視化,使我們的運營、產品所見即所得,找到一個比較好的運營方向。
在整個實施過程中,我們也了解到,無論是教育行業、金融行業或其他電商行業都面臨同樣的問題。數據在終端收集之后,我們要落地到標簽系統,生成標簽。這個環節會非常困難,首先我們要聯動很多崗位的同學,從產品到終端開發、后端開發,以及數據分析、算法等等。大家的KPI是不一致的,運營同學主要是做數據增長,后台、終端同學更多傾向於做出新功能和並維護舊功能的穩定性。這樣的數據需求提給他們,你說要打一個點,很有可能很小的事情會做到一個月甚至是半年以后。這里存在一個應用難的問題。
同時還有一個問題,對於新用戶或APP已經留存的用戶,基於我們數據采集的方式獲取到的數據非常少。少到什么程度?可能只有幾條。這些行為的數據是付費轉化的數據,但你也不知道還需要哪些其他的數據。這時數據很少,很難刻畫一個用戶是不是高價值,是不是容易被轉化。即使構建了標簽系統,還需要另一批人去建模,需要四五個人或十幾個人做模型分析。選擇哪個模型,判斷哪些特征有效,模型構建完成以后還要去運營、落地、實驗,這時候還需要進行實驗的工具,整個過程是很復雜的。
用戶行為預測項目的出發點在於標簽建設和模型建設這兩部分。化繁為簡地說,我們希望做到的是我們來提供API,大家來上傳行為數據,我們再進行落地的簡化。大家不需要做標簽建設和模型建設,我們可以直接預測用戶的付費評分、轉化評分,以及一周內是否會流失的預警。在簡化落地這部分,如果大家聯動開發、算法、分析一起做這個數據產品,需要20個人甚至更多。但在使用這個產品之后,只需要兩個人去做這件事。一個人開發API,接入數據;另外一個人使用這個系統做運營。同時,我們也提供小步實驗的工具。
下面我來介紹一下騰訊雲對於用戶的刻畫,主要分為五個方面,包括人口屬性、社會屬性、用戶消費、用戶行為、興趣偏好。大家在報考駕照時可能關注點不太一樣,有些人希望周期較短,有些人希望便宜一點,有些人希望教練不要罵人。我們可以通過標簽,刻畫不同用戶的分群,針對這些分群做一些定制化的營銷。特別是針對教育行業,我們可以把一個群體分為七天內流失可能性是高危、一般還是低流失的不同分群,進行一些有針對性的運營策略。接入的方式是圍繞用戶行為進行接入,獲取用戶接入第一方的數據后提供模型,或從行為中抽取樣本再進行建模。在這個過程中,系統會提供一鍵預測的功能,客戶直接在系統上進行操作即可。預測出的結果可以截取下來進行自己的運營實驗,我們最后也會根據用戶行為進行跟蹤。在市場上有一些行為跟蹤的產品,它們要求的是效果反饋,需要有一些KPI。我們根據純粹上報的KPI做變化跟蹤,直觀地看出哪個策略好、哪個策略差。
剛剛提到三個方面的服務,第一方面是對留存用戶,第二方面是對新增用戶,第三方面是幫助大家挖掘潛在用戶。先來看一下留存用戶,也就是現在已有的用戶,這種場景比較好的地方就是第一方數據相對較多,我們的模型會比新增用戶的模型更好。主要分為以下四個部分,一是數據管理,數據管理不僅是第一方數據,也包括互聯網大盤的脫敏數據,我們會有針對性地進行融合。第一方的數據是注冊信息、設備信息、行為信息,比如用戶登錄的時間、瀏覽的頁面。這些信息接入進來后,我們會進行概覽性的分析,比如每天的PV、UV分別是多少。同時我們也會對每一條數據進行質量評估,因為每一個字段的完善度都會影響模型的效果,如果完善的話,模型將在0.8以上;如果不完善則會在0.7到0.8;如果特別差的話,模型就不能被使用。
第二是留存預測。我們可以提取一段時間內的用戶包進行預測,預測模型可以是多種,根據多種需求可以自定義、也可以進行增加,當前的預測主要是流失、付費、逾期還款等。在預測出來后會出現一個概率的分值,可以根據概率分值將它自定義分成幾個分組,也就是分群。例如在付費的模型中,付費轉化率高的人,我們稱為高付費,次之是較高付費。我們可以在這個基礎上再進行分群的洞察,在這個分群洞察市場上有很多移動分析的軟件,但是它們提供的畫像很有可能是通用型的,甚至對於某個群體是沒有顯示度,也就是沒有顯著性的。我們針對不同的行業,特別是教育行業,有着自己的行業定制標簽,比如教育關注度、教育堅持度這樣一些畫像,能夠有效地展示其中的群體形態。如果你發現這部分人群有怎樣的畫像特點,在之后進行廣告投放時可以咨詢一下廣告投放平台,支不支持這些標簽的投放。如果可以的話,就可以實現精准投放。
再來介紹一下我們分群所用的標簽。我展示出來的是兩個畫像,一個是教育關注度,一個是教育堅持度。首先介紹一下圖表,圖表上207這個數字,表示的是TGI的相對顯著性,數字越高表示這個特征和它所對應的分子越大,也就是正相關性越高。這個數字大於100表示正相關,小於100就是負相關,數字越小就表示負相關越大。教育關注度越高的這些人付費意願就會更強。教育關注度就是根據客戶在大盤教育類的咨詢,以及周邊產品的關注程度聚合出來的畫像。
再來看教育堅持度,它的表現也是一樣的,越能堅持的人,越願意付費。在這里教育堅持度我們怎么刻畫的呢?他持續使用大盤里某類或全部的教育產品,這種持續的時間投入,我們稱之為教育的堅持度,這是由很多特征聚合出來的畫像。
剛剛看到的是行業的標簽,我們構建的標簽分成了通用標簽、行業標簽、場景標簽以及個性化標簽。這里是通用標簽,通用標簽就是游戲的沉迷度,比如說在游戲上消耗的時間和周期,可以根據這些行為進行刻畫。我們發現它的顯著性和教育關注度不一樣,越沉迷游戲的人,付費的可能性就越低。在自我驅動力上面,他會自己驅動自己做一些相關的學習、收藏,屬於比較有自發性行為的數據。這種數據可以刻畫出越上進的人,越可能會付費。
這是一個實驗項目的跟蹤展示,上面是測試數據,不是真實的數據。我們的實驗包括兩種實驗,一是人群對比,將較高付費的人群及高付費人群做同一個策略實驗。我們可以打電話營銷、發短信營銷,甚至可以建群為他們進行針對性的服務。在這些方式下,可以得出哪種人群轉化率更高,哪種策略更適合哪個人群。第二是策略對比,針對較高付費的群體,我們進行剛剛三個策略實驗,就可以看出哪個策略對這部分人的效果更好,在具體的運營實驗上花更少的成本,去體驗整個實驗的效果。
第二個方向是新增用戶。新增用戶為什么放在留存用戶后面講呢?因為這部分可以獲得的數據更少。我們可以獲取到留存用戶的一些行為數據,但新增用戶可能只有手機號、設備環境信息和相應的價值信息。我們可以做到的是新增預測,提供單獨的API服務。它的應用場景主要是有兩個點,一是渠道質量的預估,為什么是預估呢?我們在運營中會面臨一個問題,投放廣告、投放營銷預算應該選擇哪個渠道?評估一個渠道的好與壞有兩種方式,一是咨詢別人,這種方式並不可靠。第二是進行實驗,在一周、兩周、一個月之后,觀察這個渠道的付費轉化率是多少、流失情況是多少。我們對模型進行了預測,這時就可以把渠道的質量預估提前,如果預測出某個渠道的質量非常差、轉化效果也很差,這時就可以把營銷預算往好的渠道上面傾斜,在后期完全可以進行對比。
還有一種情況,我們在投放廣告的時候,因為廣告的素材偏差引進來的人不是目標用戶,導致營銷預測浪費。假設我們在三個渠道都投放了營銷素材,三個渠道質量的預估從原來都很高的預估率同時降低了,這就有理由懷疑是素材的問題,可以進行素材上的調整。同時還可以進行新增的預測,根據它的閥值進行自定義的實驗。我們的跟蹤數據會反饋到模型訓練中做一個迭代的優化。
潛客挖掘這部分是很多人都關心的。一開始我們並沒有想做這部分,以前一直在做廣告,通過廣告挖掘新增客戶。無論是教育行業還是金融行業,都有這種需求。為了獲取更多的客戶,有可能是口口相傳,有可能要投一些預算做廣告。潛客預算有兩種模式,第一種是從其他渠道拿到你認為有潛在價值的用戶包,第二種是在互聯網大盤里做一個預測,哪些人可能會是潛在用戶,而第二種方式只會在騰訊雲內部的廣告投放平台上進行流通。我們把挖掘潛客分成兩類模型,一種是和留存新增類似的分類模型,一種是Lookalike。如果我們以到站這種方式作為目標,其實你不知道誰沒到站,你只知道到站的是誰,這里是沒有負樣本的,所以我們需要用Lookalike的方式。我們對潛客的跟蹤有相應的解決方案,可以跟蹤到潛客包轉化效果,從而進行進一步的運營嘗試。
下面為大家介紹一下Lookalike,Lookalike是將其轉化為一個二分類。以到站的方式為例,到站的人我們認為他是種子用戶,但我們不知道沒有到站的人是誰,只能在大盤里將到站的用戶剔除掉,其他的作為一個盤,其中隨機抽出一部分作為復例。最后進行模型訓練時,提取的就是我們潛在的用戶包。這里面臨的問題是什么呢?負樣本中很有可能包含正樣本即某些實際上是潛在用戶的人,隨機性抽樣很難保證准確性。這里我們也通過標簽抽取的方式進行實驗,比如先對種子用戶進行畫像分析,發現他的教育程度高、教育關注度高、堅持度高,這類人就是潛在客戶。相反,關注度低、堅持度低的人,是不是一定就是負樣本呢?這種方式可能會導致整個模型泛化效果比較差。實際上,我們是將種子用戶抽取出來一部分,放到負樣本混合后進行建模,在建模后就可以看到負樣本中混合的種子用戶的概率分布。
假如我們發現它的概率分布在0.42以上,我們就有理由相信0.42%以下是比較高質量的負樣本,再將正負樣本拿進去做第二次真實的訓練。訓練的過程中可能會遇到一些問題,我們在教育行業用了800多維的維度,整體的維度有三四千。這里面臨特征拼接的問題,不管是留存、新增還是潛客,或者是付費、流失場景包的模型,每一個模型所需要的特征是不一樣的,它們都是動態的、個性化的。這里需要有一個特征拼接的過程,我們采用列存儲+SSD進行支持。
大家接觸的數據量比較少,當前幾千萬也是比較常見的。在整個大盤預測上,基礎是幾十例。我們做一個排序,也可以做一些抽樣的預測。比如抽取5000個用戶包,先預測一下這5000個用戶的大概P值,比如說預測出的P值是0.85,在實際預測時就進行閥值的提取,加強整個鏈路的優化。Lookalike的結果會直接與內部廣告平台打通,並在廣告投放后從行為變化跟蹤上觀察投放的效果。
在整體的方向上,我們的預測從數據采集到特征構建、模型集成,最后提供在線化的服務。在數據采集這部分,我們會根據采集到的持續數據構建時序的特征,同時也會將其用到模型中去。
這是一個整體技術架構介紹。因為這是一個數據產品,不像我們常規理解的一個顯然的系統,它是各個環節進行協作,最后進行數據產品的輸出。首先我們在做外部數據接入時,通過騰訊統一的網關STGW將數據放進來,之后通過DFS數據通道存放到消息隊列中。行為數據基於第一方數據的安全,進行了相應的加密和脫敏,我們要進行解密並對每一條數據進行質量的評分。這里有一些質量評分的報警,如果數據可以達到80分,現在一下子變成了60分,我們就需要和客戶溝通,是不是某個環節出了問題,因為它最終會導致模型效果較差,使用的體驗也會比較差。后面我們會將接入進來的數據存放在TDW,各家的數據進行分表存儲,沒有融合在一起。之后再將數據取出來進行計算,進行數據行為概覽相應的指標分析以及行為跟蹤。某一個用戶包的行為變化跟蹤,就是在這里面進行的。
最后我們將這些統計結果、跟蹤階級寫入MySql,通過產品系統提供給用戶進行展現。這里為大家介紹一下我們模型的做法。樣本來自兩個部分,一是行為數據抽取出來,二是通過用戶接口提供或離線提供。我們要融入大盤的特征,大盤特征是分級的,有些特征是按月的、有些是按周的、有些是按天的、有些是實時的。我們有很多節點計算每個不同的特征,當然有些特征會放在一起進行計算,將這些特征放到Hbase中以加快它的訪問。
在具體應用時,客戶提取用戶包后進行模型的預測、分群的洞察。我們提取了用戶包,在預測的時候要先去提取存在Hbase里面的實時數據,觀察它的實時特征。實時特征和離線特征融合起來進行模型的預測訓練,在預測完成后,我們要將一些特征聚合起來形成畫像,最終在頁面上展示給大家。這些也是通過關系型數據庫進行產品的展現支持。
關於我們產品的結構,首先是第一方的數據源。第一方的數據是客戶提供的行為數據,加上內部畫像融合起來進行數據建模的支持。針對用戶上報的數據,我們會自動生成標簽。內部數據也會通過相應的標簽工具,生成通用的行業、個性化、場景的標簽,之后再進行數據建模以及每個用戶的落地,服務落地分為用戶分群、小步實驗、效果閉環。再往下是各個行業的應用,比如教育行業以及金融上面的反欺詐實踐。
第一方的數據完善程度和模型效果有相關性。如果第一方數據比較完善,可以達到0.8到0.9的AUC,它的識別能力非常少。如果數據不太完善,只有50%或者60%的完善程度,AUC會在0.7到0.8之間。如果數據在百分之二三十,甚至沒有第一方數據,那么AUC就在0.7左右。
下圖是教育類預測線上特征庫,我們將其分為四類。每類從上往下是通用、行業、個性化、產品化這四類特征。整個大盤的特征維度有幾千維,教育行業我們用到了800多維。
在第一方數據和安全機制部分,第一方數據,就是某一方面的數據,它對某一方面的模型有直接的影響。在做付費模型的時候,基礎數據APP行為、付費轉化有着直接相關性;在做流失模型的時候,基礎數據和設備相關的信息、APP行為的信息有直接相關性。第一方數據是客戶提供給我們的,無論是金融、電商還是教育,大家都會面臨同一個問題,提供數據會不會存在隱患,我們會不會再將這些數據提供給別人。在安全方面我們分為三個等級,一是數據傳輸上進行加密的支持,即使傳輸的鏈接請求被劫持了,其他人也不知道這個數據到底是什么數據,他只能看到一個密文。二是數據存儲。在存儲用戶數據的時候,按照分表物理存儲,其中不會有融合的問題,也不會將這些數據給另外一個產品使用。三是數據的脫敏。我們針對賬號支持加密,在內容上可以簡單地理解為,假如用戶A看了張老師的數學教程,在這個看的過程中,我們會將張老師的信息由客戶自己定義一個唯一的編號,將這個數學課程也定義成唯一的編號。在這些數據上傳之后,我們拿到的只是編號,而不是張老師、數學這樣的具體信息。取得這個數據后就可以進行模型上的建設,這里我們會將具體的用戶隱私數據過濾掉。
我們的接入方式比較簡單,但也會存在一定的開發量。首先客戶將行為的數據通過API提供給我們,這里的樣本有兩種方式。如果行為數據比較全,我們可以直接進行操作。如果行為數據不太全,或不太符合預期,我們會讓客戶提供一個樣本。數據建模由我們進行支持和處理,客戶可以在產品系統上提取用戶包進行預測、實驗和效果的跟蹤。
Q/A
Q:剛才提到的教育堅持度,如果與某個變量因子相反關系,說明這個人的基礎比較薄弱,是嗎?
A:這不一定,我們也做過這方面的分析。我們發現有些人學歷很高,他們還是堅持去學習,這完全是因人而異的。所以這部分也要看學歷,學歷也是一個因子,但學歷的因子反而沒有這個指標顯著。
Q:關於特征的部分,請問可以公開一些特征嗎?
A:如果合作到一定深度是可以的,但是現在不方便透露。我們的特征也很多也比較細,像通用特征可以通用到各個行業,沒有行業的屬性在里面。
獲取更多詳細資料,請戳以下鏈接:
大數據在教育行業的研究與應用-譚安林.pdf
問答
大數據對人工智能深度學習有何影響?
相關閱讀
王永慶:技術創新改變教育未來
郭卓惺:互動課堂的搭建實例及相關領域應用
楊婷:騰訊雲在線教育解決方案分享
**此文已由作者授權騰訊雲+社區發布,原文鏈接:https://cloud.tencent.com/developer/article/1153719?fromSource=waitui **
歡迎大家前往騰訊雲+社區或關注雲加社區微信公眾號(QcloudCommunity),第一時間獲取更多海量技術實踐干貨哦~