譚安林：大數據在教育行業的研究與應用

本文轉載自查看原文 2018-07-03 09:27 2017 教育/ 大數據

演講嘉賓：譚安林，騰訊高級工程師。2015年加入騰訊，8年互聯網從業經歷，從事大數據平台與產品開發相關工作；先后參與廣告、金融等領域產品項目，目前負責行為預測解決方案，幫助客戶盤活現有客群、挖掘潛在高價值新客。目前我們的產品包括：智能客服、大數據套件、騰訊移動分析、騰訊移動推送等。

今天我分享的是在騰訊雲在大數據對用戶行為預測這個項目中，有關教育行業的一些實踐，希望可以給大家帶來一些幫助。這一年我們所做的是用戶行為預測解決方案，針對教育行業定制一些行為分析和預測，希望可以幫助大家更好地借助於數據。大數據對外開放有兩個模式。第一個模式是平台技術，我們會將大數據的能力開放到雲端給大家使用，比如騰訊大數據框架。第二個模式，我們考慮到對內數據服務的能力模型，復制對外，為大家提供一些有針對性的行業服務。

中國的網友有8億之多，98%的用戶群使用移動互聯網。2017年始，月活的移動設備數量穩定在12億左右，新增紅利在漸漸消失。深挖存量的大盤用戶價值，有兩方面的考慮:一方面，我們希望給整個大盤的存量用戶提供更有針對性的個性化服務、產品和推薦；同時針對各個行業，挖掘出大盤用戶的價值，為行業帶來數據上的增長。

我們以前做過智能推薦，在金融領域進行用戶逾期行為預測的開放，在相關的反欺詐、風控場景中進行使用。在教育行業，隨着技術的發展以及產品的日漸豐富，整個教育行業的用戶增長是很可觀的。在未來幾年，教育行業會持續發力，我們也希望可以在這方面做一些事情。

用戶行為預測幫大家解決的問題有哪些？從運營的角度考慮，獲取潛在客戶的環節，可以幫大家了解誰是你的用戶，哪個平台適合做精准化營銷。獲取用戶之后，我們會分析哪個用戶價值比較高，更容易付費轉化。我們可以做這樣的識別，哪些用戶在一定的生命周期后會流失，我們要做出流失預警以提前干預，而不是等到流失后再干預，這時候已經來不及了。

我們的產品運營會貫穿數據化的工作，從用戶引流開始，到判斷用戶來源渠道是好還是壞、用戶的價值是高還是低、提升轉化效果等。這就說明產品要做大，必然需要一些潛在的客戶，將當前用戶的盤子進一步擴大。其中涉及到的數據分析服務，主要可以分為三個方向：

新用戶的預測，即新增用戶。
留存用戶，即當前使用產品的用戶。
潛在用戶。

現在市場上的移動分析，也需要相應的工具。例如上面提到的三個方向，我們要做數據化的運營，首先要明白運營指標、目的是什么，從而把這個指標轉換成數據的指標。比如每天的轉化率，我們會推動終端做數據的采集、APP的打點，將數據分析和數據開發通過相應的報表進行呈現。整個過程中，不管是我們自研還是用外界的工具，比如雲盟和騰訊分析等，我們都可以直觀地看到一個產品運營的情況。但是要做深入挖掘，判斷哪一個用戶有價值，這肯定是不夠的。我們還要進行標簽的建設、模型的建設，判斷應該構建哪些標簽、哪些模型。最終構建的標簽和模型都需要落地去做數據產品，做到可視化，使我們的運營、產品所見即所得，找到一個比較好的運營方向。

在整個實施過程中，我們也了解到，無論是教育行業、金融行業或其他電商行業都面臨同樣的問題。數據在終端收集之后，我們要落地到標簽系統，生成標簽。這個環節會非常困難，首先我們要聯動很多崗位的同學，從產品到終端開發、后端開發，以及數據分析、算法等等。大家的KPI是不一致的，運營同學主要是做數據增長，后台、終端同學更多傾向於做出新功能和並維護舊功能的穩定性。這樣的數據需求提給他們，你說要打一個點，很有可能很小的事情會做到一個月甚至是半年以后。這里存在一個應用難的問題。

同時還有一個問題，對於新用戶或APP已經留存的用戶，基於我們數據采集的方式獲取到的數據非常少。少到什么程度？可能只有幾條。這些行為的數據是付費轉化的數據，但你也不知道還需要哪些其他的數據。這時數據很少，很難刻畫一個用戶是不是高價值，是不是容易被轉化。即使構建了標簽系統，還需要另一批人去建模，需要四五個人或十幾個人做模型分析。選擇哪個模型，判斷哪些特征有效，模型構建完成以后還要去運營、落地、實驗，這時候還需要進行實驗的工具，整個過程是很復雜的。

用戶行為預測項目的出發點在於標簽建設和模型建設這兩部分。化繁為簡地說，我們希望做到的是我們來提供API，大家來上傳行為數據，我們再進行落地的簡化。大家不需要做標簽建設和模型建設，我們可以直接預測用戶的付費評分、轉化評分，以及一周內是否會流失的預警。在簡化落地這部分，如果大家聯動開發、算法、分析一起做這個數據產品，需要20個人甚至更多。但在使用這個產品之后，只需要兩個人去做這件事。一個人開發API，接入數據；另外一個人使用這個系統做運營。同時，我們也提供小步實驗的工具。

下面我來介紹一下騰訊雲對於用戶的刻畫，主要分為五個方面，包括人口屬性、社會屬性、用戶消費、用戶行為、興趣偏好。大家在報考駕照時可能關注點不太一樣，有些人希望周期較短，有些人希望便宜一點，有些人希望教練不要罵人。我們可以通過標簽，刻畫不同用戶的分群，針對這些分群做一些定制化的營銷。特別是針對教育行業，我們可以把一個群體分為七天內流失可能性是高危、一般還是低流失的不同分群，進行一些有針對性的運營策略。接入的方式是圍繞用戶行為進行接入，獲取用戶接入第一方的數據后提供模型，或從行為中抽取樣本再進行建模。在這個過程中，系統會提供一鍵預測的功能，客戶直接在系統上進行操作即可。預測出的結果可以截取下來進行自己的運營實驗，我們最后也會根據用戶行為進行跟蹤。在市場上有一些行為跟蹤的產品，它們要求的是效果反饋，需要有一些KPI。我們根據純粹上報的KPI做變化跟蹤，直觀地看出哪個策略好、哪個策略差。

剛剛提到三個方面的服務，第一方面是對留存用戶，第二方面是對新增用戶，第三方面是幫助大家挖掘潛在用戶。先來看一下留存用戶，也就是現在已有的用戶，這種場景比較好的地方就是第一方數據相對較多，我們的模型會比新增用戶的模型更好。主要分為以下四個部分，一是數據管理，數據管理不僅是第一方數據，也包括互聯網大盤的脫敏數據，我們會有針對性地進行融合。第一方的數據是注冊信息、設備信息、行為信息，比如用戶登錄的時間、瀏覽的頁面。這些信息接入進來后，我們會進行概覽性的分析，比如每天的PV、UV分別是多少。同時我們也會對每一條數據進行質量評估，因為每一個字段的完善度都會影響模型的效果，如果完善的話，模型將在0.8以上；如果不完善則會在0.7到0.8；如果特別差的話，模型就不能被使用。

第二是留存預測。我們可以提取一段時間內的用戶包進行預測，預測模型可以是多種，根據多種需求可以自定義、也可以進行增加，當前的預測主要是流失、付費、逾期還款等。在預測出來后會出現一個概率的分值，可以根據概率分值將它自定義分成幾個分組，也就是分群。例如在付費的模型中，付費轉化率高的人，我們稱為高付費，次之是較高付費。我們可以在這個基礎上再進行分群的洞察，在這個分群洞察市場上有很多移動分析的軟件，但是它們提供的畫像很有可能是通用型的，甚至對於某個群體是沒有顯示度，也就是沒有顯著性的。我們針對不同的行業，特別是教育行業，有着自己的行業定制標簽，比如教育關注度、教育堅持度這樣一些畫像，能夠有效地展示其中的群體形態。如果你發現這部分人群有怎樣的畫像特點，在之后進行廣告投放時可以咨詢一下廣告投放平台，支不支持這些標簽的投放。如果可以的話，就可以實現精准投放。

再來介紹一下我們分群所用的標簽。我展示出來的是兩個畫像，一個是教育關注度，一個是教育堅持度。首先介紹一下圖表，圖表上207這個數字，表示的是TGI的相對顯著性，數字越高表示這個特征和它所對應的分子越大，也就是正相關性越高。這個數字大於100表示正相關，小於100就是負相關，數字越小就表示負相關越大。教育關注度越高的這些人付費意願就會更強。教育關注度就是根據客戶在大盤教育類的咨詢，以及周邊產品的關注程度聚合出來的畫像。

再來看教育堅持度，它的表現也是一樣的，越能堅持的人，越願意付費。在這里教育堅持度我們怎么刻畫的呢？他持續使用大盤里某類或全部的教育產品，這種持續的時間投入，我們稱之為教育的堅持度，這是由很多特征聚合出來的畫像。

剛剛看到的是行業的標簽，我們構建的標簽分成了通用標簽、行業標簽、場景標簽以及個性化標簽。這里是通用標簽，通用標簽就是游戲的沉迷度，比如說在游戲上消耗的時間和周期，可以根據這些行為進行刻畫。我們發現它的顯著性和教育關注度不一樣，越沉迷游戲的人，付費的可能性就越低。在自我驅動力上面，他會自己驅動自己做一些相關的學習、收藏，屬於比較有自發性行為的數據。這種數據可以刻畫出越上進的人，越可能會付費。

這是一個實驗項目的跟蹤展示，上面是測試數據，不是真實的數據。我們的實驗包括兩種實驗，一是人群對比，將較高付費的人群及高付費人群做同一個策略實驗。我們可以打電話營銷、發短信營銷，甚至可以建群為他們進行針對性的服務。在這些方式下，可以得出哪種人群轉化率更高，哪種策略更適合哪個人群。第二是策略對比，針對較高付費的群體，我們進行剛剛三個策略實驗，就可以看出哪個策略對這部分人的效果更好，在具體的運營實驗上花更少的成本，去體驗整個實驗的效果。

第二個方向是新增用戶。新增用戶為什么放在留存用戶后面講呢？因為這部分可以獲得的數據更少。我們可以獲取到留存用戶的一些行為數據，但新增用戶可能只有手機號、設備環境信息和相應的價值信息。我們可以做到的是新增預測，提供單獨的API服務。它的應用場景主要是有兩個點，一是渠道質量的預估，為什么是預估呢？我們在運營中會面臨一個問題，投放廣告、投放營銷預算應該選擇哪個渠道？評估一個渠道的好與壞有兩種方式，一是咨詢別人，這種方式並不可靠。第二是進行實驗，在一周、兩周、一個月之后，觀察這個渠道的付費轉化率是多少、流失情況是多少。我們對模型進行了預測，這時就可以把渠道的質量預估提前，如果預測出某個渠道的質量非常差、轉化效果也很差，這時就可以把營銷預算往好的渠道上面傾斜，在后期完全可以進行對比。

還有一種情況，我們在投放廣告的時候，因為廣告的素材偏差引進來的人不是目標用戶，導致營銷預測浪費。假設我們在三個渠道都投放了營銷素材，三個渠道質量的預估從原來都很高的預估率同時降低了，這就有理由懷疑是素材的問題，可以進行素材上的調整。同時還可以進行新增的預測，根據它的閥值進行自定義的實驗。我們的跟蹤數據會反饋到模型訓練中做一個迭代的優化。

潛客挖掘這部分是很多人都關心的。一開始我們並沒有想做這部分，以前一直在做廣告，通過廣告挖掘新增客戶。無論是教育行業還是金融行業，都有這種需求。為了獲取更多的客戶，有可能是口口相傳，有可能要投一些預算做廣告。潛客預算有兩種模式，第一種是從其他渠道拿到你認為有潛在價值的用戶包，第二種是在互聯網大盤里做一個預測，哪些人可能會是潛在用戶，而第二種方式只會在騰訊雲內部的廣告投放平台上進行流通。我們把挖掘潛客分成兩類模型，一種是和留存新增類似的分類模型，一種是Lookalike。如果我們以到站這種方式作為目標，其實你不知道誰沒到站，你只知道到站的是誰，這里是沒有負樣本的，所以我們需要用Lookalike的方式。我們對潛客的跟蹤有相應的解決方案，可以跟蹤到潛客包轉化效果，從而進行進一步的運營嘗試。

下面為大家介紹一下Lookalike，Lookalike是將其轉化為一個二分類。以到站的方式為例，到站的人我們認為他是種子用戶，但我們不知道沒有到站的人是誰，只能在大盤里將到站的用戶剔除掉，其他的作為一個盤，其中隨機抽出一部分作為復例。最后進行模型訓練時，提取的就是我們潛在的用戶包。這里面臨的問題是什么呢？負樣本中很有可能包含正樣本即某些實際上是潛在用戶的人，隨機性抽樣很難保證准確性。這里我們也通過標簽抽取的方式進行實驗，比如先對種子用戶進行畫像分析，發現他的教育程度高、教育關注度高、堅持度高，這類人就是潛在客戶。相反，關注度低、堅持度低的人，是不是一定就是負樣本呢？這種方式可能會導致整個模型泛化效果比較差。實際上，我們是將種子用戶抽取出來一部分，放到負樣本混合后進行建模，在建模后就可以看到負樣本中混合的種子用戶的概率分布。

假如我們發現它的概率分布在0.42以上，我們就有理由相信0.42%以下是比較高質量的負樣本，再將正負樣本拿進去做第二次真實的訓練。訓練的過程中可能會遇到一些問題，我們在教育行業用了800多維的維度，整體的維度有三四千。這里面臨特征拼接的問題，不管是留存、新增還是潛客，或者是付費、流失場景包的模型，每一個模型所需要的特征是不一樣的，它們都是動態的、個性化的。這里需要有一個特征拼接的過程，我們采用列存儲+SSD進行支持。

大家接觸的數據量比較少，當前幾千萬也是比較常見的。在整個大盤預測上，基礎是幾十例。我們做一個排序，也可以做一些抽樣的預測。比如抽取5000個用戶包，先預測一下這5000個用戶的大概P值，比如說預測出的P值是0.85，在實際預測時就進行閥值的提取，加強整個鏈路的優化。Lookalike的結果會直接與內部廣告平台打通，並在廣告投放后從行為變化跟蹤上觀察投放的效果。

在整體的方向上，我們的預測從數據采集到特征構建、模型集成，最后提供在線化的服務。在數據采集這部分，我們會根據采集到的持續數據構建時序的特征，同時也會將其用到模型中去。

這是一個整體技術架構介紹。因為這是一個數據產品，不像我們常規理解的一個顯然的系統，它是各個環節進行協作，最后進行數據產品的輸出。首先我們在做外部數據接入時，通過騰訊統一的網關STGW將數據放進來，之后通過DFS數據通道存放到消息隊列中。行為數據基於第一方數據的安全，進行了相應的加密和脫敏，我們要進行解密並對每一條數據進行質量的評分。這里有一些質量評分的報警，如果數據可以達到80分，現在一下子變成了60分，我們就需要和客戶溝通，是不是某個環節出了問題，因為它最終會導致模型效果較差，使用的體驗也會比較差。后面我們會將接入進來的數據存放在TDW，各家的數據進行分表存儲，沒有融合在一起。之后再將數據取出來進行計算，進行數據行為概覽相應的指標分析以及行為跟蹤。某一個用戶包的行為變化跟蹤，就是在這里面進行的。

最后我們將這些統計結果、跟蹤階級寫入MySql，通過產品系統提供給用戶進行展現。這里為大家介紹一下我們模型的做法。樣本來自兩個部分，一是行為數據抽取出來，二是通過用戶接口提供或離線提供。我們要融入大盤的特征，大盤特征是分級的，有些特征是按月的、有些是按周的、有些是按天的、有些是實時的。我們有很多節點計算每個不同的特征，當然有些特征會放在一起進行計算，將這些特征放到Hbase中以加快它的訪問。

在具體應用時，客戶提取用戶包后進行模型的預測、分群的洞察。我們提取了用戶包，在預測的時候要先去提取存在Hbase里面的實時數據，觀察它的實時特征。實時特征和離線特征融合起來進行模型的預測訓練，在預測完成后，我們要將一些特征聚合起來形成畫像，最終在頁面上展示給大家。這些也是通過關系型數據庫進行產品的展現支持。

關於我們產品的結構，首先是第一方的數據源。第一方的數據是客戶提供的行為數據，加上內部畫像融合起來進行數據建模的支持。針對用戶上報的數據，我們會自動生成標簽。內部數據也會通過相應的標簽工具，生成通用的行業、個性化、場景的標簽，之后再進行數據建模以及每個用戶的落地，服務落地分為用戶分群、小步實驗、效果閉環。再往下是各個行業的應用，比如教育行業以及金融上面的反欺詐實踐。

第一方的數據完善程度和模型效果有相關性。如果第一方數據比較完善，可以達到0.8到0.9的AUC，它的識別能力非常少。如果數據不太完善，只有50%或者60%的完善程度，AUC會在0.7到0.8之間。如果數據在百分之二三十，甚至沒有第一方數據，那么AUC就在0.7左右。

下圖是教育類預測線上特征庫，我們將其分為四類。每類從上往下是通用、行業、個性化、產品化這四類特征。整個大盤的特征維度有幾千維，教育行業我們用到了800多維。

在第一方數據和安全機制部分，第一方數據，就是某一方面的數據，它對某一方面的模型有直接的影響。在做付費模型的時候，基礎數據APP行為、付費轉化有着直接相關性；在做流失模型的時候，基礎數據和設備相關的信息、APP行為的信息有直接相關性。第一方數據是客戶提供給我們的，無論是金融、電商還是教育，大家都會面臨同一個問題，提供數據會不會存在隱患，我們會不會再將這些數據提供給別人。在安全方面我們分為三個等級，一是數據傳輸上進行加密的支持，即使傳輸的鏈接請求被劫持了，其他人也不知道這個數據到底是什么數據，他只能看到一個密文。二是數據存儲。在存儲用戶數據的時候，按照分表物理存儲，其中不會有融合的問題，也不會將這些數據給另外一個產品使用。三是數據的脫敏。我們針對賬號支持加密，在內容上可以簡單地理解為，假如用戶A看了張老師的數學教程，在這個看的過程中，我們會將張老師的信息由客戶自己定義一個唯一的編號，將這個數學課程也定義成唯一的編號。在這些數據上傳之后，我們拿到的只是編號，而不是張老師、數學這樣的具體信息。取得這個數據后就可以進行模型上的建設，這里我們會將具體的用戶隱私數據過濾掉。

我們的接入方式比較簡單，但也會存在一定的開發量。首先客戶將行為的數據通過API提供給我們，這里的樣本有兩種方式。如果行為數據比較全，我們可以直接進行操作。如果行為數據不太全，或不太符合預期，我們會讓客戶提供一個樣本。數據建模由我們進行支持和處理，客戶可以在產品系統上提取用戶包進行預測、實驗和效果的跟蹤。

Q/A

Q：剛才提到的教育堅持度，如果與某個變量因子相反關系，說明這個人的基礎比較薄弱，是嗎？

A：這不一定，我們也做過這方面的分析。我們發現有些人學歷很高，他們還是堅持去學習，這完全是因人而異的。所以這部分也要看學歷，學歷也是一個因子，但學歷的因子反而沒有這個指標顯著。

Q：關於特征的部分，請問可以公開一些特征嗎？

A：如果合作到一定深度是可以的，但是現在不方便透露。我們的特征也很多也比較細，像通用特征可以通用到各個行業，沒有行業的屬性在里面。

獲取更多詳細資料，請戳以下鏈接：
大數據在教育行業的研究與應用-譚安林.pdf

問答
大數據對人工智能深度學習有何影響？
相關閱讀
王永慶：技術創新改變教育未來
 郭卓惺：互動課堂的搭建實例及相關領域應用
 楊婷：騰訊雲在線教育解決方案分享

**此文已由作者授權騰訊雲+社區發布，原文鏈接：https://cloud.tencent.com/developer/article/1153719?fromSource=waitui **

歡迎大家前往騰訊雲+社區或關注雲加社區微信公眾號（QcloudCommunity），第一時間獲取更多海量技術實踐干貨哦~

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 大數據在教育行業的應用案例譚安林：大數據在智能外呼系統的應用區塊鏈在教育行業的落地應用現狀介紹大數據分析在金融行業的應用區塊鏈在教育中的8個應用實例餐飲行業的利器——大數據大數據應用之金融行業-互聯網金融對傳統銀行業的沖擊，狼真的來了 AR在教育教學科普實訓中的應用奈學教育-大數據架構師奈學教育《大數據架構師》課程大綱