用戶畫像架構方案(持續更新)


說明:用戶畫像的概念以及意義不在此贅述,這里只探討如何快速搭建基礎架構以及后續工作的注意事項。

用戶畫像的提出是基於日益發展的業務需要,在相對充分的數據儲備之上的進一步理解和提煉數據過程中提出的概念。通過人群的不同畫像來做到個性化推薦。

用戶畫像一般是分為兩類的。

一類是實時用戶畫像,這類畫像的處理邏輯一般都很簡單,要求迅速響應,實時處理。數據從kafaka過來,通過storm 等實時開源框架處理之后存入redis 當中。這里暫不討論。

第二類便是離線用戶畫像,這類用戶畫像是把當天業務方需要的用戶畫像提前算好,然后供給業務方使用。由於對數據的時效性要求不是那么的高,可以使用較復雜的處理邏輯或者各種離線機器學習模型來保證畫像的准確性。數據一般存在HDFS 和 Hbase 里面。

具體結構如下圖:

 

離線的用戶畫像的數據來源一般是來自采集或者數據倉庫,按照數據源的存在形式不同,可用不同方式Hive\Sql抽取。這里的數據倉庫是指通過前端頁面埋點,用戶訪問采集到的流量日志。在獲取到需要的數據以后,首先經過用戶連線將同一個用戶的行為全部連線到一起,然后利用 mapreduce 按照一定的處理邏輯進行處理。然后儲存到數據庫中(HBase或其他關系型數據庫)。

對采集的數據進一步挖掘,將數據歸納出標簽。算法服務作為整個用戶畫像的核心,可以按照如下思路構建。

        需要注意的是用戶畫像前期每天重復性的工作很容易讓人疲倦,但確實也非常的重要,是整個數據挖掘方向最靠近業務的一個方向。很多時候,深度學習也好,機器學習也罷都離業務太遠了,有時候是無法落地給公司帶來直接的產出,非常容易就被邊緣化。所以就個人理解來說,技術固然是很重要的,但是技術本身是沒有產出的,所以我要盡量去想辦法讓我的技術有產出並且是可以度量的。在選擇業務的時候,我更多的也會考慮這是不是個很有前景的業務。這樣能夠最大限度保證技術有落地,有產出,不至於被邊緣化,同時也能一直保持對技術的熱情


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM