一、項目概述
本項目主要用於互聯網電商企業中,使用Spark技術開發的大數據統計分析平台,對電商網站的各種用戶行為(訪問行為、購物行為、廣告點擊行為等)進行復雜的分析。用統計分析出來的數據,輔助公司中的PM(產品經理)、數據分析師以及管理人員分析現有產品的情況,並根據用戶行為分析結果持續改進產品的設計,以及調整公司的戰略和業務。最終達到用大數據技術來幫助提升公司的業績、營業額以及市場占有率的目標。
本項目使用了Spark技術生態棧中最常用的三個技術框架,Spark Core、Spark SQL和Spark Streaming,進行離線計算和實時計算業務模塊的開發。業務模塊主要包括以下部分:
(1)用戶訪問session分析
(2)頁面單跳轉化率統計
(3)熱門商品離線統計
(4)廣告流量實時統計4個業務模塊。
二、業務模塊介紹
2.1 用戶訪問session分析
該模塊主要是對用戶訪問session進行統計分析,包括session的聚合指標計算、按時間比例隨機抽取session、獲取每天點擊、下單和購買排名前10的品類、並獲取top10品類的點擊量排名前10的session。該模塊可以讓產品經理、數據分析師以及企業管理層形象地看到各種條件下的具體用戶行為以及統計指標,從而對公司的產品設計以及業務發展戰略做出調整。主要使用Spark Core實現。
2.2 頁面單跳轉化率統計
該模塊主要是計算關鍵頁面之間的單步跳轉轉化率,涉及到頁面切片算法以及頁面流匹配算法。該模塊可以讓產品經理、數據分析師以及企業管理層看到各個關鍵頁面之間的轉化率,從而對網頁布局,進行更好的優化設計。主要使用Spark Core實現。
2.3 熱門商品離線統計
該模塊主要實現每天統計出各個區域的top3熱門商品。然后使用Oozie進行離線統計任務的定時調度;使用Zeppeline進行數據可視化的報表展示。該模塊可以讓企業管理層看到公司售賣的商品的整體情況,從而對公司的商品相關的戰略進行調整。主要使用Spark SQL實現。
2.4 廣告流量實時統計
該模塊負責實時統計公司的廣告流量,包括廣告展現流量和廣告點擊流量。實現動態黑名單機制,以及黑名單過濾;實現滑動窗口內的各城市的廣告展現流量和廣告點擊流量的統計;實現每個區域每個廣告的點擊流量實時統計;實現每個區域top3點擊量的廣告的統計。主要使用Spark Streaming實現。