用戶行為日志


用於行為日志生成方式

1、Nginx

2、Ajax

用戶行為日志內容

日志數據內容:

1)訪問的系統屬性:操作系統、瀏覽器等等

2)訪問特征:點擊的URL、從哪個URL跳轉過來的(referer)、頁面上的停留時間

3)訪問信息:session_id、訪問ID(訪問城市)等

用戶行為日志分析的意義

網站的眼睛

網站的神經

網站的大腦

離線數據處理流程

1)數據采集

  Flume:web日志寫入到HDFS

2)數據清洗

  臟數據

  spark、hive、MapReduce 或者是其他的分布式計算框架

  清洗后的數據可以放到HDFS(hive表/spark SQL表)

3)數據處理

  按照需求進行相應業務的統計和分析

  spark、hive、MapReduce 或者是其他的分布式計算框架

4)數據處理結果入庫

  結果可以存到RDBMS、nosql

  調用API完成

5)數據的可視化

  通過圖形化展示的方式展現出來:餅圖、柱狀圖、地圖、折線圖

  echarts、hue、zeppelin

 

數據處理架構

  項目需求

需求一:慕課網主站最受歡迎的課程/手記 topN

需求二:按地市統計imooc主站最受歡迎的topN課程

  按IP地址提取地市信息

  窗口函數在spark SQL中的使用

需求三:按流量統計imooc主站最受歡迎topN課程

imooc主站日志介紹

訪問時間、訪問URL、訪問IP、訪問過程耗費流量

數據清洗:


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM