用於行為日志生成方式
1、Nginx
2、Ajax
用戶行為日志內容
日志數據內容:
1)訪問的系統屬性:操作系統、瀏覽器等等
2)訪問特征:點擊的URL、從哪個URL跳轉過來的(referer)、頁面上的停留時間
3)訪問信息:session_id、訪問ID(訪問城市)等
用戶行為日志分析的意義
網站的眼睛
網站的神經
網站的大腦
離線數據處理流程
1)數據采集
Flume:web日志寫入到HDFS
2)數據清洗
臟數據
spark、hive、MapReduce 或者是其他的分布式計算框架
清洗后的數據可以放到HDFS(hive表/spark SQL表)
3)數據處理
按照需求進行相應業務的統計和分析
spark、hive、MapReduce 或者是其他的分布式計算框架
4)數據處理結果入庫
結果可以存到RDBMS、nosql
調用API完成
5)數據的可視化
通過圖形化展示的方式展現出來:餅圖、柱狀圖、地圖、折線圖
echarts、hue、zeppelin
數據處理架構
項目需求
需求一:慕課網主站最受歡迎的課程/手記 topN
需求二:按地市統計imooc主站最受歡迎的topN課程
按IP地址提取地市信息
窗口函數在spark SQL中的使用
需求三:按流量統計imooc主站最受歡迎topN課程
imooc主站日志介紹
訪問時間、訪問URL、訪問IP、訪問過程耗費流量
數據清洗: