用户行为日志


用于行为日志生成方式

1、Nginx

2、Ajax

用户行为日志内容

日志数据内容:

1)访问的系统属性:操作系统、浏览器等等

2)访问特征:点击的URL、从哪个URL跳转过来的(referer)、页面上的停留时间

3)访问信息:session_id、访问ID(访问城市)等

用户行为日志分析的意义

网站的眼睛

网站的神经

网站的大脑

离线数据处理流程

1)数据采集

  Flume:web日志写入到HDFS

2)数据清洗

  脏数据

  spark、hive、MapReduce 或者是其他的分布式计算框架

  清洗后的数据可以放到HDFS(hive表/spark SQL表)

3)数据处理

  按照需求进行相应业务的统计和分析

  spark、hive、MapReduce 或者是其他的分布式计算框架

4)数据处理结果入库

  结果可以存到RDBMS、nosql

  调用API完成

5)数据的可视化

  通过图形化展示的方式展现出来:饼图、柱状图、地图、折线图

  echarts、hue、zeppelin

 

数据处理架构

  项目需求

需求一:慕课网主站最受欢迎的课程/手记 topN

需求二:按地市统计imooc主站最受欢迎的topN课程

  按IP地址提取地市信息

  窗口函数在spark SQL中的使用

需求三:按流量统计imooc主站最受欢迎topN课程

imooc主站日志介绍

访问时间、访问URL、访问IP、访问过程耗费流量

数据清洗:


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM