首页 >  Python毕业设计  > 正文

基于Hadoop的海量Web日志数据分析系统设计与实现

主要的功能模块有:
1、数据收集子系统
  系统需要将用户浏览的数据通过flum采集到存储系统HDFS中。本系统收集PC端数据和程序后台的部分数据。数据收集系统所收集的数据需要能够供数据分析使用并能够分析出数据分析模块所需要的数据。
2、数据分析子系统
  1)用户基本信息分析模块
主要是从用户/访客和会员两个主要角度分析浏览相关信息,包括但不限于新增用户,活跃用户,总用户,新增会员,活跃会员,总会员以及会话分析等。
  2)浏览器信息分析模块
 主要收集浏览器的分布情况和浏览器方面的用户基本信息,从收集的数据中统计出三个方面的数据:浏览器PV分析、浏览器会话分析、浏览器用户分析。
3)地域信息分析模块
分析两个方面的数据,分别为各个地域上的会话跳出率分析和活跃访客地域分布情况。
4)外链数据分析模块
在外链数据分析模块中与地域模块一样需要统计活跃用户数量、总会话个数以及跳出会话这三个指标的数据。它们的区别是跳出会话个数的计算。
5)事件分析模块
统计不同category名称事件的次数活跃用户数量。
6)用户浏览深度分析模块
通过pv值表示用户的浏览深度,分别从两个不同的角度描述用户浏览深度,分别为会话和用户。会话指,每个pv阶段对应的会话个数﹐用户指每个pv阶段的用户个数。最终统计分析数据保存在mysql中。
3、数据展示子系统
  将每个模块的分析数据使用图表的形式进行展示
 

以上是本题目部分介绍,若需要完整版或不符合您的要求,请联系客服微信:ztopmind  > 或者加QQ 840612233

上一篇:基于Docker在线CTF竞技游戏平台vue

下一篇:最后一页