首页 >  Python毕业设计  > 正文

视频喜好倾向数据分析系统

随着互联网、大数据等技术的不断创新和发展,数据呈几何级增长趋势,数字时代的到来加速了商业模式的变化,企业要想在竞争激烈的市场中生存和发展,就必须顺应数字化转型的趋势,如何在海量数据中获取有价值的信息和知识已经成为许多企业迫切需要解决的问题之一。同时,许多短视频平台蓬勃发展,B站就是其中之一,而短视频平台的发展依靠于用户对网站产出的视频喜爱程度,因此,深入研究短视频用户对视频的喜好倾向必不可少。
在这样的市场环境下,设计一个可以对用户观看视频时喜好倾向的数据分析系统成为企业首选,它帮助业务人员大幅缩短复杂数据分析的周期,满足业务决策支持需求。此系统可以覆盖各类角色需求,打通数据应用全流程,提供数据自动按时采集,采集结果分析,大屏可视化,数据集成和预测等多元化分析结果,全方位提升数据分析能力,精准支撑企业决策,为用户提供精准的视频推送,提高视频用户的体验感。
当前,许多国家的政府和国际组织都认识到了大数据的重要作用,纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要抓手,实施大数据战略,对大数据产业有着高度的热情。数据分析是数据处理流程的核心,因为数据中所蕴藏的价值就产生于分析的过程。所谓“大数据分析”,其和以往数据分析的最重要的差别在于数据量急剧增长。由于数据量的增长,使得对于数据的存储、查询以及分析的要求迅速提高。从实际操作的角度看,“大数据分析”需要通过对原始数据进行分析来探究一种模式,寻找导致现实情况的根源因素,通过建立模型与预测来进行优化,以实现社会运行中各个领域的持续改善与创新。
从行业实践的角度看,只有少数几个行业的部分企业,能够对大数据进行基本分析和运用,并在业务决策中以数据分析结果为依据。这些行业主要集中在银行与保险,电信与电商等领域。以银行业为例,目前大型国有银行在其主营业务中均引入了数据分析,但深度尚可,广度不够,尚未扩充到运营管理的所有领域;而中小银行在数据分析方面的人员与能力建设尚处于起步阶段。对于支撑起我国庞大国民生产总值的建筑业、制造业以及贸易行业,其数据分析应用远远没有进入规模化发展阶段,这些行业在IT方向的开支主要集中在公司日常的流程化管理领域。
二、研究主要内容
数据分析系统的设计是基于python的数据爬取技术,获取B站用户浏览视频的动态数据,对爬取的原始数据进行清洗存储和预处理,然后进行数据分析,尤其是用户对所观看视频的停留时间,点赞,评论,收藏,投币等行为。最后对得到的数据进行可视化展示,直观的表明分析结果。同时,系统应有一定的可操作性,实现自动爬取和存储以及可视化展示等功能。撰写完成针对本课题的毕业论文。
三、研究方法与实验条件
研究方法:
1.文献研究法
依据现有的理论、事实和需要,对有关文献进行分析整理或重新归类研究。首先要建立研究目标,研究目标是指使用可操作的定义方式,将课题或假设的内容设计成具体的、可以操作的、可以重复的文献研究活动,可以解决专门的问题和具有一定的意义。
2.数量研究法
数量研究法也称“统计分析法”和“定量分析法”,指通过对研究对象的规模、范围、程度等数量关系的分析研究,认识和揭示事物间的相互关系、变化规律和发展趋势,借以达到对事物的正确解释和预测的一种研究方法。
3.调查法
通过访问哔哩哔哩网站,了解当前热门流行的内容,大致观察视频用户对的不同视频的喜好程度
实验条件:
1.系统的软件环境
(1)服务端
操作系统:Windows 10
数据库系统:MySQL 8.0.20
(2)客户端
开发工具:Pycharm
开发语言:python
四、研究计划与进度安排
研究计划:
1.数据的采集
基于python语言,编写爬虫语句,获取B站各类视频下对研究有用的数据,包括但不限于用户对视频的点赞,收藏,投币,评论等。并对获取到的数据进行初步保存。
1. 数据的预处理
对获取到的数据进行预处理。这一步旨在将获取到的杂乱,重复,模糊的数据清除,防止这些数据对最终的结果分析产生影响,提高数据挖掘的质量,保证数据的准确性和可靠性。
数据预处理的主要任务有数据清洗:填补缺失值、解决不一致性、解决数据整合后带来的冗余;数据整合:集成多个数据库或多个文件;数据转换:正则化、聚合化;数据减少:提取有特征化的数据,减少数据量,并能够产生相同或相似的分析结果;数据离散。
3.数据分析
建立基于spark的数据分析系统。Spark使用Scala语言进行实现,它是一种面向对象、函数式编程语言,能够像操作本地集合对象一样轻松地操作分布式数据集,它具有运行速度快、易用性好、通用性强和随处运行等特点,本次实验主要是对数据进行计算处理。
4.可视化展示
数据可视化技术将应用到Javaweb技术,将分析好的数据用图片来进行展示。可以得到用户对某一类视频的喜好程度的可视化页面。
进度安排:
1月11日-1月15日:查阅文献,撰写开题报告;
1月16日-1月25日:完成需求与设计工作;
1月26日-3月13日:实现系统原型,编写程序,实现相关功能;
3月14日-4月23日:系统完善,功能测试,完成毕业设计中期检查;
4月24日-4月30日:论文初稿完成
5月1日-5月21日:修改毕业设计论文,论文查重,论文声明签字,完成论文终稿;
5月22日-5月26日:整理毕业设计文档及答辩PPT,准备答辩。
 

以上是本题目部分介绍,若需要完整版或不符合您的要求,请联系客服微信:ztopmind  > 或者加QQ 840612233

上一篇:基于电商大数据的商品推荐系统

下一篇:多维数据可视化系统设计与实现