互联网信息技术已经发展了很长时间,时至今日,越来越多的终端设备出现在人们的生活中,各种网络技术、移动终端日益成熟,而且价格越来越平民化。互联网技术已经到了前所未有的高度,借助于网络基础设施的建设,各种电子芯片和云计算快速的发展。传统信息的传播方式逐渐萎靡,比如报纸杂志等,几乎破产。目前人们只需要通过掌上电脑或者手机就可以查询到自己所需的信息,之所以网络设备如此受欢迎,是因为借助互联网技术所提供的强大信息呈现在网络中,只需要通过手指一点,就可以获取到自己想要知道的内容。用户只需要通过一个关键字,就可以从海量的信息中检索出相关的信息词条,然后将这些信息可视化呈现在用户面前,这种方式受到了用户的喜爱。
本课题所研究的博客敏感词检索系统广泛存在于互联网中,通过搜索引擎,我们可以获取到对应的博客文章,然而这些方法大多比较零碎,博客信息五花八稳,甚至存在一些伪劣的辱骂人的和带广告性质的宣传,严重影响了博客文章的观看体验。
博客目前是国内大家获取知识的主要途径之一,拥有大量的博客信息和相关的敏感字。使用爬虫技术,对博客网站的文章数据进行抓取,得到海量的信息,然后对数据进行处理和分析,最终将分析的把博客的敏感字可视化展现出来,可以服务相关的博客管理人员。因此,本选题将垃圾信息的收集置于具体的博客平台,从而进行研究博客的敏感字。
三、研究的主要内容及创新点
大数据和信息技术的快速发展,给互联网的发展带来了机遇。利用数据可视化的优势,紧跟现代科技发展的前沿,通过大数据与敏感字的关联,对敏感字属性的聚类分析建立分类模型进行了研究,并应用到博客方面。基于Python+Echarts的博客信息敏感字检索系统的数据可视化分析系统,主动将现代信息技术融入博客数据通过数据的检测研究,为大众的博客阅读进行更好的服务。。
四、研究方法及工作进度
一、研究方法
1.本论文采用的研究方法包括:
(1)文献研究法。对于选定的课题,收集、检索国内外有关的资料,并对文献资料进行筛选和分析,结合所学知识和从事相关研究累计的经验,有选择性地吸收并创新了一些理论知识。
(2)调查法。有目的、有计划、有系统地搜集有关研究对象现实状况或历史状况的材料的方法。
(3)信息研究方法。利用信息来研究系统功能的一种科学研究方法。根据信息论、系统论、控制论的原理,通过对信息的收集、传递、加工和整理获得知识,并应用于实践,以实现新的目标。
2.研究方案
本软件在python平台进行开发,开发工具用到pycharm 、模拟器或者手机、mysql、navicat for myaql。运用python语言,并将mysql作为后台数据库,对系统界面进行设计,最后进行软件测试。
二、研究进度
第1阶段:2025年11月15日--2025年11月20日 任务书完成。
第2阶段: 2025年12月20日--2025年1月10日 查阅参考文献,完成开题报告和科研型立项书。
第3阶段:2026年1月5日--2026年3月5日 完成论文初稿。
第4阶段:2026年3月10日 --2026年5月10日 论文修改,提交毕业论文 。
第5阶段:2026年5月10日--2026年5月20日 毕业论文答辩。