课题意义:幸福感预测这一经典课题,希望在现有社会科学研究外有其他维度的算法尝试,结合多学科各自优势,挖掘潜在的影响因素,发现更多可解释、可理解的相关关系。在众多错综复杂的因素中,如何找到其中的共性,一窥幸福感的要义,进而提升人民的幸福感,能去帮助那些抑郁不开心的人,这是展开幸福感数据分析的意义。
二、国内外发展现状
(1)大数据方面发展现状:信息科学技术的发展受到了大数据技术的严重影响,大数据技术改变了许多产业的发展方式,如在社会媒体当中,传统媒体的受众分析和传播策略的研究被大数据所改变。另外,在大数据驱动的背景下也改变了客户生命周期理论。而且大数据技术在发展的过程中也在一定程度上影响着其他行业,在这样的情况下,各个行业必须要与大数据的发展保持一致,不断创新科学技术,从而使其发展具有突破性。
(2)幸福感预测方面发展现状:在社会科学领域,幸福感的研究占有重要的位置。这个涉及了哲学、心理学、社会学、经济学等多方学科的话题复杂而有趣;同时与大家生活息息相关,每个人对幸福感都有自己的衡量标准。如果能发现影响幸福感的共性,生活中是不是将多一些乐趣;如果能找到影响幸福感的政策因素,便能优化资源配置来提升国民的幸福感。目前社会科学研究注重变量的可解释性和未来政策的落地,主要采用了线性回归和逻辑回归的方法,在收入、健康、职业、社交关系、休闲方式等经济人口因素;以及政府公共服务、宏观经济环境、税负等宏观因素上有了一系列的推测和发现。
三、研究目标
(1)调查人群的整体幸福感情况。
(2)对数据、缺失值、分级的数据进行处理。
(3)用模型进行分析。
四、研究内容
(1)分析问题,提出分析目的。
(2)数据清洗、数据预处理及数据可视化。
(3)数据分析。
(4)建模计算。
(5)分析结果及竞赛成绩。
五、研究方法与手段
(1)利用matplotlib、seaborn画图库可视化整体人群的幸福状况。
(2)利用分析工具:jupyter notebook对数据进行清洗、处理及可视化。
(3)将分级系列值用加和的形式代替,缺省比例超过15%的数据进行删除,缺省值用众数进行代替。
(4)利用相关性矩阵找出与幸福感关联较大的数据项,利用融合CatBoostRegressor+LightGBM+xgboost+gbdt现有模型的方式进行数据分析。
六、进度安排
1、2020.12.13-2021.1.05 查找资料,了解关于数据挖掘以及挖掘幸福感课题的相关资料,完成开题报告。
2、2021.1.06-2021.2.15 导入数据,并对数据进行清洗、处理及可视化。
3、2021.2.16-2021.3.20 利用相关性矩阵进行数据分析。
4、2021.3.21-2021.5.01 利用带权平均融合CatBoostRegressor + xgboost + gbdt现有模型计算。
5、2021.5.02-2021.5.20 撰写论文,准备答辩。
七、方案可行性分析
(1) 操作可行性:
大数据分析是现下比较热门的词汇,通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中,越来越多的应用都会涉及到大数据。在现在社会,每个人的幸福指数都可以反应人们的生活幸福的程度,所以通过对人们幸福的数据分析,可以更好的人了解人民的幸福感,提升人民的幸福感。
(2)技术可行性:
阿里云天池竞赛平台提供了十分优越的在线实验室环境来提供学者参与学习与竞赛。
八、主要参考文献
[1] 张良. 机器学习在数据挖掘中的应用分析[J]. 计算机产品与流通, 2019(2): 198-200.
[2] 陈强. 机器学习与数据挖掘[J]. 科技信息, 2018, (20).
[3] 郭皓. 机器学习算法在数据挖掘中的应用研究[J]. 数字通信世界, 2019, (3):177.
[4] 周旭. 数据挖掘中机器学习的应用[J]. 电子技术与软件工程, 2019(7).
[5] 田文英. 机器学习与数据挖掘[J]. 石家庄职业技术学院学报, 2004, 16(6):30-32.
[6] 章毅, 郭泉, 王建勇. 大数据分析的神经网络方法[J]. 工程科学与技术, 2017(1).
[11] 王光宏,蒋平. 数据挖掘综述[J].同济大学学报(自然科学版), 2004,32(2):246-
252.
[12] Kaur P, Attwal KS.Data Mining:Review[j]. International Journal of Computer Science & Information Technolo, 2014.