多元线性回归和粗糙集聚类在疫情数据分析中的应用

来源 :吉林大学 | 被引量 : 0次 | 上传用户:kxf2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
2020年,新型冠状病毒呈现并流行。自2020年1月至2020年3月,湖北省是全国最严重的疫情地区。新冠疫情对我国的教育行业产生了很大的影响,学生停课但不停学,开展网上教学。数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程,包含有多种算法,例如聚类、预测等。本文使用到的数据挖掘算法有多元线性回归分析算法、粗糙集属性约简算法、主成分分析算法和K均值聚类分析算法等。本文的数据来源包括两部分,第一部分是湖北省卫健委官方网站统计数据,第二部分是通过某教育机构发放调查问卷,得到样本数据。学生层次覆盖全面,所研究的各个因素均有分布,因此数据研究具有可行性。本文主要涉及以下三种算法:(1)通过使用多元线性回归算法分析湖北省疫情数据;(2)通过使用粗糙集属性约简算法分析疫情期间学生学习的影响因素;(3)本文将主成分分析算法、粗糙集算法和K均值聚类分析算法相结合,使用一种综合性的聚类分析算法来对数据进行聚类。其中,第三种算法是本文提出的一种综合性算法,该算法将多种数据挖掘算法相结合,综合利用主成分降维和粗糙集能够解决不确定问题的优势,对数据进行聚类,并与传统的K均值聚类分析算法相对比,验证了该算法的优越性。本文实现了以下三个模型应用:一是建立多元线性回归模型。针对官方网站发布的湖北省疫情数据,具体从2020年1月20日至2020年5月31日的数据,通过建立多元线性回归算法进行研究累计确诊数据与其他数据之间的线性关系,尤其通过建立的线性回归模型分析累计确诊数据和累计治愈数据形成的线性关系,并分析原因。二是建立粗糙集属性约简算法模型。针对疫情期间的学生进行问卷调查,分析影响学生学习的因素。本文通过发放调查问卷,形成样本数据,建立粗糙集属性约简算法模型,来分析疫情期间学生学习的影响因素,本文还采用了因子分析算法进行数据对比分析,通过因子分析算法进一步验证了粗糙集属性约简算法的正确性。三是建立基于主成分分析的粗糙集聚类综合模型。针对疫情期间学生学习进行调查问卷,得到样本数据,从而将学生进行聚类。本文将主成分分析算法、粗糙集算法和K均值聚类分析算法相结合,提出一种基于主成分分析的粗糙集聚类综合算法,对样本进行粗糙集聚类分析,与传统的K均值聚类分析对比,验证了该算法的优越性,并对不同类学生提出对应的建议。
其他文献
回顾性分析22例胸廓出口综合征(TOS)患者首诊误诊资料,探讨误诊TOS的原因及防范措施,提高临床医师对TOS的认识,细致问诊及查体,逐一排除其它疾病而确诊。
根据植被(植物)对气候的适应性和植被(植物)对气候的反馈作用,通过对区域范围的本土主要植物和植被的调查,分析研究区域范围的气候特征,指导道路通道选择,从而避开不利于道路
<正>在今年全国两会上,营造良好营商环境是热度很高的重要话题。习近平总书记参加福建代表团审议时强调,要为各类所有制企业营造公平、透明、法治的发展环境,营造有利于企业
物联网的迅猛发展不仅带动了多个领域的经济发展,而且给人们的生活带来了越来越来多的便捷。在我国,物联网技术广泛应用于智能家居、智能交通、环境的保护和监测、电网、金融
喜树是一种多年生亚热带落叶阔叶树,属于蓝果树科,是我国特有树种。喜树叶中的喜树碱具有很高的药用价值,但目前对喜树叶的采摘仍然是以手工采摘为主,效率低。据调查,市场上