论文部分内容阅读
2020年,新型冠状病毒呈现并流行。自2020年1月至2020年3月,湖北省是全国最严重的疫情地区。新冠疫情对我国的教育行业产生了很大的影响,学生停课但不停学,开展网上教学。数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程,包含有多种算法,例如聚类、预测等。本文使用到的数据挖掘算法有多元线性回归分析算法、粗糙集属性约简算法、主成分分析算法和K均值聚类分析算法等。本文的数据来源包括两部分,第一部分是湖北省卫健委官方网站统计数据,第二部分是通过某教育机构发放调查问卷,得到样本数据。学生层次覆盖全面,所研究的各个因素均有分布,因此数据研究具有可行性。本文主要涉及以下三种算法:(1)通过使用多元线性回归算法分析湖北省疫情数据;(2)通过使用粗糙集属性约简算法分析疫情期间学生学习的影响因素;(3)本文将主成分分析算法、粗糙集算法和K均值聚类分析算法相结合,使用一种综合性的聚类分析算法来对数据进行聚类。其中,第三种算法是本文提出的一种综合性算法,该算法将多种数据挖掘算法相结合,综合利用主成分降维和粗糙集能够解决不确定问题的优势,对数据进行聚类,并与传统的K均值聚类分析算法相对比,验证了该算法的优越性。本文实现了以下三个模型应用:一是建立多元线性回归模型。针对官方网站发布的湖北省疫情数据,具体从2020年1月20日至2020年5月31日的数据,通过建立多元线性回归算法进行研究累计确诊数据与其他数据之间的线性关系,尤其通过建立的线性回归模型分析累计确诊数据和累计治愈数据形成的线性关系,并分析原因。二是建立粗糙集属性约简算法模型。针对疫情期间的学生进行问卷调查,分析影响学生学习的因素。本文通过发放调查问卷,形成样本数据,建立粗糙集属性约简算法模型,来分析疫情期间学生学习的影响因素,本文还采用了因子分析算法进行数据对比分析,通过因子分析算法进一步验证了粗糙集属性约简算法的正确性。三是建立基于主成分分析的粗糙集聚类综合模型。针对疫情期间学生学习进行调查问卷,得到样本数据,从而将学生进行聚类。本文将主成分分析算法、粗糙集算法和K均值聚类分析算法相结合,提出一种基于主成分分析的粗糙集聚类综合算法,对样本进行粗糙集聚类分析,与传统的K均值聚类分析对比,验证了该算法的优越性,并对不同类学生提出对应的建议。