论文部分内容阅读
国民体质的提升既是国家社会经济发展的结果也是促进国家进步发展的重要动力。大学生是国家的栋梁,也是民族的希望,大学生体质健康的程度可以说将直接影响国家未来的兴衰。因此,大学生体质健康的提升和促进一直是各高校密切关注的重点问题。目前绝大部分的高校对学生的体质健康数据只是进行简单的统计分析,并以数据库的形式将数据进行储存,缺少对数据进行深度分析,无法对学生体质的提升起到良好的促进作用,也无法针对本校学生的特点和需求开展体育教学。为了解决上述问题,加上对之前相关研究的思考,本研究选取某大学2020年本科生体质健康测试数据,对数据样本进行K-means算法的聚类分析,并根据聚类结果训练决策树模型,通过模型分析不同类别学生的体质特征,以便于运动处方的制定。聚类分析是要将大量的数据样本按照一定的规则进行分配,将数据分成若干个"簇",同簇之内的元素尽可能相似,不同簇之间的元素尽可能不同。进行聚类分析时使用的方法不同,得到的结果也不一样,需要根据研究的需求来选择合适的方法。K-means算法是一种典型的基于划分的聚类算法,通常以距离作为评价相似性的标准,即认为两个对象之间的距离越近,其相似度就越大。K-means算法是一个最优化求解问题,在目标函数中寻找一个全局最小点,进而解决数值型属性数据对象的聚类问题。K-means算法的计算速度快,计算量小,耗费时间少,对具有凸特性的数据集有着非常好的聚类效果。同时K-means算法思想也比较简单,容易使用。决策树是一种比较常见的机器学习方法,通过对训练集中的数据所表现出的特征及属性进行总结分析,找到一个可以确切描述与分类这些特征及属性的模型,并且借助该模型可以对未来获得的不可预测的数据进行分类。同时,决策树算法也是一种归纳学习的算法,为了得到一个泛化能力强的决策树模型,来对数据集进行总结分类,基于不同的数据,使用不同的分类标准,不断对数据进行决策分类,使得决策树分支结点的"纯度"越来越高,直到最后无法继续进行分类。常见的决策树分类算法有ID3算法、C4.5算法、SLIQ算法、CART算法等。本研究选取某大学2020年学生体质健康数据作为样本集进行研究,包含大一、大二、大三、大四四个年级共7933人。该大学学生体质健康测试的开展、评分等完全按照《国家学生体质健康标准》进行。在进行数据预处理后,对于男生,选择肺活量分数、50米跑分数、1000米跑分数、立定跳远分数、坐位体前屈分数、引体向上分数、总平均分这7个字段作为输入字段进行聚类;对于女生,则选用肺活量分数、50米跑分数、1000米跑分数、立定跳远分数、坐位体前屈分数、仰卧起坐分数、总平均分7个字段作为输入字段进行聚类。聚类后根据评分的平均值由高到低的顺序,将聚类结果分成四类:优秀、良好、一般、较差。将聚类结果算出后,选择CART分类树算法建模,代入决策树模型,生成男生七层决策树模型和女生七层决策树模型。根据决策树模型可以分析出不同类别的学生分别具有以下特征:1.聚类结果为优秀的男生的特点:(1)1000米跑分数大于98分,(2)立定跳远分数大于69分,(3)引体向上分数大于78分。2.聚类结果为良好的男生的特点:(1)1000米大于45分,(2)坐位体前屈大于68分,(3)引体向上大于45分,(4)50米跑大于82.5分,(5)身高体重大于70分。3.聚类结果为一般的男生的特点:(1)50米跑大于55分,(2)引体向上小于45分,(3)身高体重大于70分,(4)立定跳远大于25分,(5)1000米跑大于45分。4.聚类结果为较差的男生的特点:(1)引体向上小于25分,(2)立定跳远小于45分,(3)1000米跑小于45分。5.聚类结果为优秀的女生的特点:(1)坐位体前屈大于90分,(2)50米跑大于75分,(3)一分钟仰卧起坐大于95.5分,(4)肺活量大于77分,(5)立定跳远大于75分,(6)800米跑大于77分。6.聚类结果为良好的女生的特点:(1)坐位体前屈大于32分),(2)一分钟仰卧起坐小于95.5分大于55.5分,(3)肺活量大于77分,(4)立定跳远大于75分。7.聚类结果为一般的女生的特点:(1)50米跑大于25分小于77分,(2)肺活量小于92.5分,(3)800米跑大于25分小于77分,(4)立定跳远大于15分。8.聚类结果为较差的女生的特点:(1)立定跳远小于55分,(2)50跑小于55分,(3)800米跑小于25分。基于决策树与K-means混合分类模型可以帮助高校对学生体质进行分类,在不依靠外界标准的前提下,对校内学生体质进行分类评估;同时借助决策树模型,分析出不同体质水平的学生的体质特征,找出优势与不足,还可以对比校内学生与《国家学生体质健康标准》的差距,从而帮助学生快速、科学、高效地提升体质,促进身体健康。