论文部分内容阅读
引言
学生体质测试的数据对每个国家来说都是十分重要的资料,既要妥善保管又要充分地分析利用,所以目前建立一种新型的青少年体质健康数据分析处理系统或平台对国家具有重要的意义。通过青少年体质健康数据处理系统进行科学合理地配置数据处理功能,便于实现体质测试后各类各项指标的统计分析,快速方便地给出体质数据以及数据分析的可视化的结果。便于学生及教师对学生体质状况的直观了解,通过该系统改善青少年学生体质干预的措施,优化目前体质数据分析处理系统的不足。本研究运用目前系统开发、数据库搭建以及结果可视化的最新技术来进行系统的开发,以一个新的视角对大数据视域下青少年体质测试的数据进行处理分析,能够从客观上更好地了解学生的健康状况,对研究青少年的真实健康状态具有实际的应用价值。同时丰富了这一领域的研究成果,为促进青少年体质发展提供理论支持和实践经验。
1无监督聚类分析
1.1大數据分析采用聚类算法
欲分析体质健康各项因素对样本体质健康的影响,应学习样本集的概率分布。常用的参数估计方法往往需要假定样本集符合某一概率分布,随后根据样本集拟合该分布中的参数。但该概率分布的选取需要主观的先验,往往难以拟合出与真实分布近似的模型。而非参数估计的方法不加入任何先验知识,根据数据本身的特点与性质,拟合数据分布。在此我们使用无监督聚类算法——K均值聚类对体质健康测试数据进行分析。K均值聚类是一种典型的无监督机器学习聚类算法,通过预先设定聚类个数,随机初始化中心点,将各个数据划分至特征空间内欧式距离最近的类别中心;随后根据各个类的数据分布,重新计算类中心点的坐标;根据更新后的类中心点的坐标,重新更新各数据点的类簇归属,不断反复直至类中心点的坐标不再移动,达到收敛。在对体质健康数据应用K均值聚类算法前,我们对数据进行了筛选与清理,去除了“城乡”、“性别”等不能直接反映体质健康的数据,只保留了体质健康指标相关的数据,并对少量缺失数据以样本群体均值进行填充。随后对数据进行了归一化处理,对体质健康数据中的特征,应用变换将其标准化,以消除数值对整体分布带来的影响。聚类算法收敛后,通过核密度估计,分析各群体各属性的概率密度分布,以探究各体质健康因素对人群的影响。
1.2无监督聚类结果实现路径
无监督聚类结果页面
2.学生体质健康数据无监督分类结果
本研究数据来源为陕西省2014年全国学生体质测试数据。2.1各年龄阶段人群分类示意图随机把研究对象分为四类:男性健康群体、男性不健康群体、女性健康群体、女性不健康群体。通过数据分析结果如下图:
从上图中可以看出,7—14岁群体男女生身体素质和健康水平差异不显著,身体素质的优劣区分度不大,但是从15—16岁开始,男女生身体素质差异程度逐渐拉大,从17岁以后,男女差别更大。身体素质优劣区分随着年龄的增加区分度逐渐增加。
2.2 7岁群体聚类分析结果
从表中可以看出,一共有四类0,1,2,3.对于群体1与群体2,其握力均为正值,显著高于群体均值,故判断群体1和群体2为男性群体。同理判断群体0和群体3为女性群体。针对群体1与群体2,群体1的BMI为负值,故该群体为男性健康群体,群体2为男性不健康群体,同理3为女性健康群体,0为女性不健康群体。
通过对四个群体聚类分析,7岁学生男性健康群体和男性不健康群体在体重、BMI、胸围、50米、立定跳远、耐力跑、皮脂厚度等指标两群体差异显著,视力、身高、坐高、肺活量、脉搏、握力、血压、坐位体前屈、斜身引体等指标两群体差异不明显。7岁学生女性健康群体和女性不健康群体在身高、坐高、体重、BMI、胸围等指标两群体差异显著,视力、肺活量、脉搏、50米、立定跳远、耐力跑、握力、血压、坐位体前屈、斜身引体、皮脂厚度等指标两群体差异不明显。
2.3 15岁群体聚类分析结果
从表中可以看出,一共有四类0,1,2,3.对于群体2与群体3,其身高、立定跳远和50米成绩综合分析其为男性群体,其中群体3为男性健康群体,群体2为男性不健康群体。同理判断群体0和群体1为女性群体。根据50米成绩和BMI数据,确定群体0为女性健康群体,群体1为女性不健康群体。
通过对四个群体聚类分析,15岁学生男性健康群体和男性不健康群体在体重、BMI、胸围、立定跳远、耐力跑、皮脂厚度等指标两群体差异显著,视力、身高、坐高、肺活量、脉搏、50米、握力、血压、坐位体前屈、引体向上等指标两群体差异不明显。15岁学生女性健康群体和女性不健康群体在BMI、50米、立定跳远、仰卧起坐、皮脂厚度等指标两群体差异显著,视力、身高、坐高、体重、胸围、肺活量、脉搏、耐力跑、握力、血压、坐位体前屈等指标两群体差异不明显。
2.4 22岁群体聚类分析结果
从表中可以看出,一共有四类0,1,2,3.对于群体0与群体2,其身高、立定跳远和50米成绩综合分析其为男性群体,其中群体0为男性健康群体,群体2为男性不健康群体。同理判断群体1和群体3为女性群体。根据50米成绩和BMI数据,确定群体1为女性健康群体,群体3为女性不健康群体。
通过对四个群体聚类分析,22岁学生男性健康群体和男性不健康群体在体重、BMI、胸围、耐力跑、皮脂厚度等指标两群体差异显著,视力、身高、坐高、肺活量、50米、脉搏、立定跳远、握力、血压、坐位体前屈、引体向上等指标两群体差异不明显。22岁学生女性健康群体和女性不健康群体在BMI、脉搏、耐力跑、皮脂厚度等指标两群体差异显著,视力、身高、坐高、体重、胸围、肺活量、握力、血压、坐位体前屈、50米、立定跳远、仰卧起坐等指标两群体差异不明显。
3结论
3.1 K均值聚类是一种典型的无监督机器学习聚类算法,能有效地对体质健康测试数据进行分析。 3.2從分类图中可看出,7-14岁男女生身体素质和健康水平差异不显著,身体素质的优劣区分度不大,但是从15-16岁开始,男女生身体素质差异程度逐渐拉大,从17岁以后,男女差别更大。身体素质优劣区分随着年龄的增加区分度逐渐增加。
3.3通过对四个群体聚类分析,7岁学生男性健康群体和男性不健康群体对比结果,体重、BMI、胸围、50米、立定跳远、耐力跑、皮脂厚度等指标差异显著,视力、身高、坐高、肺活量、脉搏、握力、血压、坐位体前屈、斜身引体等指标差异不明显。7岁学生女性健康群体和女性不健康群体对比结果,身高、坐高、体重、BMI、胸围等指标差异显著,视力、肺活量、脉搏、50米、立定跳远、耐力跑、握力、血压、坐位体前屈、斜身引体、皮脂厚度等指标差异不明显。
3.4通过对四个群体聚类分析,15岁学生男性健康群体和男性不健康群体对比结果,体重、BMI、胸围、立定跳远、耐力跑、皮脂厚度等指标差异显著,视力、身高、坐高、肺活量、脉搏、50米、握力、血压、坐位体前屈、引体向上等指标差异不明显。15岁学生女性健康群体和女性不健康群体对比结果,BMI、50米、立定跳远、仰卧起坐、皮脂厚度等指标差异显著,视力、身高、坐高、体重、胸围、肺活量、脉搏、耐力跑、握力、血压、坐位体前屈等指标差异不明显。
3.5通过对四个群体聚类分析,22岁学生男性健康群体和男性不健康群体对比结果,体重、BMI、胸围、耐力跑、皮脂厚度等指标差异显著,视力、身高、坐高、肺活量、50米、脉搏、立定跳远、握力、血压、坐位体前屈、引体向上等指标两群体差异不明显。22岁学生女性健康群体和女性不健康群体对比结果,BMI、脉搏、耐力跑、皮脂厚度等指标差异显著,视力、身高、坐高、体重、胸围、肺活量、握力、血压、坐位体前屈、50米、立定跳远、仰卧起坐等指标差异不明显。
参考文献:
[1]邢文华.中国青少年体质的现状及加强青少年体育的紧迫性[J].青少年体育,2012(01):5-6.
[2]李琳等.俄罗斯年前青少年体育发展战略及其启示武汉体育学院学报,2012(5):10-13.
[3]燕凌,李京诚,韩桂凤等.19世纪以来美国中小学体育发展历程及其启示[J].体刊,2015,(5):87-91.DOI:10.3969/j.issn.1006-7116.2015.05.017.
[4]王乐,张业安,王磊.近10年屏幕时间影响青少年体质健康的国外研究进展[J].体育学刊,2016,23(02):138-144.
[5]高刚,季浏.试述美国青少年体质健康测试发展及对我国的启示[J].成都体育学院学报,2013,39(6):22-26.DOI:10.3969/j.issn.1001-9154.2013.06.004.
[6]王永恒.数据分析系统发展的现状探讨[J].科技创新与应用,2015,(29):95.
[7]王元卓,靳小龙,程学旗等.网络大数据:现状与展望[J].计算机学报,2013,36(6):1125-1138.DOI:10.3724/SP.J.1016.2013.01125.
[8]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究状学思考[J].中国科学院院刊,2012,27(6):647-657.DOI:10.3969/j.issn.1000-3045.2012.06.001.
作者简介:武洛生(1969.04-)男,汉族,籍贯:河北邯郸,毕业院校:西安体育学院,毕业专业:体育教育,学历:本科,工作单位:西安体育学院,职称:教授,研究方向:体育教学与训练。
陕西省软科学项目,大数据视域下提高学生体质健康水平的研究。2019KM170。
学生体质测试的数据对每个国家来说都是十分重要的资料,既要妥善保管又要充分地分析利用,所以目前建立一种新型的青少年体质健康数据分析处理系统或平台对国家具有重要的意义。通过青少年体质健康数据处理系统进行科学合理地配置数据处理功能,便于实现体质测试后各类各项指标的统计分析,快速方便地给出体质数据以及数据分析的可视化的结果。便于学生及教师对学生体质状况的直观了解,通过该系统改善青少年学生体质干预的措施,优化目前体质数据分析处理系统的不足。本研究运用目前系统开发、数据库搭建以及结果可视化的最新技术来进行系统的开发,以一个新的视角对大数据视域下青少年体质测试的数据进行处理分析,能够从客观上更好地了解学生的健康状况,对研究青少年的真实健康状态具有实际的应用价值。同时丰富了这一领域的研究成果,为促进青少年体质发展提供理论支持和实践经验。
1无监督聚类分析
1.1大數据分析采用聚类算法
欲分析体质健康各项因素对样本体质健康的影响,应学习样本集的概率分布。常用的参数估计方法往往需要假定样本集符合某一概率分布,随后根据样本集拟合该分布中的参数。但该概率分布的选取需要主观的先验,往往难以拟合出与真实分布近似的模型。而非参数估计的方法不加入任何先验知识,根据数据本身的特点与性质,拟合数据分布。在此我们使用无监督聚类算法——K均值聚类对体质健康测试数据进行分析。K均值聚类是一种典型的无监督机器学习聚类算法,通过预先设定聚类个数,随机初始化中心点,将各个数据划分至特征空间内欧式距离最近的类别中心;随后根据各个类的数据分布,重新计算类中心点的坐标;根据更新后的类中心点的坐标,重新更新各数据点的类簇归属,不断反复直至类中心点的坐标不再移动,达到收敛。在对体质健康数据应用K均值聚类算法前,我们对数据进行了筛选与清理,去除了“城乡”、“性别”等不能直接反映体质健康的数据,只保留了体质健康指标相关的数据,并对少量缺失数据以样本群体均值进行填充。随后对数据进行了归一化处理,对体质健康数据中的特征,应用变换将其标准化,以消除数值对整体分布带来的影响。聚类算法收敛后,通过核密度估计,分析各群体各属性的概率密度分布,以探究各体质健康因素对人群的影响。
1.2无监督聚类结果实现路径
无监督聚类结果页面
2.学生体质健康数据无监督分类结果
本研究数据来源为陕西省2014年全国学生体质测试数据。2.1各年龄阶段人群分类示意图随机把研究对象分为四类:男性健康群体、男性不健康群体、女性健康群体、女性不健康群体。通过数据分析结果如下图:
从上图中可以看出,7—14岁群体男女生身体素质和健康水平差异不显著,身体素质的优劣区分度不大,但是从15—16岁开始,男女生身体素质差异程度逐渐拉大,从17岁以后,男女差别更大。身体素质优劣区分随着年龄的增加区分度逐渐增加。
2.2 7岁群体聚类分析结果
从表中可以看出,一共有四类0,1,2,3.对于群体1与群体2,其握力均为正值,显著高于群体均值,故判断群体1和群体2为男性群体。同理判断群体0和群体3为女性群体。针对群体1与群体2,群体1的BMI为负值,故该群体为男性健康群体,群体2为男性不健康群体,同理3为女性健康群体,0为女性不健康群体。
通过对四个群体聚类分析,7岁学生男性健康群体和男性不健康群体在体重、BMI、胸围、50米、立定跳远、耐力跑、皮脂厚度等指标两群体差异显著,视力、身高、坐高、肺活量、脉搏、握力、血压、坐位体前屈、斜身引体等指标两群体差异不明显。7岁学生女性健康群体和女性不健康群体在身高、坐高、体重、BMI、胸围等指标两群体差异显著,视力、肺活量、脉搏、50米、立定跳远、耐力跑、握力、血压、坐位体前屈、斜身引体、皮脂厚度等指标两群体差异不明显。
2.3 15岁群体聚类分析结果
从表中可以看出,一共有四类0,1,2,3.对于群体2与群体3,其身高、立定跳远和50米成绩综合分析其为男性群体,其中群体3为男性健康群体,群体2为男性不健康群体。同理判断群体0和群体1为女性群体。根据50米成绩和BMI数据,确定群体0为女性健康群体,群体1为女性不健康群体。
通过对四个群体聚类分析,15岁学生男性健康群体和男性不健康群体在体重、BMI、胸围、立定跳远、耐力跑、皮脂厚度等指标两群体差异显著,视力、身高、坐高、肺活量、脉搏、50米、握力、血压、坐位体前屈、引体向上等指标两群体差异不明显。15岁学生女性健康群体和女性不健康群体在BMI、50米、立定跳远、仰卧起坐、皮脂厚度等指标两群体差异显著,视力、身高、坐高、体重、胸围、肺活量、脉搏、耐力跑、握力、血压、坐位体前屈等指标两群体差异不明显。
2.4 22岁群体聚类分析结果
从表中可以看出,一共有四类0,1,2,3.对于群体0与群体2,其身高、立定跳远和50米成绩综合分析其为男性群体,其中群体0为男性健康群体,群体2为男性不健康群体。同理判断群体1和群体3为女性群体。根据50米成绩和BMI数据,确定群体1为女性健康群体,群体3为女性不健康群体。
通过对四个群体聚类分析,22岁学生男性健康群体和男性不健康群体在体重、BMI、胸围、耐力跑、皮脂厚度等指标两群体差异显著,视力、身高、坐高、肺活量、50米、脉搏、立定跳远、握力、血压、坐位体前屈、引体向上等指标两群体差异不明显。22岁学生女性健康群体和女性不健康群体在BMI、脉搏、耐力跑、皮脂厚度等指标两群体差异显著,视力、身高、坐高、体重、胸围、肺活量、握力、血压、坐位体前屈、50米、立定跳远、仰卧起坐等指标两群体差异不明显。
3结论
3.1 K均值聚类是一种典型的无监督机器学习聚类算法,能有效地对体质健康测试数据进行分析。 3.2從分类图中可看出,7-14岁男女生身体素质和健康水平差异不显著,身体素质的优劣区分度不大,但是从15-16岁开始,男女生身体素质差异程度逐渐拉大,从17岁以后,男女差别更大。身体素质优劣区分随着年龄的增加区分度逐渐增加。
3.3通过对四个群体聚类分析,7岁学生男性健康群体和男性不健康群体对比结果,体重、BMI、胸围、50米、立定跳远、耐力跑、皮脂厚度等指标差异显著,视力、身高、坐高、肺活量、脉搏、握力、血压、坐位体前屈、斜身引体等指标差异不明显。7岁学生女性健康群体和女性不健康群体对比结果,身高、坐高、体重、BMI、胸围等指标差异显著,视力、肺活量、脉搏、50米、立定跳远、耐力跑、握力、血压、坐位体前屈、斜身引体、皮脂厚度等指标差异不明显。
3.4通过对四个群体聚类分析,15岁学生男性健康群体和男性不健康群体对比结果,体重、BMI、胸围、立定跳远、耐力跑、皮脂厚度等指标差异显著,视力、身高、坐高、肺活量、脉搏、50米、握力、血压、坐位体前屈、引体向上等指标差异不明显。15岁学生女性健康群体和女性不健康群体对比结果,BMI、50米、立定跳远、仰卧起坐、皮脂厚度等指标差异显著,视力、身高、坐高、体重、胸围、肺活量、脉搏、耐力跑、握力、血压、坐位体前屈等指标差异不明显。
3.5通过对四个群体聚类分析,22岁学生男性健康群体和男性不健康群体对比结果,体重、BMI、胸围、耐力跑、皮脂厚度等指标差异显著,视力、身高、坐高、肺活量、50米、脉搏、立定跳远、握力、血压、坐位体前屈、引体向上等指标两群体差异不明显。22岁学生女性健康群体和女性不健康群体对比结果,BMI、脉搏、耐力跑、皮脂厚度等指标差异显著,视力、身高、坐高、体重、胸围、肺活量、握力、血压、坐位体前屈、50米、立定跳远、仰卧起坐等指标差异不明显。
参考文献:
[1]邢文华.中国青少年体质的现状及加强青少年体育的紧迫性[J].青少年体育,2012(01):5-6.
[2]李琳等.俄罗斯年前青少年体育发展战略及其启示武汉体育学院学报,2012(5):10-13.
[3]燕凌,李京诚,韩桂凤等.19世纪以来美国中小学体育发展历程及其启示[J].体刊,2015,(5):87-91.DOI:10.3969/j.issn.1006-7116.2015.05.017.
[4]王乐,张业安,王磊.近10年屏幕时间影响青少年体质健康的国外研究进展[J].体育学刊,2016,23(02):138-144.
[5]高刚,季浏.试述美国青少年体质健康测试发展及对我国的启示[J].成都体育学院学报,2013,39(6):22-26.DOI:10.3969/j.issn.1001-9154.2013.06.004.
[6]王永恒.数据分析系统发展的现状探讨[J].科技创新与应用,2015,(29):95.
[7]王元卓,靳小龙,程学旗等.网络大数据:现状与展望[J].计算机学报,2013,36(6):1125-1138.DOI:10.3724/SP.J.1016.2013.01125.
[8]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究状学思考[J].中国科学院院刊,2012,27(6):647-657.DOI:10.3969/j.issn.1000-3045.2012.06.001.
作者简介:武洛生(1969.04-)男,汉族,籍贯:河北邯郸,毕业院校:西安体育学院,毕业专业:体育教育,学历:本科,工作单位:西安体育学院,职称:教授,研究方向:体育教学与训练。
陕西省软科学项目,大数据视域下提高学生体质健康水平的研究。2019KM170。