论文部分内容阅读
摘 要:本文对某校学生的晨跑情况进行了抽样调查。了解到学生群体中普遍对现行晨跑制度中每天固定的晨跑距离感到不满,因此本课题组从这个问题出发,考虑学生个体课程情况和天气情况与每天适宜的晨跑距离之间的关系。使用回归分析中多类别的Logistic回归方法构建数学模型,从而对能否优化现有的晨跑机制进行了可行性研究。并得到以下一些结论:
(1)当日睡眠情况及第一节是否有课是能否进行运动的重要依据;(2)大学生每日课程量会对运动效果及身体健康产生重要影响;
(3)利用logistic回归构建数学模型可以改善现有运动量的僵化情况;(4)在数据足够支持的情况下,可以挖掘出更多影响因子
关键词:每日课程量;天气情况;回归分析;Logistic
一、引言
大学生体质历来是我国社会各界关注的重点,为了提升大学生的身体素质,让大学生养成主动锻炼的好习惯,全国各大高校陆续推行晨跑APP打卡制度。与此同时,我们通过调研发现,打卡制度固定僵化的模型存在缺陷。通过阅读大量相关文献,先从天气情况考虑如何改善现在的晨跑制度,再通过分发问卷从学生方面了解情况,从而找出问题所在,以求提高学生们的运动质量和运动热情。故下文将从天气和个人两方面进行分析。
二、研究对象和方法
在我们的研究中,针对2017和2018级在校大学生为主要研究对象。本研究主要采用文献综述,问卷调查的方法和数理统计分析研究方法。通过查阅相关资料并由体育学院专家审核设计制定最终调查问卷。
我们通过设置二十道简明的单选题,涵盖被调查者的个人信息外,也包含本课题中关于因变量取值,即是否晨跑,晨跑后个人感觉;解释变量取值,即睡眠质量,第一节是否有课,课程数,对晨跑的个人喜好的问题
调查对象是在校大学生,共有700名同学对此次问卷进行认真作答,回收有效问卷683份,回收率97.6 %。
三、回归模型的建立
我们选取 值(显著性概率值)作为统计量来逐个检验自变量的显著性,当 时,可接受原假设,即此自变量不显著,应当予以剔除。并且选取F作为统计量来检验回归方程的显著性, ,其中 , ,当 值大于临界值 时,说明回归方程显著。
我们使用逐步回归的基本思想将变量逐个引入模型,每引入一个解释变量后都要进行 检验,并对已经选入的解释变量逐个进行 值的检验,当原来引入的解释变量由于后面解释变量的引入变得不再显著时,则将其删除。以确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从回归方程中剔除为止。以保证最后所得到的解释变量集是最优的。
(1)模型的探索
为探究大学生个体在某一天是否参与晨跑,以及晨跑质量的影响要素,通过随机选取学生群体,记录每日出勤状况,当天的天气和课程情况及前一天的睡眠情况等。并且为了方便计算,我们将合适的运动量划为五个不同的等级。而同时要使这些变量和运动量之间有联系,通过查阅资料,我们使用Logistic回归建立合适的函数关系。
(2)自变量和因变量的选取
我们利用显著性水平进行逐步回归,以确定自变量是否应该加入到回归模型中。我们先前较为看好的“个人喜好程度”,因其较不显著,予以剔除,也从侧面说明了现在大学生对晨跑行为较为抵触。
我们假设大学生不存在身体健康情况这一影响因素,所以并没有选取它作为一个自变量。因为恶劣的环境会使得人们的运动成果适得其反,所以我们选取天气情况及其污染程度作为两个自变量中。同时,学生当日的课程也与运动效果有着显著关系,是故我们选取当日课程量作为第三个自变量。
我们选择使用多类别的Logistic回归,所以我们的因变量为定性因变量,即只有1,2,3,4,5这五个值,依次代表不运动,运动500米,运动1000米,运动1500米,运动2000米。
(3)基本模型
多类别的Logistic回归函数通式如下
其中 是指多类别的Logistic回归模型中第 组样本的因变量取第 个类别的概率
是指第 组样本的因变量取第 个类别的系数
(4)模型的求解
依据上述式子确定的模型,我们将“第一节是否有课”“、“前日睡眠质量”、”“当天课程数量”这三个自变量设为X1,X2,X3,将“应跑距离”这个因变量设为Y,并将通过问卷所收集到的数据依次导入SPSS,然后通过SPSS软件计算三个未知参数的估计值,其中的 的取值在下表中。
其中的 的取值在下表中
(5)模型的检验与优缺点
对于求解出的模型,我们选取作为检验数据中的240组数据代入我们的模型之中得到了240组预测结果,并与我们与原先的数据进行比对发现正确率达到了80.83%这也说明了我们的模型对于每日的运动量的预测是较为准确的。将因变量和自变量都转化为定性变量,认为logistic回归是较为不错的方案。还可进一步考虑下述内容:
(1)本课题的的主旨是调查课程数量,第一节是否有课,前一晚的睡眠质量,对运动的个人喜好程度等不同变量对当天适当的晨跑距离的影响,但是由于大学生晨跑受到次数指标的限制,且有截止时间,也就是说可能会发生如下情形:快到截止时间了,某同学仍未达到次数要求,则此时他是否作出晨跑决策完全与睡眠质量,课程数等无关。诸如这样的样本会大大影响回归的准确度。
(2)本回归模型在选取样本时,虽已极大可能的保证每个样本之间是独立的,但是不可避免的样本之间还是会相互影响,在如下情形下,回归方程会受到严重影响:假设某几个样本是同一宿舍,则这几个样本每个人作出是否晨跑的决策可能会收到某一个人的影响。
四、模型的运用
通过求得Logistic回归的各项系数,模型便由此完成构建。我们将单个学生的具体情况以数据方式代入方程,便可得到晨跑取不同数值的概率,而我们选择能使得概率达到最大的晨跑距离的数值作为结果,即可确定该学生在今日应该晨跑的距离。
通过模型所确定的不同學生在不同情况下应该晨跑的距离,我们能够以此改善当今固化单一的晨跑制度,将晨跑距离与每个学生个人情况结合起来,以重新规定一个更加人性,理性的晨跑制度。
参考文献:
[1] 刘波,罗刚林.雾霾环境天气下对户外体育运动人群影响研究[J].环境科学与管理,2018,43(01):94-97.
[2] 张金国.扬州大学学生晨跑现状调查及影响因素的实证研究[D].扬州大学,2018.
[3] 申其淇.大学生体育锻炼运动量与幸福感的关系的调查研究——以北京师范大学为例
[4] 中国体育科学学会运动心理学分会、中国心理学会体育运动心理专业委员会.第十一届全国运动心理学学术会议摘要集(会后版)
[5] 中国体育科学学会运动心理学分会、中国心理学会体育运动心理专业委员会:中国体育科学学会运动心理学分会,2018:1.
基金项目:
项目经费来源:扬州大学大学生客创基金项目。本项目得到“江苏高校品牌专业建设工程资助项目(数学与应用数学,PPZY2015B109)”经费资助。
(作者单位:扬州大学)
(1)当日睡眠情况及第一节是否有课是能否进行运动的重要依据;(2)大学生每日课程量会对运动效果及身体健康产生重要影响;
(3)利用logistic回归构建数学模型可以改善现有运动量的僵化情况;(4)在数据足够支持的情况下,可以挖掘出更多影响因子
关键词:每日课程量;天气情况;回归分析;Logistic
一、引言
大学生体质历来是我国社会各界关注的重点,为了提升大学生的身体素质,让大学生养成主动锻炼的好习惯,全国各大高校陆续推行晨跑APP打卡制度。与此同时,我们通过调研发现,打卡制度固定僵化的模型存在缺陷。通过阅读大量相关文献,先从天气情况考虑如何改善现在的晨跑制度,再通过分发问卷从学生方面了解情况,从而找出问题所在,以求提高学生们的运动质量和运动热情。故下文将从天气和个人两方面进行分析。
二、研究对象和方法
在我们的研究中,针对2017和2018级在校大学生为主要研究对象。本研究主要采用文献综述,问卷调查的方法和数理统计分析研究方法。通过查阅相关资料并由体育学院专家审核设计制定最终调查问卷。
我们通过设置二十道简明的单选题,涵盖被调查者的个人信息外,也包含本课题中关于因变量取值,即是否晨跑,晨跑后个人感觉;解释变量取值,即睡眠质量,第一节是否有课,课程数,对晨跑的个人喜好的问题
调查对象是在校大学生,共有700名同学对此次问卷进行认真作答,回收有效问卷683份,回收率97.6 %。
三、回归模型的建立
我们选取 值(显著性概率值)作为统计量来逐个检验自变量的显著性,当 时,可接受原假设,即此自变量不显著,应当予以剔除。并且选取F作为统计量来检验回归方程的显著性, ,其中 , ,当 值大于临界值 时,说明回归方程显著。
我们使用逐步回归的基本思想将变量逐个引入模型,每引入一个解释变量后都要进行 检验,并对已经选入的解释变量逐个进行 值的检验,当原来引入的解释变量由于后面解释变量的引入变得不再显著时,则将其删除。以确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从回归方程中剔除为止。以保证最后所得到的解释变量集是最优的。
(1)模型的探索
为探究大学生个体在某一天是否参与晨跑,以及晨跑质量的影响要素,通过随机选取学生群体,记录每日出勤状况,当天的天气和课程情况及前一天的睡眠情况等。并且为了方便计算,我们将合适的运动量划为五个不同的等级。而同时要使这些变量和运动量之间有联系,通过查阅资料,我们使用Logistic回归建立合适的函数关系。
(2)自变量和因变量的选取
我们利用显著性水平进行逐步回归,以确定自变量是否应该加入到回归模型中。我们先前较为看好的“个人喜好程度”,因其较不显著,予以剔除,也从侧面说明了现在大学生对晨跑行为较为抵触。
我们假设大学生不存在身体健康情况这一影响因素,所以并没有选取它作为一个自变量。因为恶劣的环境会使得人们的运动成果适得其反,所以我们选取天气情况及其污染程度作为两个自变量中。同时,学生当日的课程也与运动效果有着显著关系,是故我们选取当日课程量作为第三个自变量。
我们选择使用多类别的Logistic回归,所以我们的因变量为定性因变量,即只有1,2,3,4,5这五个值,依次代表不运动,运动500米,运动1000米,运动1500米,运动2000米。
(3)基本模型
多类别的Logistic回归函数通式如下
其中 是指多类别的Logistic回归模型中第 组样本的因变量取第 个类别的概率
是指第 组样本的因变量取第 个类别的系数
(4)模型的求解
依据上述式子确定的模型,我们将“第一节是否有课”“、“前日睡眠质量”、”“当天课程数量”这三个自变量设为X1,X2,X3,将“应跑距离”这个因变量设为Y,并将通过问卷所收集到的数据依次导入SPSS,然后通过SPSS软件计算三个未知参数的估计值,其中的 的取值在下表中。
其中的 的取值在下表中
(5)模型的检验与优缺点
对于求解出的模型,我们选取作为检验数据中的240组数据代入我们的模型之中得到了240组预测结果,并与我们与原先的数据进行比对发现正确率达到了80.83%这也说明了我们的模型对于每日的运动量的预测是较为准确的。将因变量和自变量都转化为定性变量,认为logistic回归是较为不错的方案。还可进一步考虑下述内容:
(1)本课题的的主旨是调查课程数量,第一节是否有课,前一晚的睡眠质量,对运动的个人喜好程度等不同变量对当天适当的晨跑距离的影响,但是由于大学生晨跑受到次数指标的限制,且有截止时间,也就是说可能会发生如下情形:快到截止时间了,某同学仍未达到次数要求,则此时他是否作出晨跑决策完全与睡眠质量,课程数等无关。诸如这样的样本会大大影响回归的准确度。
(2)本回归模型在选取样本时,虽已极大可能的保证每个样本之间是独立的,但是不可避免的样本之间还是会相互影响,在如下情形下,回归方程会受到严重影响:假设某几个样本是同一宿舍,则这几个样本每个人作出是否晨跑的决策可能会收到某一个人的影响。
四、模型的运用
通过求得Logistic回归的各项系数,模型便由此完成构建。我们将单个学生的具体情况以数据方式代入方程,便可得到晨跑取不同数值的概率,而我们选择能使得概率达到最大的晨跑距离的数值作为结果,即可确定该学生在今日应该晨跑的距离。
通过模型所确定的不同學生在不同情况下应该晨跑的距离,我们能够以此改善当今固化单一的晨跑制度,将晨跑距离与每个学生个人情况结合起来,以重新规定一个更加人性,理性的晨跑制度。
参考文献:
[1] 刘波,罗刚林.雾霾环境天气下对户外体育运动人群影响研究[J].环境科学与管理,2018,43(01):94-97.
[2] 张金国.扬州大学学生晨跑现状调查及影响因素的实证研究[D].扬州大学,2018.
[3] 申其淇.大学生体育锻炼运动量与幸福感的关系的调查研究——以北京师范大学为例
[4] 中国体育科学学会运动心理学分会、中国心理学会体育运动心理专业委员会.第十一届全国运动心理学学术会议摘要集(会后版)
[5] 中国体育科学学会运动心理学分会、中国心理学会体育运动心理专业委员会:中国体育科学学会运动心理学分会,2018:1.
基金项目:
项目经费来源:扬州大学大学生客创基金项目。本项目得到“江苏高校品牌专业建设工程资助项目(数学与应用数学,PPZY2015B109)”经费资助。
(作者单位:扬州大学)