统计软件R在回归分析教学中的应用

来源 :数学学习与研究 | 被引量 : 0次 | 上传用户:byekao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】鉴于统计软件R具有自由、免费、源代码开放以及回归分析应用性强的特点,本文提出利用R软件向理论教学渗透的教学方法,使得理论教学和实践教学相结合从而提高教学效果,同时列举两个教学案例加以分析说明.
  【关键词】回归分析;R软件;案例教学
  一、概 述
  回归分析是对具有相关关系的两个或两个以上的变量进行统计分析的一种常用方法,是统计学中的一个非常重要的分支,已广泛应用于社会经济、自然科学、管理科学等多个领域.传统的教学方法主要是教师在黑板上讲授知识,推导理论性质和结果,烦琐的矩阵、线性代数计算使得学生产生厌学的消极心理,这种重理论、轻实践的教学方式使得学生在运用回归分析理论方法处理生活中的实际问题时存在不少困难,难以将理论知识应用于实践解决实际问题[1,2].随着科学技术的发展,收集数据的能力有了快速地提高,大数据的研究已成为当今时代的宠儿,高维数据是统计学领域的一个研究热点和重点问题.当学生面临多变量的大数据进行分析时,学生不能通过简单的手工计算得到结果,此时需要借助统计软件进行分析处理,本文将讨论如何将免费的统计软件R应用于回归分析的教学中,将在实际案例的分析教学中,讲解R软件的操作过程,通过这种方式训练学生利用统计软件R解决实际问题的能力[3,4].
  二、案例教学
  本文从回归分析课程教学的现状出发,结合笔者在实际教学过程当中发现的问题,提出了将统计软件R和理论教学同步进行,在教学过程中链接统计R软件的窗口操作,直观易懂,不仅使学生熟悉统计软件R的操作,还能培养学生将理论与实践相结合的能力.本文通过回归分析中三个重要的知识点加以分析说明.
  例1 当随机误差存在异方差性时,普通最小二乘估计β^虽是无偏的,但参数的显著性检验失效[5,6].
  在向学生讲授这个重要性质时,如果仅仅以文字语言来表达比较抽象,此时便可以借助随机模拟来帮助学生加以理解.考虑如下多元线性模型
  其中y是由响应变量构成的n维向量,X是n×2维的设计矩阵,β是2×1维未知参数向量,ε是n维误差向量[5,6].首先利用统计软件R模拟产生n=100个来自二元正态分布N(μ,Σ)的随机样本,组成n×2的数据矩阵X,其中β1=1,β2=0.5,μ=32,Σ=10.50.51,采用以下两种方式产生随机误差:(1)异方差ε=x21 x22ζ;(2)同方差ε=ζ,其中ζ~N(0,25).再由(1)式算出100个y值后计算每次模拟所得参数的最小二乘估计值,随机模拟2 000次.通过编写R程序代码,可以计算出2 000次随机模拟所得参数估计值β^的平均值以及β^的真实方差和估计方差,运行结果见表1:
  由表1可知,无论误差来源于同方差还是异方差,最小二乘估计都是无偏的,因为参数的估计值和真实值很接近.当误差服从同方差时,β^1和β^2的真实方差和估计方差相差不大.此外,由表1的第3列和第6列可知,异方差下β^1和β^2的方差大于在同方差条件下的方差.当误差存在异方差性时,β^1和β^2的估计方差远小于它们的真实方差,即在异方差下仍用普通最小二乘估计未知参数,将出现低估β^=(β^1,β^2)T的真实方差的情况,将导致高估回归系数t的检验值,可能造成本来不显著的某些回归系数变成显著,从而参数的显著性检验失效,回归方程的应用效果极不理想.通过该实践教学过程,可以让学生更好地理解这一抽象概念.
  例2 当误差存在序列相关时,普通最小二乘估计β^虽是无偏的,但参数的显著性检验失效[5,6].
  这里仍然用例1的方法产生X和β,随机误差来源于一阶自回归模型:εt=ρεt-1 ut,其中相关系数ρ的值从0到1变化,ut~N(0,1),再由(1)式算出100个y值后计算每次模拟所得参数的最小二乘估计值,模拟2 000次.通过编写程序,可以计算出2 000次随机模拟所得参数估计值β^的平均值以及参数估计值β^的真实方差和估计方差,运行结果见表2:
  由表2可知,当误差存在序列相关时,参数向量估计值β^的估计方差小于它的真实方差,随着相关程度的增强,差距增大,即在序列相关下用普通最小二乘估计参数,将出现低估β^的真实方差的情况,容易导致对t值评价过高,常用的F检验和t检验失效.如果忽视这一点,可能导致得出回归参数统计检验为显著,但实际上并不显著的严重错误结论.如果不加处理地运用普通最小二乘法估计模型参数,那么用此模型进行预测和结构分析将会带来较大的方差,甚至是错误的解释.
  由表3可知,自变量x1与x2的相关程度越高,多重共线性越严重,回归系数的估计值的方差就越大,回归系数的置信区间就变得很宽,估计的精确性大幅度降低,使得估计值稳定性变得很差,进一步使得回归方程整体高度显著时,一些回归系数不能通过显著性检验,回归系数的正负号可能出现倒置,使回归方程无法得到合理的经济解释,从而影响最小二乘的应用效果,降低回归方程的应用价值[5,6].
  三、结 论
  回归分析课程有很强的理论性与实践性,因此,可以利用统计软件R将抽象理论性质用数值结果展示,加深和巩固学生对理论知识的理解和认识,进而去引导、启发学生发现问题、思考问题、解决问题,进而培养学生的创新能力.因此,教师在上课的过程中可以借助R软件将理论上难以理解的知识点通过数值结果展示出来,进而提升教学质量,以期取得较好的教学效果.为了更好地适应大数据时代发展对统计学人才培养的要求,注重人才实践能力的培养已得到国内高校的普遍肯定和重视,因此,在实际教学中应该将实践和理论进行有效的结合[7].
  【参考文献】
  [1]姚娟.《应用回归分析》课程的教学思考.经贸实践,2018(22):278-279.
  [2]彭娟.课题研究的教学模式的探索与实践——以《实用回归分析》课程的教学为例[J].湖北科技学院学报,2015(3):81-83.
  [3]薛毅,陈立萍.统计建模與R软件[M].北京:清华大学出版社,2007.
  [4]丁新涛,周在莹,王翠莲,肖睛.R软件教学的一些心得[J].课程教育研究,2013(34):125.
  [5]何晓群,闵素芹.实用回归分析:第二版[M].北京:高等教育出版社,2014.
  [6]何晓群,刘文卿.应用回归分析:第四版[M].北京:中国人民大学出版社,2015.
  [7]李婷婷,郝媛媛,刘洋.多元统计分析课程中实践教学向理论教学的渗透[J].西南师范大学学报(自然科学版),2017(12):163-166.
其他文献
【摘要】本文在給出若干条件下,利用巴拿赫压缩原理,证明了一类积分方程的加权伪概自守解的存在性及唯一性的问题.  【关键词】方程;加权伪概自守;巴拿赫;不动点  【基金项目】国家自然科学基金项目(11571005).  本文在参考文献[1-4]的基础上,研究了如下积分方程的加权伪概自守解的存在性及唯一性.  一、预备工作  【参考文献】  [1]NGuerekata G.M.,Almost Auto
对淮安市2011年水稻纹枯病大发生情况进行调查总结,通过分析纹枯病重发原因,探讨了防治对策。
[摘要]目的 探讨丙泊酚静脉全麻用于小儿MRI检查的安全性和有效性。方法 选择2015年1~5月期间我院收治的需行MRI检查的患儿共60例随机分A、B、C组,每组20例,A组用丙泊酚2mg/(kg·h)持续静注,B组用丙泊酚4mg/(kg·h)持续静注,C组用丙泊酚6mg/(kg·h)持续静注。选择2015年5~10月期间我院收治的需行MRI检查的患儿共40例,随机分为A1组和B1组,A1组为丙泊
作为一种与人类社会相伴而生的社会现象,财富生产与人的发展密不可分。在阶级社会中,财富生产和人的发展是完全背离的,财富的积累不但未能促进人的全面发展,反而成为人的全面
【摘要】为推动高等数学“课程思政”工作的有效开展,通过介绍高等数学“课程思政”教学的内容,提出了高等数学“课程思政”教学的着力点,举例说明了如何进行高等数学“课程思政”教学.  【关键词】高等数学;课程思政;实践  教育的根本任务是立德树人,核心是解决好“培养什么人、怎么培養人、为谁培养人”这个根本问题.各高校为深入贯彻落实习近平总书记在全国各省高校思想政治工作会议和学校思想政治理论课教师座谈会讲