论文部分内容阅读
【摘要】 利用R软件,将随机模拟技术应用到概率统计课程课堂教学中,实现对常用概率分布、大数定律、中心极限定理与假设检验等重点、难点内容进行实验式直观课堂教学,便于学生更好理解并掌握本课程的概念、知识与原理,为应用型本科院校的数学类课程课堂教学改革提供借鉴.
【关键词】 随机模拟;R软件;概率统计;课堂教学
【基金项目】 嘉兴学院南湖学院2017年课堂教学改革项目:“基于R软件的《概率统计》课程实验式教学探究”研究成果.
概率论与数理统计是一门研究随机现象及其规律的现代数学学科的重要分支,在自然科学、社会科学和工程技术等各个领域有着极其广泛的应用,特别是随着大数据、人工智能、机器学习方法的进一步发展与应用,该学科越来越受到广大业界与学者的重视.但由于其研究对象为随机现象,学科中所涉及的概念与方法独特,内容丰富,结果深刻,课程知识学习思维不同于传统的其他数学课程,并且概念繁多且较难以理解,又需要具备微积分学的基础,使得广大学生在学习本课程中存在较大的困难.另一方面,在课堂教学方式上,传统的课堂教学方法是教师采用课件展示,板书演算讲解,更多注重解释课程知识的数学原理,忽视概念知识点的模拟试验演示、图形图像化的直观展示与计算过程的计算机演示等,造成广大学生往往是被动接受相关的概念知识与方法,对抽象概念的实质领会可能存在较大困难,反映在本课程的课堂教学上,学生普遍反映不好理解课程中的抽象定义、概念、公式与计算,遇到问题往往不知如何分析,无从下手,从而导致较多学生对本课程的学习积极性不高,兴趣不浓,甚至存在少部分学生对本课程学习产生畏惧心理,使得课程课堂教学效果不够理想.为此,如何改变本课程的传统理论教学模式,探究对本课程的课堂教学改革,实现将复杂、抽象的概率统计概念、原理变得直观、形象,容易理解,从而激发广大学生对本课程的学习兴趣,提高学习的主动性,增强学习的信心,一直以来,广大讲授概率论与数理统计课程的教师在进行着不断的探索[1].
随着计算机技术的迅猛发展和统计软件强大功能的逐渐凸显,概率统计课程的课堂教学实验化逐渐成为现实.由于R软件[2-3]具有体积小、免费、自由、友好的界面、强大的可视化功能、有数以万计的程序扩展包等多方面优势,在当前,其迅速兴起,以及被广泛使用于各种数据分析工作中,它已经成为当前国外大学课堂教学[4]中使用的标准软件之一,随着国外R软件图书资料的引入及其中文版译书的增多,国内广大教师与业界人士也越来越重视R软件的使用.R软件大量的程序扩展包不但能够引领学生学习先进的统计理论,也能为他们学习计算机编程提供优秀的范例.笔者认为,利用R软件的强大计算与图形展现能力,将随机模拟技术应用到概率论与数理统计[5]的课堂教学中,向学生展现随机现象发生的全部可能的结果,对结果的分析计算,进行直观演示,绘制数据的图形图像,实现“所思”即“所见”,使得学生能深刻理解课程的知识原理与结论.通过基于R软件的随机模拟技术易于将抽象问题直观形象化,并应用于教学内容的验证与知识的探索,使得广大学生带着问题,通过自己编程独立地解决实际问题,这将改变传统的理论教学模式.直观形象的可视化教学[6]能极大激起學生学习的兴趣,提高教学效果,是适应时代发展需要的课程改革非常有益的尝试.
一、常用随机变量概率分布模拟
随机变量的概率分布是概率统计课程中基础而又重要的内容,其主要用于描述随机变量取值的概率规律,其是对现实世界数据进行建模的重要工具.在基础概率统计课程中主要是二项分布、泊松分布、均匀分布、指数分布、正态分布以及统计抽样中的卡方分布、t分布与f分布等.在R软件中给出了各 种概率分布的统一相关函数的计算式,即前缀 分布名称.前缀d表示概率密度函数值,p表示累积概率密度函数值,q表示分位数,r表示模拟产生相应分布的随机 数.
二、大数定律的模拟验证分析
大数定律回答了在试验条件不变下,随着试验次数的增多,随机事件的频率将接近其概率.设X1,…,Xm是一个独立同分布的随机变量序列,X 表示其样本均值,μ表示总体均值,则有当n→∞时,X →μ.该结论描述了样本均值变化的趋势,反映了平均结果的稳定性这一随机现象最根本的性质之一.
从图1可以发现,当样本量较少时,样本均值稳定性不是很好,但是随着样本量的增加,样本均值逐渐收敛到总体均值的特征越来越明显.
从大数定律中可以看到样本均值的收敛性质,但如果要进一步回答样本均值可能服从的分布,大数定律就无法给出结果,只有基于中心极限定理才能给出明确的回答.
(一)模拟的算法步骤
第一步:从常见的分布中选择一个分布,例如,均匀分布,从中产生若干个随机数;第二步:计算这些随机数的均值,即获得样本均值;第三步:变化生成随机数的数量,多次运行第一步、第二步.
(二)验证程序
设置从标准均匀分布中抽取1 000个随机数,计算其关于抽取次数的样本均值,运行程序如下:n=1000;y=rep (0,n);for(i in 1:n){ y[i]=mean(runif(i))};x=1:n;plot(x,y).
三、中心极限定理的验证分析
众所周知,正态分布的总体的样本和样本均值当然服从正态分布.对于不是正态分布总体的样本,随着样本量的增加,其样本均值的分布会越来越接近正态分布,这个可以解释自然界中许多现象,可以认为近似服从正态分布.对投掷骰子试验,如果投掷多次,其出现的点数之和的概率分布将趋近于正态分布,即出现的点数之和不会很大也不会很小,“中心极限”的教法就逐渐形象直观了.
(一)模拟的算法步骤
第一步:选择随机变量Xi所服从的分布类型,常见的有正态分布、均匀分布、指数分布、二项分布和泊松分布等;
第二步:设置模拟的总次数m与每次模拟试验中样本容量n; 第三步:基于R软件产生n个服从相同分布的随机数Xi(i=1,…,n);
第四步:利用n个随机数计算出标准化后的随机变量Yj,Yj= ∑ n i=1 Xi-nE(Xi)
【关键词】 随机模拟;R软件;概率统计;课堂教学
【基金项目】 嘉兴学院南湖学院2017年课堂教学改革项目:“基于R软件的《概率统计》课程实验式教学探究”研究成果.
概率论与数理统计是一门研究随机现象及其规律的现代数学学科的重要分支,在自然科学、社会科学和工程技术等各个领域有着极其广泛的应用,特别是随着大数据、人工智能、机器学习方法的进一步发展与应用,该学科越来越受到广大业界与学者的重视.但由于其研究对象为随机现象,学科中所涉及的概念与方法独特,内容丰富,结果深刻,课程知识学习思维不同于传统的其他数学课程,并且概念繁多且较难以理解,又需要具备微积分学的基础,使得广大学生在学习本课程中存在较大的困难.另一方面,在课堂教学方式上,传统的课堂教学方法是教师采用课件展示,板书演算讲解,更多注重解释课程知识的数学原理,忽视概念知识点的模拟试验演示、图形图像化的直观展示与计算过程的计算机演示等,造成广大学生往往是被动接受相关的概念知识与方法,对抽象概念的实质领会可能存在较大困难,反映在本课程的课堂教学上,学生普遍反映不好理解课程中的抽象定义、概念、公式与计算,遇到问题往往不知如何分析,无从下手,从而导致较多学生对本课程的学习积极性不高,兴趣不浓,甚至存在少部分学生对本课程学习产生畏惧心理,使得课程课堂教学效果不够理想.为此,如何改变本课程的传统理论教学模式,探究对本课程的课堂教学改革,实现将复杂、抽象的概率统计概念、原理变得直观、形象,容易理解,从而激发广大学生对本课程的学习兴趣,提高学习的主动性,增强学习的信心,一直以来,广大讲授概率论与数理统计课程的教师在进行着不断的探索[1].
随着计算机技术的迅猛发展和统计软件强大功能的逐渐凸显,概率统计课程的课堂教学实验化逐渐成为现实.由于R软件[2-3]具有体积小、免费、自由、友好的界面、强大的可视化功能、有数以万计的程序扩展包等多方面优势,在当前,其迅速兴起,以及被广泛使用于各种数据分析工作中,它已经成为当前国外大学课堂教学[4]中使用的标准软件之一,随着国外R软件图书资料的引入及其中文版译书的增多,国内广大教师与业界人士也越来越重视R软件的使用.R软件大量的程序扩展包不但能够引领学生学习先进的统计理论,也能为他们学习计算机编程提供优秀的范例.笔者认为,利用R软件的强大计算与图形展现能力,将随机模拟技术应用到概率论与数理统计[5]的课堂教学中,向学生展现随机现象发生的全部可能的结果,对结果的分析计算,进行直观演示,绘制数据的图形图像,实现“所思”即“所见”,使得学生能深刻理解课程的知识原理与结论.通过基于R软件的随机模拟技术易于将抽象问题直观形象化,并应用于教学内容的验证与知识的探索,使得广大学生带着问题,通过自己编程独立地解决实际问题,这将改变传统的理论教学模式.直观形象的可视化教学[6]能极大激起學生学习的兴趣,提高教学效果,是适应时代发展需要的课程改革非常有益的尝试.
一、常用随机变量概率分布模拟
随机变量的概率分布是概率统计课程中基础而又重要的内容,其主要用于描述随机变量取值的概率规律,其是对现实世界数据进行建模的重要工具.在基础概率统计课程中主要是二项分布、泊松分布、均匀分布、指数分布、正态分布以及统计抽样中的卡方分布、t分布与f分布等.在R软件中给出了各 种概率分布的统一相关函数的计算式,即前缀 分布名称.前缀d表示概率密度函数值,p表示累积概率密度函数值,q表示分位数,r表示模拟产生相应分布的随机 数.
二、大数定律的模拟验证分析
大数定律回答了在试验条件不变下,随着试验次数的增多,随机事件的频率将接近其概率.设X1,…,Xm是一个独立同分布的随机变量序列,X 表示其样本均值,μ表示总体均值,则有当n→∞时,X →μ.该结论描述了样本均值变化的趋势,反映了平均结果的稳定性这一随机现象最根本的性质之一.
从图1可以发现,当样本量较少时,样本均值稳定性不是很好,但是随着样本量的增加,样本均值逐渐收敛到总体均值的特征越来越明显.
从大数定律中可以看到样本均值的收敛性质,但如果要进一步回答样本均值可能服从的分布,大数定律就无法给出结果,只有基于中心极限定理才能给出明确的回答.
(一)模拟的算法步骤
第一步:从常见的分布中选择一个分布,例如,均匀分布,从中产生若干个随机数;第二步:计算这些随机数的均值,即获得样本均值;第三步:变化生成随机数的数量,多次运行第一步、第二步.
(二)验证程序
设置从标准均匀分布中抽取1 000个随机数,计算其关于抽取次数的样本均值,运行程序如下:n=1000;y=rep (0,n);for(i in 1:n){ y[i]=mean(runif(i))};x=1:n;plot(x,y).
三、中心极限定理的验证分析
众所周知,正态分布的总体的样本和样本均值当然服从正态分布.对于不是正态分布总体的样本,随着样本量的增加,其样本均值的分布会越来越接近正态分布,这个可以解释自然界中许多现象,可以认为近似服从正态分布.对投掷骰子试验,如果投掷多次,其出现的点数之和的概率分布将趋近于正态分布,即出现的点数之和不会很大也不会很小,“中心极限”的教法就逐渐形象直观了.
(一)模拟的算法步骤
第一步:选择随机变量Xi所服从的分布类型,常见的有正态分布、均匀分布、指数分布、二项分布和泊松分布等;
第二步:设置模拟的总次数m与每次模拟试验中样本容量n; 第三步:基于R软件产生n个服从相同分布的随机数Xi(i=1,…,n);
第四步:利用n个随机数计算出标准化后的随机变量Yj,Yj= ∑ n i=1 Xi-nE(Xi)