论文部分内容阅读
摘 要:在人教A版《普通高中课程标准实验教科书·数学·选修2-3》课本中,第二章的2.1.2节末尾,教材用具体实例引出了“超几何分布(hyper-geometric distribution)”的概念,而在2.2.3节中,教材也是在介绍“独立重复试验”的前提下,通过实例探究引出了“二项分布(binomial distribution)”的定义。作为离散型随即变量的两种重要分布,教材的设计很明显是希望通过实例,让学生认识模型所刻画的随机变量的共同特点,从而建立新的模型,并能运用两模型解决一些实际问题。然而学生的实际学习情况是怎样的呢?
关键词:离散分布;超几何分布;二项分布;比较学习
阶段性测试题:某公司生产一种新产品,从产品中抽取100件作为样本,测量这些产品的质量指标值,由测量结果得到如图所示的频率分布直方图。从指标值落在[215,235]的产品中随机抽取2件做进一步检测,设抽取的产品的指标在[225,235]的件数为X,求X的分布列和数学期望;
参考答案:指标值落在[215,235]的产品有件,产品的指标落在[225,235]的件数为100×0.02=2.所以X的取值为0,1,2;,
,所以X的分布列为:
X的数学期望
X 0 1 2
P
学生的解答:指标值落在[215,235]的产品有(件),产品指标落在[225,235]的有100×0.02=2件,所以产品指标落在[225,235]的概率,∴,则
单从最后的结果来看,数学期望是一样的,但过程显然是完全两回事,学生误将超几何分布问题当成二项分布问题来解了,而根本原因是对这两模型的定义不能很好的理解。我们先一起来看看课本对这两个模型的定义:
超几何分布
一般地,在含有M件次品的N件产品中,任取n件,其中恰有X件次品,则,k=0,1,2,…,m,其中m=min{M,n},且n≤N,M≤N,n,M,N∈N*,称分布列
X 0 1 … m
P …
为超几何分布列。如果随机变量X的分布列为超几何分布列,则称随机变量X服从超几何分布。
二项分布
一般地,在n次独立重复试验中,用X表示事件A发生的次数,设每次试验中事件A发生的概率为p,则。此时称随机变量X服从二项分布,记作X~B(n,p),并称p为成功概率。
从两个模型的定义来看,随机变量X都是在整数值1,2,3…中取值,所以两者都属于离散型随机变量。超几何分布模型的建立是利用抽取产品中次品数的问题,即在含有M件次品的N件产品中,无放回的抽取n件,其中恰有的次品数X服从超几何分布。而二项分布模型是建立在抛掷图钉的试验上,即抛掷图钉n次,针尖向上的次数X服从二项分布,其中1次试验过程中,针尖向上的概率即相当于N件产品中的次品数。所以,我们也可以把这个模型叙述为:在含有M件次品的N件产品中,有放回的抽取n件,其中恰有的次品数X服从二项分布。这时候,我们发现两种分布的区别主要是在“有放回”和“无放回”的问题上,即放不放回是区别的关键。文章开头引入的测试题,学生就是将“随机抽取2件”当成“进行2次独立重复试验”来考虑,导致解题的错误。那为什么在计算数学期望的问题上,两种的计算结果却是一样的,难道只是“偶然”吗?还是两者之间有什么联系呢?
课本中只对二项分布的数学期望做了推导,并没有对超几何分布的数学期望做介绍,这跟课程对两种分布的要求不同有关。我们先来看看课本对于二项分布的数学期望的介绍:如果X~B(n,p),那么由,可得
于是有:若X~B(n,p)则E(x)=np.
接下来,我们试着推导下超几何分布的数学期望:根据课本定义,若随机变量X服从超几何分布,则:
因此,.
(注:利用恒等式的二项展开式中的系数相等可证。)
这时候,我们会发现表示的是抽取的这N件产品中的次品率,当产品数量无限多的话,放不放回对的值几乎没有影响的,即=p。这也就是为什么使用不同的分布方法,数学期望的结果却有可能是相同的。
超几何分布和二项分布这两种离散型随机变量的概率分布表面上看来风马牛不相及:
1.一种是不放回的随机试验,一种是有放回的随机试验。
2.二项分布的概率公式的等号右边可以看成二项展开式的一般项,而超几何分布的概率公式的等号右边是超几何级数一般项的系数。
然而,我们通过刚刚的推导分析也发现,当抽取的样本容量无限大的时候,放不放回产生的区别已经不是那么明显了,即两者所计算出来的概率值相差无几了,换而言之超几何分布的极限就是二项分布!人们在实际工作中常利用这一点,把抽取对象数量较大时的无放回抽样(例如破坏性试验发射炮弹;产品的寿命试验等),当作有放回来处理。
但是,作为高中教学的两个知识点,本质上是不一样的,如何进行区分显得更为重要。我们是否能在题目的叙述中找到一些分辨的“蛛絲马迹”呢?让我们一起来分析下2020年福州市质检中一道概率统计题。
(2020·福州质检)某工厂对A,B两种型号的产品进行质量检测,从检测的数据中随机抽取6次,记录数据如下:
A:8.3,8.4,8.4,8.5,8.5,8.9;
B:7.5,8.2,8.5,8.5,8.8,9.5.(注:数值越大表示产品质量越好)
(1)若要从A,B中选一种型号产品投入生产,从统计学角度考虑,你认为生产哪种型号产品合适?简单说明理由;
(2)若将频率视为概率,对产品A今后的4次检测数据进行预测,记这4次数据中不低于8.5分的次数为ξ,求ξ的分布列及期望E(ξ).
试题第一问主要是考查了统计学中的均值和方差的计算,通过均值和方差计算的结果判定哪种型号产品合适。
参考答案:
(1)A产品的平均数:.
B产品的平均数:
A产品的方差:sA2=[(8.3-8.5)2+(8.4-8.5)2+(8.4-8.5)2+(8.5-8.5)2+(8.5-8.5)2+(8.9-8.5)2]≈0.037.
B产品的方差:sB2=[(7.5-8.5)2+(8.2-8.5)2+(8.5-8.5)2+(8.5-8.5)2+(8.8-8.5)2+(9.5-8.5)2]=0.363.
因为,sA2<sB2,所以两种产品的质量平均水平一样,A产品的质量更稳定,选择A产品合适。
试题的第二问显然是考查了随机变量的分布问题。题目叙述中“若将频率视为概率,对产品A今后的4次检测数据进行预测”这些字眼很关键。为什么要“将频率视为概率”?因为我们抽取的样本只有6个,但是要预测的是整条产品线,即检测的产品有无限多,这些不都体现着二项分布的基本前提,所以参考答案是这么给定的。
(2)由题意得ξ的所有可能取值为0,1,2,3,4,数据不低于8.5的频率为,将频率视为概率,则ξ~B,所以E(ξ)=.
如果我们把第二问做如下的修改:从已知的6次检测数据中随机抽取4次,记这4次数据中不低于8.5分的次数为η,求η的分布列及期望E(η)。这样不就跟我们超几何分布的模型是一样的,都是一种不放回的抽样问题,所以区分的关键还是在于能否通过字眼的区别,判断出是否放回,有放回即体现抽取前后是独立的,互不影响的,这是二项分布的前提,而如果是不放回,即体现前面的抽取结果对后面的抽取是有影响的,这也是超几何分布模型的特点。
参考文献
[1]高延军.由两道模拟考试题引发的思考——超几何分布与二项分布辨析[J].中国数学教育,2013,000(009):9-10.
[2]匡婷、葛双林.抓定义透实质——二项分布及其应用重难点解析[J].高中生学习:试题研究,2017.
[3]贺艳.《超几何分布与二项分布》教学设计[J].科普童话,2019,000(003):P.96-96.
关键词:离散分布;超几何分布;二项分布;比较学习
阶段性测试题:某公司生产一种新产品,从产品中抽取100件作为样本,测量这些产品的质量指标值,由测量结果得到如图所示的频率分布直方图。从指标值落在[215,235]的产品中随机抽取2件做进一步检测,设抽取的产品的指标在[225,235]的件数为X,求X的分布列和数学期望;
参考答案:指标值落在[215,235]的产品有件,产品的指标落在[225,235]的件数为100×0.02=2.所以X的取值为0,1,2;,
,所以X的分布列为:
X的数学期望
X 0 1 2
P
学生的解答:指标值落在[215,235]的产品有(件),产品指标落在[225,235]的有100×0.02=2件,所以产品指标落在[225,235]的概率,∴,则
单从最后的结果来看,数学期望是一样的,但过程显然是完全两回事,学生误将超几何分布问题当成二项分布问题来解了,而根本原因是对这两模型的定义不能很好的理解。我们先一起来看看课本对这两个模型的定义:
超几何分布
一般地,在含有M件次品的N件产品中,任取n件,其中恰有X件次品,则,k=0,1,2,…,m,其中m=min{M,n},且n≤N,M≤N,n,M,N∈N*,称分布列
X 0 1 … m
P …
为超几何分布列。如果随机变量X的分布列为超几何分布列,则称随机变量X服从超几何分布。
二项分布
一般地,在n次独立重复试验中,用X表示事件A发生的次数,设每次试验中事件A发生的概率为p,则。此时称随机变量X服从二项分布,记作X~B(n,p),并称p为成功概率。
从两个模型的定义来看,随机变量X都是在整数值1,2,3…中取值,所以两者都属于离散型随机变量。超几何分布模型的建立是利用抽取产品中次品数的问题,即在含有M件次品的N件产品中,无放回的抽取n件,其中恰有的次品数X服从超几何分布。而二项分布模型是建立在抛掷图钉的试验上,即抛掷图钉n次,针尖向上的次数X服从二项分布,其中1次试验过程中,针尖向上的概率即相当于N件产品中的次品数。所以,我们也可以把这个模型叙述为:在含有M件次品的N件产品中,有放回的抽取n件,其中恰有的次品数X服从二项分布。这时候,我们发现两种分布的区别主要是在“有放回”和“无放回”的问题上,即放不放回是区别的关键。文章开头引入的测试题,学生就是将“随机抽取2件”当成“进行2次独立重复试验”来考虑,导致解题的错误。那为什么在计算数学期望的问题上,两种的计算结果却是一样的,难道只是“偶然”吗?还是两者之间有什么联系呢?
课本中只对二项分布的数学期望做了推导,并没有对超几何分布的数学期望做介绍,这跟课程对两种分布的要求不同有关。我们先来看看课本对于二项分布的数学期望的介绍:如果X~B(n,p),那么由,可得
于是有:若X~B(n,p)则E(x)=np.
接下来,我们试着推导下超几何分布的数学期望:根据课本定义,若随机变量X服从超几何分布,则:
因此,.
(注:利用恒等式的二项展开式中的系数相等可证。)
这时候,我们会发现表示的是抽取的这N件产品中的次品率,当产品数量无限多的话,放不放回对的值几乎没有影响的,即=p。这也就是为什么使用不同的分布方法,数学期望的结果却有可能是相同的。
超几何分布和二项分布这两种离散型随机变量的概率分布表面上看来风马牛不相及:
1.一种是不放回的随机试验,一种是有放回的随机试验。
2.二项分布的概率公式的等号右边可以看成二项展开式的一般项,而超几何分布的概率公式的等号右边是超几何级数一般项的系数。
然而,我们通过刚刚的推导分析也发现,当抽取的样本容量无限大的时候,放不放回产生的区别已经不是那么明显了,即两者所计算出来的概率值相差无几了,换而言之超几何分布的极限就是二项分布!人们在实际工作中常利用这一点,把抽取对象数量较大时的无放回抽样(例如破坏性试验发射炮弹;产品的寿命试验等),当作有放回来处理。
但是,作为高中教学的两个知识点,本质上是不一样的,如何进行区分显得更为重要。我们是否能在题目的叙述中找到一些分辨的“蛛絲马迹”呢?让我们一起来分析下2020年福州市质检中一道概率统计题。
(2020·福州质检)某工厂对A,B两种型号的产品进行质量检测,从检测的数据中随机抽取6次,记录数据如下:
A:8.3,8.4,8.4,8.5,8.5,8.9;
B:7.5,8.2,8.5,8.5,8.8,9.5.(注:数值越大表示产品质量越好)
(1)若要从A,B中选一种型号产品投入生产,从统计学角度考虑,你认为生产哪种型号产品合适?简单说明理由;
(2)若将频率视为概率,对产品A今后的4次检测数据进行预测,记这4次数据中不低于8.5分的次数为ξ,求ξ的分布列及期望E(ξ).
试题第一问主要是考查了统计学中的均值和方差的计算,通过均值和方差计算的结果判定哪种型号产品合适。
参考答案:
(1)A产品的平均数:.
B产品的平均数:
A产品的方差:sA2=[(8.3-8.5)2+(8.4-8.5)2+(8.4-8.5)2+(8.5-8.5)2+(8.5-8.5)2+(8.9-8.5)2]≈0.037.
B产品的方差:sB2=[(7.5-8.5)2+(8.2-8.5)2+(8.5-8.5)2+(8.5-8.5)2+(8.8-8.5)2+(9.5-8.5)2]=0.363.
因为,sA2<sB2,所以两种产品的质量平均水平一样,A产品的质量更稳定,选择A产品合适。
试题的第二问显然是考查了随机变量的分布问题。题目叙述中“若将频率视为概率,对产品A今后的4次检测数据进行预测”这些字眼很关键。为什么要“将频率视为概率”?因为我们抽取的样本只有6个,但是要预测的是整条产品线,即检测的产品有无限多,这些不都体现着二项分布的基本前提,所以参考答案是这么给定的。
(2)由题意得ξ的所有可能取值为0,1,2,3,4,数据不低于8.5的频率为,将频率视为概率,则ξ~B,所以E(ξ)=.
如果我们把第二问做如下的修改:从已知的6次检测数据中随机抽取4次,记这4次数据中不低于8.5分的次数为η,求η的分布列及期望E(η)。这样不就跟我们超几何分布的模型是一样的,都是一种不放回的抽样问题,所以区分的关键还是在于能否通过字眼的区别,判断出是否放回,有放回即体现抽取前后是独立的,互不影响的,这是二项分布的前提,而如果是不放回,即体现前面的抽取结果对后面的抽取是有影响的,这也是超几何分布模型的特点。
参考文献
[1]高延军.由两道模拟考试题引发的思考——超几何分布与二项分布辨析[J].中国数学教育,2013,000(009):9-10.
[2]匡婷、葛双林.抓定义透实质——二项分布及其应用重难点解析[J].高中生学习:试题研究,2017.
[3]贺艳.《超几何分布与二项分布》教学设计[J].科普童话,2019,000(003):P.96-96.