论文部分内容阅读
统计学是处理信息的科学,各种各样的信息大多可以用数字形式来描述,这些数字在统计学中被称为数据,统计过程包括对数据的收集、整理、描述、分析等环节.不论是研究已经发生的事件,还是推断未来将要发生的事件,统计工作都越来越显示出重要的作用,由于信息科学的迅猛发展,大数据(印海量的、多样的、高增长率的数据)的处理已经成为现代生活中要解决的问题.
人教版初中数学教科书的第十章“数据的收集、整理与描述”包含以下内容:
(1)以抽样调查为重点,介绍收集、整理数据;
(2)以直方图为重点,介绍描述数据;
(3)结合实例展示统计调查的基本过程,
下面以一个具体问题为例,介绍这一章的重点知识,希望能帮助同学们理解相关内容.
问题:某工厂大批量生产了某种型号的显示器.作为衡量质量好坏的一项重要指标,这批显示器的平均使用寿命是厂家应该提供的,那么这批显示器的平均使用寿命是如何得到的呢?
一、抽样调查,收集数据
这批显示器的平均使用寿命,应是所有显示器的使用寿命之和除以显示器总数所得的商.但是,把每一台显示器都用到坏掉为止再得出结论显然是不合常理的.实际上,厂家的做法通常是:采取某种方式从这批显示器中随机抽取若干台进行试验,分别测出它们的使用寿命,然后用它们的平均使用寿命估计这批显示器的平均使用寿命,
统计学中通常把要考察的全体对象叫作总体,总体中的每个成员叫作个体.在上述问题中,每一台显示器(具体来说是每一台显示器的使用寿命)是个体,对每个个体都收集数据的调查方法,叫作全面调查,厂家所用的调查方法显然不可能是全面调查,而是从总体中抽取一部分个体,这种方法叫作抽样调查,所抽取的那些个体合起来叫作总体的一个样本.
如果总体范围太大或试验具有破坏性,则全面调查不可行,可采用抽样调查的方法,为使样本的数据能较为真实地反映总体状况,选取样本时应注意随机性,即保证每个个体都有平等的机会被抽取到样本中,这可以减少片面性,提高调查的可信度,降低出现偏差的可能性,此外,还应使样本容量(即样本中个体的数量)大小合适.样本容量太小反映不出实际情况,样本容量太大就会造成浪费.
在上述问题中,如果显示器共有l 500台,则可从中抽取30台(总数的2%)作为样本,其中30就是样本容量,假设测得这30台显示器的使用寿命(单位:万小时)分别如下:2.51、2.60、2.00、2.25.3.02、2.94、2.97、3.38、3.36、2.44、2.35、2.45、2.91、3.10、3.12、2.36、3.37、3.42、3.58、2.42、2.74、2.65、2.19、2.65、2.86、2.90、2.73、2.65、2.94、3.14.
这些是抽样调查得出的原始数据,由此可计算出样本的平均值为2.80(单位:万小时).
二整理与描述数据
收集到原始数据后,通常要对其加以整理,进一步发现其中含有的更多信息.以前面所给数据为例,其中最小值为2.00,最大值为3.58,可将数据分为8组,落在各组中的数据的个数叫作各组的频数,于是有如表1所示的频数分布表(每组均只含最小值而不含最大值).
由频数分布表已能看出分布在各组中的数据分别有多少个.为了更直观地描述数据的分布规律,可以使用一种常用的统计图——频数分布直方图,图1就是描述前面所给数据的频数分布直方图.
频数分布直方图的横轴表示数据的取值,每个小组对应一个小长方形.各个小长方形的下底的两个端点分别对应各组数据的最小值和最大值,底的长度是组距,图1中各个小组的组距都相等,其值为0.20.频数分布直方图的纵轴表示频数与组距的比值,例如图1中左边第一个小长方形对应第一组数据,其取值范围为2.00-2.20(不含2.20),组距为0.20,频数为2,高为
频数分布直方图中各个小长方形的面积=底×高=组距×频数/组距=频数.因此,各组数据的频数是由各个小长方形的面积来表示的,如果各组数据的组距相同,则各个小长方形的高之比等于各组数据的频数之比,此时,可以直接用小长方形的高表示频数,这样画图和看图都很方便,
将频数分布直方图中各个小长方形上底的中点用线段顺次连接,所得的折线也能表示数据的分布规律.如图2,其中的折线像一个“扣着的钟”,这显示出数据的分布大致关于2.80这个值对称,越靠近这个值,数据就越多,越偏离这个值,数据就越少,这反映了随机现象中一种常见的叫作正态分布的规律.
前面我们将原始数据逐一相加再除以30,得到这批显示器的平均使用寿命为2.80万小时.利用频数分布规律,还有一种计算平均使用寿命的方法:用各组数据的中间值(即各个小长方形下底的中点对应的数据)乘频数,然后相加,再除以30,即(2.lOx2 2.30x3 2.50x4 2.70x6 2.90x6 3.10 x4 3.30x3 3.50 x2)÷30=2.80.
三,用样本估计总体是一种统计思想
一方面,由于事物的复杂性和多样性,一个总体中的各个个体之间可能存在差异,抽样调查得到的数据只是在一定程度上能反映总体的情况,由样本数据得到的结论未必十分准确,例如在上述问题中,由于显示器是随机抽取的,不同的抽取结果,所得的原始数据就可能不同,进而得出的样本平均值也可能不同,样本的平均值可能与总体的平均值有差距,这就是通常所说的随机影响,
另一方面,尽管总体中不同的个体之间存在差异,但是作为同类事物的个体又有共性,以部分个体为代表,“解剖麻雀”“由此及彼”的思考就是有价值的.用样本估计总体是一种重要的统计思想,虽然估计的结果不可能一丝不差,但是它可以为我们认识总体提供重要的参考.例如在上述问题中,样本的平均值2.80(单位:万小时)可能与总体的平均值不完全一致,但是通常情况下总体的平均值偏离2.80(单位:万小时)的范围不大,所以可以将2.80万小时作为这批产品的平均使用寿命的参考值.
综上所述,我们既要认识收集、处理数据时的随机影响,又不能因噎废食地忽视抽样调查的重要性.如何抽取样本、分析样本更为合理?确切地说,采用哪种方法能使估计结果尽可能地接近实际情况?这是统计学中的一个重要问题.随着学习的不断深入,同学们会加深对统计学基本思想的认识.
人教版初中数学教科书的第十章“数据的收集、整理与描述”包含以下内容:
(1)以抽样调查为重点,介绍收集、整理数据;
(2)以直方图为重点,介绍描述数据;
(3)结合实例展示统计调查的基本过程,
下面以一个具体问题为例,介绍这一章的重点知识,希望能帮助同学们理解相关内容.
问题:某工厂大批量生产了某种型号的显示器.作为衡量质量好坏的一项重要指标,这批显示器的平均使用寿命是厂家应该提供的,那么这批显示器的平均使用寿命是如何得到的呢?
一、抽样调查,收集数据
这批显示器的平均使用寿命,应是所有显示器的使用寿命之和除以显示器总数所得的商.但是,把每一台显示器都用到坏掉为止再得出结论显然是不合常理的.实际上,厂家的做法通常是:采取某种方式从这批显示器中随机抽取若干台进行试验,分别测出它们的使用寿命,然后用它们的平均使用寿命估计这批显示器的平均使用寿命,
统计学中通常把要考察的全体对象叫作总体,总体中的每个成员叫作个体.在上述问题中,每一台显示器(具体来说是每一台显示器的使用寿命)是个体,对每个个体都收集数据的调查方法,叫作全面调查,厂家所用的调查方法显然不可能是全面调查,而是从总体中抽取一部分个体,这种方法叫作抽样调查,所抽取的那些个体合起来叫作总体的一个样本.
如果总体范围太大或试验具有破坏性,则全面调查不可行,可采用抽样调查的方法,为使样本的数据能较为真实地反映总体状况,选取样本时应注意随机性,即保证每个个体都有平等的机会被抽取到样本中,这可以减少片面性,提高调查的可信度,降低出现偏差的可能性,此外,还应使样本容量(即样本中个体的数量)大小合适.样本容量太小反映不出实际情况,样本容量太大就会造成浪费.
在上述问题中,如果显示器共有l 500台,则可从中抽取30台(总数的2%)作为样本,其中30就是样本容量,假设测得这30台显示器的使用寿命(单位:万小时)分别如下:2.51、2.60、2.00、2.25.3.02、2.94、2.97、3.38、3.36、2.44、2.35、2.45、2.91、3.10、3.12、2.36、3.37、3.42、3.58、2.42、2.74、2.65、2.19、2.65、2.86、2.90、2.73、2.65、2.94、3.14.
这些是抽样调查得出的原始数据,由此可计算出样本的平均值为2.80(单位:万小时).
二整理与描述数据
收集到原始数据后,通常要对其加以整理,进一步发现其中含有的更多信息.以前面所给数据为例,其中最小值为2.00,最大值为3.58,可将数据分为8组,落在各组中的数据的个数叫作各组的频数,于是有如表1所示的频数分布表(每组均只含最小值而不含最大值).
由频数分布表已能看出分布在各组中的数据分别有多少个.为了更直观地描述数据的分布规律,可以使用一种常用的统计图——频数分布直方图,图1就是描述前面所给数据的频数分布直方图.
频数分布直方图的横轴表示数据的取值,每个小组对应一个小长方形.各个小长方形的下底的两个端点分别对应各组数据的最小值和最大值,底的长度是组距,图1中各个小组的组距都相等,其值为0.20.频数分布直方图的纵轴表示频数与组距的比值,例如图1中左边第一个小长方形对应第一组数据,其取值范围为2.00-2.20(不含2.20),组距为0.20,频数为2,高为
频数分布直方图中各个小长方形的面积=底×高=组距×频数/组距=频数.因此,各组数据的频数是由各个小长方形的面积来表示的,如果各组数据的组距相同,则各个小长方形的高之比等于各组数据的频数之比,此时,可以直接用小长方形的高表示频数,这样画图和看图都很方便,
将频数分布直方图中各个小长方形上底的中点用线段顺次连接,所得的折线也能表示数据的分布规律.如图2,其中的折线像一个“扣着的钟”,这显示出数据的分布大致关于2.80这个值对称,越靠近这个值,数据就越多,越偏离这个值,数据就越少,这反映了随机现象中一种常见的叫作正态分布的规律.
前面我们将原始数据逐一相加再除以30,得到这批显示器的平均使用寿命为2.80万小时.利用频数分布规律,还有一种计算平均使用寿命的方法:用各组数据的中间值(即各个小长方形下底的中点对应的数据)乘频数,然后相加,再除以30,即(2.lOx2 2.30x3 2.50x4 2.70x6 2.90x6 3.10 x4 3.30x3 3.50 x2)÷30=2.80.
三,用样本估计总体是一种统计思想
一方面,由于事物的复杂性和多样性,一个总体中的各个个体之间可能存在差异,抽样调查得到的数据只是在一定程度上能反映总体的情况,由样本数据得到的结论未必十分准确,例如在上述问题中,由于显示器是随机抽取的,不同的抽取结果,所得的原始数据就可能不同,进而得出的样本平均值也可能不同,样本的平均值可能与总体的平均值有差距,这就是通常所说的随机影响,
另一方面,尽管总体中不同的个体之间存在差异,但是作为同类事物的个体又有共性,以部分个体为代表,“解剖麻雀”“由此及彼”的思考就是有价值的.用样本估计总体是一种重要的统计思想,虽然估计的结果不可能一丝不差,但是它可以为我们认识总体提供重要的参考.例如在上述问题中,样本的平均值2.80(单位:万小时)可能与总体的平均值不完全一致,但是通常情况下总体的平均值偏离2.80(单位:万小时)的范围不大,所以可以将2.80万小时作为这批产品的平均使用寿命的参考值.
综上所述,我们既要认识收集、处理数据时的随机影响,又不能因噎废食地忽视抽样调查的重要性.如何抽取样本、分析样本更为合理?确切地说,采用哪种方法能使估计结果尽可能地接近实际情况?这是统计学中的一个重要问题.随着学习的不断深入,同学们会加深对统计学基本思想的认识.