论文部分内容阅读
独立性检验是一种假设检验. 在对总体的估计中,通过抽取样本,构造合适的随机变量,对假设的正确性进行判断. 判断两个分类变量是否有关通常有以下几种方法:等高条形图、二维条形图、三维柱形图、利用独立性检验的统计量[K2]的值,比较它与临界值的大小关系来判断. 其中前三种方法可以粗略地判断两个分类变量是否有关系,而后者是从概率的角度来判断两个分类变量是否有关.
1. 计算独立性检验的统计量
[K2]与[k]的关系并不是[k=K2],[k]是[K2]的观测值,或者说[K2]是一个随机变量,它在[a,b,c,d]取不同值时,[K2]可能不同,[k]是取定一组值[a,b,c,d]后的一个确定的值.
根据调查结果计算[k]的值.
2. 等高条形图、二维条形图、三位柱形图
一般地,假设两个分类变量[X]和[Y],它们的取值分别为[{x1,x2}]和[{y1,y2}],其样本频数列联表,称为[2×2]列联表. 若要推断的论述为[H1]: “[X]与[Y]有关系”,在[X=x1]的情况下,[Y=y1]的频率为[aa+b];在[X=x2]的情况下,[Y=y2]的频率为[cc+d],如果通过等高条形图或二维条形图发现[aa+b]和[cc+d]相差很大,就判断两个分类变量之间有关系. 在三维柱形图中,主对角线上两个矩形高度的乘积[ad]与副对角线上两个矩形高度的乘积[bc]相差越大,结论[H1]成立的可能性就越大. 即[H1]成立的可能性由[ad-bc]来分析.
例2 有人说不玩电脑游戏的同学比玩电脑游戏的同学做作业更积极,成绩也就更好. 我校某班主任对全班50名学生进行了作业量多少的调查,喜欢玩电脑游戏的同学认为作业多的有18人,认为作业不多的有9人,不喜欢玩电脑游戏的同学认为作业多的有6人,认为作业不多的有17人,得2×2列联表如下:
游戏][喜欢玩电脑游戏][18
比较来说,底面副对角线上两个柱体高度乘积要大一些,因此可以在某种程度上认为“喜欢玩电脑游戏与认为作业量的多少有关”.
(2)二维条形图:
在二维条形图中,可以估计喜欢玩电脑游戏的学生中认为作业多的人所占的比例与不喜欢玩电脑游戏的学生中认为作业多的人所占的比例,两个比例的值相差越大, 相关的可能性就越大.
等高条形图清晰地反映出:两种情况下,认为作业量的多少的比例.
3. 有关独立性检验问题
等高条形图、二维条形图、三维柱形图都是直观判断,其不足之处在于不能给出推断“两个分类变量有关系”犯错误的概率,而独立性检验则可以弥补这一不足. 独立性检验的具体做法是:(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界[α],然后查表确定临界值[k0]. (2)利用公式[K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)]计算[K2]的观测值[k]. (3)如果[k>k0],就推断“[X]与[Y]有关系”,这种犯错误的概率不超过[α];否则就认为在犯错误的概率不超过[α]的前提下不能推断“[X]与[Y]有关系”,或在样本数据中没有发现足够证据支持结论“[X]与[Y]有关系”.
例3 在例2中,能否在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业量的多少有关系? 能
故有99%以上的把握认为喜欢玩电脑游戏与认为作业量的多少有关系.
(1)估计该地区的老年人中,需要志愿者提供帮助的老年人的比例;
(2)能否有99%的把握认为:该地区的老年人是否需要志愿者提供帮助与性别有关?
(3)根据(2)的结论,能否提供更好的调查方法来估计该地区的老年人,需要志愿者提供帮助的老年人的比例?说明理由:
解析 (1)调查的500名老年人中有70名需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估算值为[70500=14%].
由于9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关.
(3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区的男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区的老年人中男、女的比例,再把老年人分成男、女两类并采用分层抽样方法.
1. 想要检验是否喜欢参加体育活动是不是与性别有关,应该检验( )
A. 男性喜欢参加体育活动
B. 女性不喜欢参加体育活动
C. 喜欢参加体育活动与性别有关
D. 喜欢参加体育活动与性别无关
2. 在性别与吃零食这两个分类变量的计算中,下列说法正确的是( )
①若[K2]的观测值为[k]=6.635,我们有99%的把握认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;
②从独立性检验可知有99%的把握认为吃零食与性别有关系时,我们说某人吃零食,那么此人是女性的可能性为99%;
③若从统计量中求出有99%的把握认为吃零食与性别有关系,是指有1%的可能性使得出的判断出现错误.
3. 某工厂为了了解工人文化程度与月收入的关系,随机调查了部分工人,得到下表:
4. 在对人们休闲方式的一次调查中,共随机调查了56人,其中女性28人,男性28人,女性中有16人主要的休闲方式是看电视,另外12人主要的休闲方式是运动,男性中有8人主要的休闲方式是看电视,另外20人的主要休闲方式是运动,则
(1)根据以上数据建立一个2×2列联表;
1. 计算独立性检验的统计量
[K2]与[k]的关系并不是[k=K2],[k]是[K2]的观测值,或者说[K2]是一个随机变量,它在[a,b,c,d]取不同值时,[K2]可能不同,[k]是取定一组值[a,b,c,d]后的一个确定的值.
根据调查结果计算[k]的值.
2. 等高条形图、二维条形图、三位柱形图
一般地,假设两个分类变量[X]和[Y],它们的取值分别为[{x1,x2}]和[{y1,y2}],其样本频数列联表,称为[2×2]列联表. 若要推断的论述为[H1]: “[X]与[Y]有关系”,在[X=x1]的情况下,[Y=y1]的频率为[aa+b];在[X=x2]的情况下,[Y=y2]的频率为[cc+d],如果通过等高条形图或二维条形图发现[aa+b]和[cc+d]相差很大,就判断两个分类变量之间有关系. 在三维柱形图中,主对角线上两个矩形高度的乘积[ad]与副对角线上两个矩形高度的乘积[bc]相差越大,结论[H1]成立的可能性就越大. 即[H1]成立的可能性由[ad-bc]来分析.
例2 有人说不玩电脑游戏的同学比玩电脑游戏的同学做作业更积极,成绩也就更好. 我校某班主任对全班50名学生进行了作业量多少的调查,喜欢玩电脑游戏的同学认为作业多的有18人,认为作业不多的有9人,不喜欢玩电脑游戏的同学认为作业多的有6人,认为作业不多的有17人,得2×2列联表如下:
游戏][喜欢玩电脑游戏][18
比较来说,底面副对角线上两个柱体高度乘积要大一些,因此可以在某种程度上认为“喜欢玩电脑游戏与认为作业量的多少有关”.
(2)二维条形图:
在二维条形图中,可以估计喜欢玩电脑游戏的学生中认为作业多的人所占的比例与不喜欢玩电脑游戏的学生中认为作业多的人所占的比例,两个比例的值相差越大, 相关的可能性就越大.
等高条形图清晰地反映出:两种情况下,认为作业量的多少的比例.
3. 有关独立性检验问题
等高条形图、二维条形图、三维柱形图都是直观判断,其不足之处在于不能给出推断“两个分类变量有关系”犯错误的概率,而独立性检验则可以弥补这一不足. 独立性检验的具体做法是:(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界[α],然后查表确定临界值[k0]. (2)利用公式[K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)]计算[K2]的观测值[k]. (3)如果[k>k0],就推断“[X]与[Y]有关系”,这种犯错误的概率不超过[α];否则就认为在犯错误的概率不超过[α]的前提下不能推断“[X]与[Y]有关系”,或在样本数据中没有发现足够证据支持结论“[X]与[Y]有关系”.
例3 在例2中,能否在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业量的多少有关系? 能
故有99%以上的把握认为喜欢玩电脑游戏与认为作业量的多少有关系.
(1)估计该地区的老年人中,需要志愿者提供帮助的老年人的比例;
(2)能否有99%的把握认为:该地区的老年人是否需要志愿者提供帮助与性别有关?
(3)根据(2)的结论,能否提供更好的调查方法来估计该地区的老年人,需要志愿者提供帮助的老年人的比例?说明理由:
解析 (1)调查的500名老年人中有70名需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估算值为[70500=14%].
由于9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关.
(3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区的男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区的老年人中男、女的比例,再把老年人分成男、女两类并采用分层抽样方法.
1. 想要检验是否喜欢参加体育活动是不是与性别有关,应该检验( )
A. 男性喜欢参加体育活动
B. 女性不喜欢参加体育活动
C. 喜欢参加体育活动与性别有关
D. 喜欢参加体育活动与性别无关
2. 在性别与吃零食这两个分类变量的计算中,下列说法正确的是( )
①若[K2]的观测值为[k]=6.635,我们有99%的把握认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;
②从独立性检验可知有99%的把握认为吃零食与性别有关系时,我们说某人吃零食,那么此人是女性的可能性为99%;
③若从统计量中求出有99%的把握认为吃零食与性别有关系,是指有1%的可能性使得出的判断出现错误.
3. 某工厂为了了解工人文化程度与月收入的关系,随机调查了部分工人,得到下表:
4. 在对人们休闲方式的一次调查中,共随机调查了56人,其中女性28人,男性28人,女性中有16人主要的休闲方式是看电视,另外12人主要的休闲方式是运动,男性中有8人主要的休闲方式是看电视,另外20人的主要休闲方式是运动,则
(1)根据以上数据建立一个2×2列联表;