论文部分内容阅读
摘要:应用配对样本T检验的方法,对《红楼梦》前八十回和后四十回的颜色用词进行比较研究,结果表明,《红楼梦》前后两部分在颜色用词的使用频率上存在明显差异。
关键词:配对样本T检验;颜色;显著性;差异;红楼梦
中图分类号:O212.6文献标识码:A文章编号:2095-7394(2014)05-0045-04
一、问题的提出
《红楼梦》[1]是我国历史最具文学价值的小说之一,是四大名著之首。历史上对《红楼梦》的研究也一直没停止过,其中对于《红楼梦》前八十回和后四十回是否为同一个人所著至今也没有一个明确的结论。自从陈炳藻[2]教授将统计学的定量分析方法首次将引入红学研究,许多学者也应用各种统计方法,从不同的角度和方面对《红楼梦》进行了研究。陈炳藻[2]教授将《红楼梦》分为1~40回,41~80回,81~120回三个部分,分别记为A、B、C部分,同时又引用《儿女英雄传》记为D部分,将四部分中的名词、动词、形容词等两两进行相关性检验,推断出:前八十回和后四十回为一人所作;陈大康[3]教授对《红楼梦》中的词、字、句的88个项目出现的频率进行研究,对其中73个易检验分布的指标分组用CMNPHOB法作了145次分布检验,推断出:《红楼梦》后四十回并非是曹雪芹所著;韦博成[4-5]教授对《红楼梦》前八十回和后四十回的文风进行“两总体等价性检验”,提供一个强有力证据:前八十回和后四十回在某些重要的情景描写上确实存在明显差异。
上述文献均从某一特定方面对《红楼梦》作者问题进行研究。笔者主要从《红楼梦》中颜色词的用例数进行分析比较来探究《红楼梦》的作者问题,将《红楼梦》分为三个部分,1~40回、41~80回和81~120回,颜色用词的使用频率进行研究,采用统计学中经典的配对样本T检验的方法,借助SPSS软件对1~80回和81~120回,1~40回和41~80回,41~80回和81~120回的颜色词的使用频率分别进行比较。
二、数据收集及直观分析
《红楼梦》中有许多描写颜色的词,根据文章语境将所有颜色词划分成10个颜色范畴,分别为红、黄、绿、蓝、紫、褐、黑、白、灰、杂色。根据曹莉亚[6]的《前后迥异的〈红楼梦〉色彩世界》关于色彩用词使用频率的统计数据,《红楼梦》全文颜色词共出现了1 845次,1~40回,41~80回,81~120回中每一范畴颜色词用例数统计结果如表1所示:
从表1可以看出,1~40回和41~80回的颜色词用例大致相同,分别为775次738次,而1~40回和41~80回的颜色总用例数远多于80~120回(共332次),并且每一范畴颜色词用例数,后40回除了褐色颜色词外,其余九个颜色词用例均未达到总数的三分之一,最少的只占13.97%,而1~40回和41~80回两个部分除了褐色和灰色,其余颜色词用例数非常相近,都高于总数的三分之一。
统计数据初步表明,1~40回和41~80回之间的差异较小,而与81~120回之间的差异较大,有理由怀疑前80回和后40回不是同一个人所著。
三、配对样本T检验
考虑到以上直观分析较为主观,下面运用统计学中经典的配对样本T检验,对数据进行显著性差异分析。
(一)配对样本T检验
在很多科学研究中,常采用配对设计来提高研究效率,常见的配对设计有4种情况:①同一受试对象处理前后的数据;②同一受试对象两个部位的数据;③同一样本用两种方法的检验结果;④配对的两个受试对象分别接受进行两种处理后的数据。本次对三个部分颜色平均用例数的分析可以理解为第②种情况,目的是为了推测各部分的结果是否有差异。
配对t检验的基本原理[7]是为每对数据求差值:如果两种处理实际上没有差异,则差值的总体均数应当为0,从该总体中抽出的样本其均数也应当在0附近波动;反之,如果两种处理有差异,差值的总体均数就应当远离0。通过检验该差值总体均数是否为0,就可以得知两种处理是否有差异。
表4为配对t检验的结果,给出了对差值的统计描述,其中均值、标准差、标准误和可信区间等都是针对差值的统计量。可以得到如下结论。
(1)1~40回和41~80回颜色词的平均使用频数差值的均值为0.092 5,相应的P值为0.276大于0.05,所以接受原假设,即有充分的理由认为1~40回和41~80回中颜色使用频率没有差别。
由以上数据分析得到,没有充分的理由认为1~40回与41~80回在颜色词的使用频率上存在明显差异,这与前八十回是同一个人所写的事实一致。而1~80回和1~40回在颜色词的使用频率上都与81~120回存在明显差异,因此,有理由推测,后40回很有可能是另外一个人写的。
注释:
①1~40回中属于红色范畴的词共出现了263次,占全文红色范畴词的39.31%。
②在1~40中,平均每回使用了6.575次红色范畴词。
参考文献:
[1]曹雪芹.脂砚斋重评石头记庚成校本[M].北京:作家出版社,2006.
[2]陈炳藻.从词汇上的统计论《红楼梦》的作者问题[C].首届国际《红楼梦》研讨会,1980.
[3]陈大康.从数理语言学看后四十回的作者——与陈炳藻先生商榷[J].红楼梦学刊,1987(1):293-318.
[4]韦博成.参数统计教程[M].北京:高等教育出版社,2006.
[5]韦博成.《红楼梦》前80回与后40回某些文风差异的统计分析(两个独立二项总体等价性检验的一个应用)[J].应用概率统计,2009(4):441-448.
[6]曹莉亚.前后迥异的《红楼梦》色彩世界[J].明清小说研究,2014(1):133-145.
[7]张文彤.SPSS统计分析基础教程[M].北京:高等教育出版社,2004.
Abstract:Based on the paired sampling T test,we give an analysis of the differences for usage of color terms between the former eighty chapters and the last forty chapters in “A Dream of Red Mansions”.It shows that there is significant difference of color terms between the two parts of “A Dream of Red Mansions”.
Key words:T test;color;significant;difference
责任编辑孙学通
关键词:配对样本T检验;颜色;显著性;差异;红楼梦
中图分类号:O212.6文献标识码:A文章编号:2095-7394(2014)05-0045-04
一、问题的提出
《红楼梦》[1]是我国历史最具文学价值的小说之一,是四大名著之首。历史上对《红楼梦》的研究也一直没停止过,其中对于《红楼梦》前八十回和后四十回是否为同一个人所著至今也没有一个明确的结论。自从陈炳藻[2]教授将统计学的定量分析方法首次将引入红学研究,许多学者也应用各种统计方法,从不同的角度和方面对《红楼梦》进行了研究。陈炳藻[2]教授将《红楼梦》分为1~40回,41~80回,81~120回三个部分,分别记为A、B、C部分,同时又引用《儿女英雄传》记为D部分,将四部分中的名词、动词、形容词等两两进行相关性检验,推断出:前八十回和后四十回为一人所作;陈大康[3]教授对《红楼梦》中的词、字、句的88个项目出现的频率进行研究,对其中73个易检验分布的指标分组用CMNPHOB法作了145次分布检验,推断出:《红楼梦》后四十回并非是曹雪芹所著;韦博成[4-5]教授对《红楼梦》前八十回和后四十回的文风进行“两总体等价性检验”,提供一个强有力证据:前八十回和后四十回在某些重要的情景描写上确实存在明显差异。
上述文献均从某一特定方面对《红楼梦》作者问题进行研究。笔者主要从《红楼梦》中颜色词的用例数进行分析比较来探究《红楼梦》的作者问题,将《红楼梦》分为三个部分,1~40回、41~80回和81~120回,颜色用词的使用频率进行研究,采用统计学中经典的配对样本T检验的方法,借助SPSS软件对1~80回和81~120回,1~40回和41~80回,41~80回和81~120回的颜色词的使用频率分别进行比较。
二、数据收集及直观分析
《红楼梦》中有许多描写颜色的词,根据文章语境将所有颜色词划分成10个颜色范畴,分别为红、黄、绿、蓝、紫、褐、黑、白、灰、杂色。根据曹莉亚[6]的《前后迥异的〈红楼梦〉色彩世界》关于色彩用词使用频率的统计数据,《红楼梦》全文颜色词共出现了1 845次,1~40回,41~80回,81~120回中每一范畴颜色词用例数统计结果如表1所示:
从表1可以看出,1~40回和41~80回的颜色词用例大致相同,分别为775次738次,而1~40回和41~80回的颜色总用例数远多于80~120回(共332次),并且每一范畴颜色词用例数,后40回除了褐色颜色词外,其余九个颜色词用例均未达到总数的三分之一,最少的只占13.97%,而1~40回和41~80回两个部分除了褐色和灰色,其余颜色词用例数非常相近,都高于总数的三分之一。
统计数据初步表明,1~40回和41~80回之间的差异较小,而与81~120回之间的差异较大,有理由怀疑前80回和后40回不是同一个人所著。
三、配对样本T检验
考虑到以上直观分析较为主观,下面运用统计学中经典的配对样本T检验,对数据进行显著性差异分析。
(一)配对样本T检验
在很多科学研究中,常采用配对设计来提高研究效率,常见的配对设计有4种情况:①同一受试对象处理前后的数据;②同一受试对象两个部位的数据;③同一样本用两种方法的检验结果;④配对的两个受试对象分别接受进行两种处理后的数据。本次对三个部分颜色平均用例数的分析可以理解为第②种情况,目的是为了推测各部分的结果是否有差异。
配对t检验的基本原理[7]是为每对数据求差值:如果两种处理实际上没有差异,则差值的总体均数应当为0,从该总体中抽出的样本其均数也应当在0附近波动;反之,如果两种处理有差异,差值的总体均数就应当远离0。通过检验该差值总体均数是否为0,就可以得知两种处理是否有差异。
表4为配对t检验的结果,给出了对差值的统计描述,其中均值、标准差、标准误和可信区间等都是针对差值的统计量。可以得到如下结论。
(1)1~40回和41~80回颜色词的平均使用频数差值的均值为0.092 5,相应的P值为0.276大于0.05,所以接受原假设,即有充分的理由认为1~40回和41~80回中颜色使用频率没有差别。
由以上数据分析得到,没有充分的理由认为1~40回与41~80回在颜色词的使用频率上存在明显差异,这与前八十回是同一个人所写的事实一致。而1~80回和1~40回在颜色词的使用频率上都与81~120回存在明显差异,因此,有理由推测,后40回很有可能是另外一个人写的。
注释:
①1~40回中属于红色范畴的词共出现了263次,占全文红色范畴词的39.31%。
②在1~40中,平均每回使用了6.575次红色范畴词。
参考文献:
[1]曹雪芹.脂砚斋重评石头记庚成校本[M].北京:作家出版社,2006.
[2]陈炳藻.从词汇上的统计论《红楼梦》的作者问题[C].首届国际《红楼梦》研讨会,1980.
[3]陈大康.从数理语言学看后四十回的作者——与陈炳藻先生商榷[J].红楼梦学刊,1987(1):293-318.
[4]韦博成.参数统计教程[M].北京:高等教育出版社,2006.
[5]韦博成.《红楼梦》前80回与后40回某些文风差异的统计分析(两个独立二项总体等价性检验的一个应用)[J].应用概率统计,2009(4):441-448.
[6]曹莉亚.前后迥异的《红楼梦》色彩世界[J].明清小说研究,2014(1):133-145.
[7]张文彤.SPSS统计分析基础教程[M].北京:高等教育出版社,2004.
Abstract:Based on the paired sampling T test,we give an analysis of the differences for usage of color terms between the former eighty chapters and the last forty chapters in “A Dream of Red Mansions”.It shows that there is significant difference of color terms between the two parts of “A Dream of Red Mansions”.
Key words:T test;color;significant;difference
责任编辑孙学通