论文部分内容阅读
关键词: 网络媒体监测语料库;独词句;性别差异
摘 要: 以国家语言资源监测与研究中心(网络媒体分中心)建立的博客文本语料库为研究对象,对博客中在独词句使用上的性别差异作统计调查与分析。通过对普通名词、动词、形容词、叹词、代词等15个不同词类或不同性质的成分所构成的独词句的对比研究发现,男女性在博客中独词句的使用上表现出了一系列的共性与个性特征。
中图分类号: H109.4 文献标志码: A 文章编号: 10012435(2011)02020305
Sexual Difference on Use of One-word Sentence Based on Network Media Monitoring Corpus
LI Xiangnong, TIAN Yuan, WANG Yubo (Center for Language and Language Education, Huazhong Normal University, Wuhan 430079, China)
Key words: Network Media Monitoring Corpora; one-word sentence; sexual difference
Abstract: Based on the corpora of blogs of male and female bloggers, established by the National Language Resource Monitoring & Research Center (Network Media), explore the sexual differences on the use of one-word sentence. Through statistics and analysis of 15 parts of speech, such as common nouns, verbs, adjectives, interjections, pronouns, etc, and comparative studies of one-word sentence composed by different compositions, conclude that there are many similarities and particular characteristics between the males and females.
在20世纪60年代中期社会语言学的兴起和西方女权主义运动的带动下,语言学家们展开了有关语言使用中性别差异的研究。[1]“国内语言性别差异研究在30年中经历了一个从宏观到微观,从静态到动态,从现象罗列到理论升华、从理论引进到具体应用的发展过程”[2],虽然取得了一定的成果,但与西方学界相比仍有明显的差距,其中以中国大陆为样本的实证研究更是凤毛麟角。与其他领域的研究相比仍很匮乏。[1]
学界关于独词句的研究更是少见。赵元任(1968)就认为“句子可以从结构上分为整句和零句(独词句)。”“ 零句最常见于对话以及说话和行为参杂的场合。”[3]42“在日常生活中, 零句占优势。”“从语用的角度看, 零句比整句更重要,对我们了解句子的结构也很有帮助。”[3]51
本文以国家语言资源监测与研究中心(网络媒体分中心)建立在2005-2006年spaces.live.com;blog.sina.com.cn;blog.sohu.com;blogcn.com;bokee.com;blog.hexun.com;blogbus.com等7个知名中文博客网站的部分网页,共计4 938 041篇,1 937 732982字符次的文本语料为基础,提取出具有性别标识的博客文本共计2 275 826篇,606 571 001字符次(其中男性作者54 982个,文章773 777篇;女性作者77 007个,文章1 502 049篇)的博客语料库为样本作为研究对象,在对语料进行词性标注的基础上,将博客语料中男性和女性作者所使用的独词
句提取出来,得到了一系列的数据,通过对数据的统计分析发现,男性和女性在博客中对独词句的使用呈现出了一系列特征。下面从不同角度对男女性在使用独词句时的特点进行分析。
1 总体情况
如表1所示,男性独词句句总数为2 877 591句,女性为2 854 148句,男性多于女性23 443,相对于庞大的独词句句总数而言,差量仅占女性独词句句总数的0.81%,男性和女性在独词句句总数上的差异并不明显。但通过对构成独词句的不同词类的分析,男性和女性在独词句内部存在着较为显著的差异。
2 不同词类构成的独词句
我们将独词句按照构成成分所属的词类[注:此处的“词类”准确地说应该指不同性质的成分,其中除了包括传统意义上的名词、动词等,还将成语、缩略语等与传统意义上的词类并列起来,为了行文方便,我们统称“词类”。]进行分类,分别提取了男性和女性使用普通名词、动词、形容词等15种词类所构成的独词句。
表2列出了男性使用15种词类所构成的独词句的句总数,其中构成句总数最多的两个词类是普通名词和动词,句总数分别达到了726 884和572 540,而句总数最少的两个词类是缩略语和机构名,句总数分别只有27 667和23 679,排在第一位的普通名词的句总数是最后一位的机构名的30.70倍。总的来说,除了句总数最多的达到50万以上的2个词类之外,超过20万的是人名和叹词2个词类,10万到20万之间的是时间名词、形容词、成语、习语、代词、地点名词和拟声词7个词类,低于10万的是动名词、专有名词、缩略语和机构名4个词类,其中前3位之间在句总数上的跨度较大,其余一些词类之间的跨度相对较小,这种趋势从图2中可以清楚地看到。
图1 男性不同词类构成的独词句句总数分布
同时,我们也对女性独词句所使用词类的情况进行了统计分析。和男性一样,构成独词句最多的词类是普通名词和动词,句总数分别达到了647 081和587 214;句总数最少的则是专有名词和机构名,分别只有28 761和11 655;另外句总数超过20万的两个词类是叹词和形容词,相对于男性来说,女性使用了相对较多的形容词构成独词句;句总数在10万和20万之间的词类相比男性的7个词类少了地点名词;而句总数低于10万的词类则相对多了地点名词。对照图1和图2发现,女性和男性在独词句句总数的分布上表现出了相似的特点。具体数据见表3。
3 男女性不同词类独词句使用总体情况的对比分析
为了对比男性和女性在不同词类所构成的独词句使用上的总体情况,表4将男性和女性由同一词类所构成的独词句句总数进行了比对,计算出了同一词类构成的句总数差数d、样本和∑、平均值X和方差S2。
差数d和所比较的总体呈正态分布是t检验的前提条件,因此我们首先用SPSS中的非参数分析方法Kolmogorov-Smirnov检验(下简称K-S检验)和正态概率图的Q-Q法对上表中的数据进行双重正态性检验。
表5是运用SPSS中非参数分析方法K-S检验对普通名词、动词等15个词类所构成的独词句的男性句总数、女性句总数和男女句总数差数d三组数据进行的检验结果,从中可以看到,三组数据的p值分别为
0.189、0.210和0.805,都大于0.05,因此上述三组数据都呈正态分布。
由于男女两组数据是配对数据组成,因此要对其进行正态验证,只需验证他们的差值d是否符合正态分布。我们运用SPSS中正态概率图的Q-Q法对男女句总数差数d进行了正态性检验。图3中的散点基本上是聚集在固定直线的周围,因而可以认为数据资料近似服从正态分布。
上述正态性检验结果证明上述15个词类所构成的独词句数据为正态性分布,满足进行成对文本t检验的前提条件。
根据表4中的数据,我们进一步进行了t检验:成对双样本均值分析
设显著水平为0.05,t分布表中临界值为2.145(df=14)
n=15,df=n-1=14, t=dSdn=0.217
由于t=0.127<t0.05(14)=2.145,说明就上述词类所构成的独词句整体来说,男性和女性在这些词类的独词句句总数上的差异不明显。
4 男女性不同词类独词句的使用差异
通过上文中的统计分析,可以发现,男女性之间在独词句的整体使用上存在着一定的共性。但男性和女性在不同词类构成的独词句使用上表现出了明显的差异。
表6列举出了普通名词、动词、人名、叹词、时间名词、形容词、成语、习语、代词、地点名词、拟声词、动名词、专有名词、缩略语和机构名等15种词类所构成的独词句的句总数,其中普通名词和动词是构成独词句的重要组成部分,其句总数远远大于其他词类,这是男性和女性的一个共性;具体到同一词类,男性和女性由同一词类构成的句总数差异较大,在上表差量和比例两栏中,正数代表男性多于女性的量及差量所占女性总量的比例,负数代表男性少于女性的量及差量所占男性总量的比例。
从表6可以看到,男性和女性在同一词类所构成的独词句的句总数上存在着较大差异,我们将男女性同一词类的独词句句总数单独提取出来,得出图4,从中可以清楚地看到:在比较的这15种词类中,就句总数之间的差异量的大小来看,男性和女性叹词和拟声词的句总数上差异最大,女性远远多于男性;而男性在由普通名词和人名所构成的独词句句总数上较为明显地多于女性;除此之外,男性和女性在其他词类构成的独词句句总数上也存在着或多或少的差异。
有关男性和女性之间不同词类所构成的独词句在数量上的差异的特点,我们通过其他对比方法也得到了印证。表7将不同词类所构成的句总数和男性或女性独词句的总量相除,得到了不同词类句总数所占男性或女性独词句总数的百分比,并利用这些比值生成了图5,从图4和图5,我们得到了反映出相同特点的曲线图。另外,图6和图7形象地展示出了普通名词和动词所构成的独词句在男性和女性中的主导地位,二者共占了将近50%,而其他13个词类则共占了50%多一点。
但是,仅仅从句总数之间的差异量的大小来判断男性和女性在独词句使用上的差异是片面的,因为有的词类所构成的独词句句总数非常大,男女之间的差异量的数字也大,但这个差异量相对这个词类所构成的句总数而言所占比例却很小;因此,在表4中我们不仅列出了男性和女性在同一词类所构成的句总数上的差量,并且计算出了这个差量相对于男性或女性这同一词类的句总数所占的百分比,即差量比例,我们将这个差量比例与差异度联系起来,差量比例越大,差异度越大;反之,差异度越小。
差量比例=|男性某词类句总数-女性某词类句总数|男女性某词类独词相对减小的句总数
我们将男性和女性不同词类所构成的独词句的差量比例单独列出,并按倒序的方式排列,可以明显地看出男性和女性在使用某一词类构成独词句时的差异度。
从表8可以看到,总体来说,男性和女性独词句在不同词类上存在着显著差异,其中差异度较大的不是我们上面提到的男女性之间差量最大的拟声词和叹词或者句总数最大的普通名词和动词,而是句总数最小的词类机构名;其中差量比例最大的达到了103.17%,最小的则不到3%;具体来看,在机构名所构成的独词句的数量上,男女之间的差异最大,其次是差异比例超过了40%的拟声词、地点名词、叹词和专有名词,其他词类男女之间的差异比例从低于10%到百分之三十几不等。这种男性和女性在不同词类上的差异度情况通过下面的曲线图可以明显地看到,差异度跨度很大,差异度大的超过了100%,小的则只有百分之二点几,而且差量比例低于20%的词类有9个,占了60%,超过了半数。
5 结论
男性和女性在独词句的使用上表现出了相似的特点。首先,独词句句总数的差异不明显;其次,按照词类来分的话,普通名词和动词所构成的独词句都占据了前两名的位置,并且所构成的句总数远远大于其他词类;第三,按照不同词类构成的句总数的量来看,15种词类中除了地点名词之外,男性和女性之间在句总数的分布上基本表现出了相似的特点。
同时,男性和女性在使用不同词类构成独词句时又各具特点:首先,同一词类所构成的独词句句总数及所占比例男性和女性各不相同;其次,男性和女性在使用不同词类构成独词句时,词类与词类之间句总数的差距非常大,而且这种差距的大小并不完全与某一词类所构成句总数的大小一一对应;第三,男性和女性在使用不同词类构成的独词句时表现出了不同的差异度,根据我们对差量比例的计算,得出了差异度曲线图,其中男女性之间差异度最大的是机构名所构成的独词句,差异度最小的是动词构成的独词句。
参考文献:
[1] 周浩,赵光年. 近十年国内语言性别差异研究概述[J]. 当代教育论坛,2009,(12):26-27.
[2] 史耕山,张尚莲. 国内语言性别差异研究概述[J]. 外语教学, 2006,(3):24-27.
[3] Chao, Yuen Ren. A Grammar of Spoken Chinese[M]. Berkeley & Los Angeles: University of California Press, 1968 .(又参考:吕叔湘节译本《汉语口语语法》,北京:商务印书馆,1979)
责任编辑:凤文学
注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文
摘 要: 以国家语言资源监测与研究中心(网络媒体分中心)建立的博客文本语料库为研究对象,对博客中在独词句使用上的性别差异作统计调查与分析。通过对普通名词、动词、形容词、叹词、代词等15个不同词类或不同性质的成分所构成的独词句的对比研究发现,男女性在博客中独词句的使用上表现出了一系列的共性与个性特征。
中图分类号: H109.4 文献标志码: A 文章编号: 10012435(2011)02020305
Sexual Difference on Use of One-word Sentence Based on Network Media Monitoring Corpus
LI Xiangnong, TIAN Yuan, WANG Yubo (Center for Language and Language Education, Huazhong Normal University, Wuhan 430079, China)
Key words: Network Media Monitoring Corpora; one-word sentence; sexual difference
Abstract: Based on the corpora of blogs of male and female bloggers, established by the National Language Resource Monitoring & Research Center (Network Media), explore the sexual differences on the use of one-word sentence. Through statistics and analysis of 15 parts of speech, such as common nouns, verbs, adjectives, interjections, pronouns, etc, and comparative studies of one-word sentence composed by different compositions, conclude that there are many similarities and particular characteristics between the males and females.
在20世纪60年代中期社会语言学的兴起和西方女权主义运动的带动下,语言学家们展开了有关语言使用中性别差异的研究。[1]“国内语言性别差异研究在30年中经历了一个从宏观到微观,从静态到动态,从现象罗列到理论升华、从理论引进到具体应用的发展过程”[2],虽然取得了一定的成果,但与西方学界相比仍有明显的差距,其中以中国大陆为样本的实证研究更是凤毛麟角。与其他领域的研究相比仍很匮乏。[1]
学界关于独词句的研究更是少见。赵元任(1968)就认为“句子可以从结构上分为整句和零句(独词句)。”“ 零句最常见于对话以及说话和行为参杂的场合。”[3]42“在日常生活中, 零句占优势。”“从语用的角度看, 零句比整句更重要,对我们了解句子的结构也很有帮助。”[3]51
本文以国家语言资源监测与研究中心(网络媒体分中心)建立在2005-2006年spaces.live.com;blog.sina.com.cn;blog.sohu.com;blogcn.com;bokee.com;blog.hexun.com;blogbus.com等7个知名中文博客网站的部分网页,共计4 938 041篇,1 937 732982字符次的文本语料为基础,提取出具有性别标识的博客文本共计2 275 826篇,606 571 001字符次(其中男性作者54 982个,文章773 777篇;女性作者77 007个,文章1 502 049篇)的博客语料库为样本作为研究对象,在对语料进行词性标注的基础上,将博客语料中男性和女性作者所使用的独词
句提取出来,得到了一系列的数据,通过对数据的统计分析发现,男性和女性在博客中对独词句的使用呈现出了一系列特征。下面从不同角度对男女性在使用独词句时的特点进行分析。
1 总体情况
如表1所示,男性独词句句总数为2 877 591句,女性为2 854 148句,男性多于女性23 443,相对于庞大的独词句句总数而言,差量仅占女性独词句句总数的0.81%,男性和女性在独词句句总数上的差异并不明显。但通过对构成独词句的不同词类的分析,男性和女性在独词句内部存在着较为显著的差异。
2 不同词类构成的独词句
我们将独词句按照构成成分所属的词类[注:此处的“词类”准确地说应该指不同性质的成分,其中除了包括传统意义上的名词、动词等,还将成语、缩略语等与传统意义上的词类并列起来,为了行文方便,我们统称“词类”。]进行分类,分别提取了男性和女性使用普通名词、动词、形容词等15种词类所构成的独词句。
表2列出了男性使用15种词类所构成的独词句的句总数,其中构成句总数最多的两个词类是普通名词和动词,句总数分别达到了726 884和572 540,而句总数最少的两个词类是缩略语和机构名,句总数分别只有27 667和23 679,排在第一位的普通名词的句总数是最后一位的机构名的30.70倍。总的来说,除了句总数最多的达到50万以上的2个词类之外,超过20万的是人名和叹词2个词类,10万到20万之间的是时间名词、形容词、成语、习语、代词、地点名词和拟声词7个词类,低于10万的是动名词、专有名词、缩略语和机构名4个词类,其中前3位之间在句总数上的跨度较大,其余一些词类之间的跨度相对较小,这种趋势从图2中可以清楚地看到。
图1 男性不同词类构成的独词句句总数分布
同时,我们也对女性独词句所使用词类的情况进行了统计分析。和男性一样,构成独词句最多的词类是普通名词和动词,句总数分别达到了647 081和587 214;句总数最少的则是专有名词和机构名,分别只有28 761和11 655;另外句总数超过20万的两个词类是叹词和形容词,相对于男性来说,女性使用了相对较多的形容词构成独词句;句总数在10万和20万之间的词类相比男性的7个词类少了地点名词;而句总数低于10万的词类则相对多了地点名词。对照图1和图2发现,女性和男性在独词句句总数的分布上表现出了相似的特点。具体数据见表3。
3 男女性不同词类独词句使用总体情况的对比分析
为了对比男性和女性在不同词类所构成的独词句使用上的总体情况,表4将男性和女性由同一词类所构成的独词句句总数进行了比对,计算出了同一词类构成的句总数差数d、样本和∑、平均值X和方差S2。
差数d和所比较的总体呈正态分布是t检验的前提条件,因此我们首先用SPSS中的非参数分析方法Kolmogorov-Smirnov检验(下简称K-S检验)和正态概率图的Q-Q法对上表中的数据进行双重正态性检验。
表5是运用SPSS中非参数分析方法K-S检验对普通名词、动词等15个词类所构成的独词句的男性句总数、女性句总数和男女句总数差数d三组数据进行的检验结果,从中可以看到,三组数据的p值分别为
0.189、0.210和0.805,都大于0.05,因此上述三组数据都呈正态分布。
由于男女两组数据是配对数据组成,因此要对其进行正态验证,只需验证他们的差值d是否符合正态分布。我们运用SPSS中正态概率图的Q-Q法对男女句总数差数d进行了正态性检验。图3中的散点基本上是聚集在固定直线的周围,因而可以认为数据资料近似服从正态分布。
上述正态性检验结果证明上述15个词类所构成的独词句数据为正态性分布,满足进行成对文本t检验的前提条件。
根据表4中的数据,我们进一步进行了t检验:成对双样本均值分析
设显著水平为0.05,t分布表中临界值为2.145(df=14)
n=15,df=n-1=14, t=dSdn=0.217
由于t=0.127<t0.05(14)=2.145,说明就上述词类所构成的独词句整体来说,男性和女性在这些词类的独词句句总数上的差异不明显。
4 男女性不同词类独词句的使用差异
通过上文中的统计分析,可以发现,男女性之间在独词句的整体使用上存在着一定的共性。但男性和女性在不同词类构成的独词句使用上表现出了明显的差异。
表6列举出了普通名词、动词、人名、叹词、时间名词、形容词、成语、习语、代词、地点名词、拟声词、动名词、专有名词、缩略语和机构名等15种词类所构成的独词句的句总数,其中普通名词和动词是构成独词句的重要组成部分,其句总数远远大于其他词类,这是男性和女性的一个共性;具体到同一词类,男性和女性由同一词类构成的句总数差异较大,在上表差量和比例两栏中,正数代表男性多于女性的量及差量所占女性总量的比例,负数代表男性少于女性的量及差量所占男性总量的比例。
从表6可以看到,男性和女性在同一词类所构成的独词句的句总数上存在着较大差异,我们将男女性同一词类的独词句句总数单独提取出来,得出图4,从中可以清楚地看到:在比较的这15种词类中,就句总数之间的差异量的大小来看,男性和女性叹词和拟声词的句总数上差异最大,女性远远多于男性;而男性在由普通名词和人名所构成的独词句句总数上较为明显地多于女性;除此之外,男性和女性在其他词类构成的独词句句总数上也存在着或多或少的差异。
有关男性和女性之间不同词类所构成的独词句在数量上的差异的特点,我们通过其他对比方法也得到了印证。表7将不同词类所构成的句总数和男性或女性独词句的总量相除,得到了不同词类句总数所占男性或女性独词句总数的百分比,并利用这些比值生成了图5,从图4和图5,我们得到了反映出相同特点的曲线图。另外,图6和图7形象地展示出了普通名词和动词所构成的独词句在男性和女性中的主导地位,二者共占了将近50%,而其他13个词类则共占了50%多一点。
但是,仅仅从句总数之间的差异量的大小来判断男性和女性在独词句使用上的差异是片面的,因为有的词类所构成的独词句句总数非常大,男女之间的差异量的数字也大,但这个差异量相对这个词类所构成的句总数而言所占比例却很小;因此,在表4中我们不仅列出了男性和女性在同一词类所构成的句总数上的差量,并且计算出了这个差量相对于男性或女性这同一词类的句总数所占的百分比,即差量比例,我们将这个差量比例与差异度联系起来,差量比例越大,差异度越大;反之,差异度越小。
差量比例=|男性某词类句总数-女性某词类句总数|男女性某词类独词相对减小的句总数
我们将男性和女性不同词类所构成的独词句的差量比例单独列出,并按倒序的方式排列,可以明显地看出男性和女性在使用某一词类构成独词句时的差异度。
从表8可以看到,总体来说,男性和女性独词句在不同词类上存在着显著差异,其中差异度较大的不是我们上面提到的男女性之间差量最大的拟声词和叹词或者句总数最大的普通名词和动词,而是句总数最小的词类机构名;其中差量比例最大的达到了103.17%,最小的则不到3%;具体来看,在机构名所构成的独词句的数量上,男女之间的差异最大,其次是差异比例超过了40%的拟声词、地点名词、叹词和专有名词,其他词类男女之间的差异比例从低于10%到百分之三十几不等。这种男性和女性在不同词类上的差异度情况通过下面的曲线图可以明显地看到,差异度跨度很大,差异度大的超过了100%,小的则只有百分之二点几,而且差量比例低于20%的词类有9个,占了60%,超过了半数。
5 结论
男性和女性在独词句的使用上表现出了相似的特点。首先,独词句句总数的差异不明显;其次,按照词类来分的话,普通名词和动词所构成的独词句都占据了前两名的位置,并且所构成的句总数远远大于其他词类;第三,按照不同词类构成的句总数的量来看,15种词类中除了地点名词之外,男性和女性之间在句总数的分布上基本表现出了相似的特点。
同时,男性和女性在使用不同词类构成独词句时又各具特点:首先,同一词类所构成的独词句句总数及所占比例男性和女性各不相同;其次,男性和女性在使用不同词类构成独词句时,词类与词类之间句总数的差距非常大,而且这种差距的大小并不完全与某一词类所构成句总数的大小一一对应;第三,男性和女性在使用不同词类构成的独词句时表现出了不同的差异度,根据我们对差量比例的计算,得出了差异度曲线图,其中男女性之间差异度最大的是机构名所构成的独词句,差异度最小的是动词构成的独词句。
参考文献:
[1] 周浩,赵光年. 近十年国内语言性别差异研究概述[J]. 当代教育论坛,2009,(12):26-27.
[2] 史耕山,张尚莲. 国内语言性别差异研究概述[J]. 外语教学, 2006,(3):24-27.
[3] Chao, Yuen Ren. A Grammar of Spoken Chinese[M]. Berkeley & Los Angeles: University of California Press, 1968 .(又参考:吕叔湘节译本《汉语口语语法》,北京:商务印书馆,1979)
责任编辑:凤文学
注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文