论文部分内容阅读
摘 要:随着计算机技术的发展,语料库技术作为一种更为科学的、经济的手段,被越来越多地引入到辞书编纂领域。在汉语辞书释义方面的语料库技术运用,不仅能提高辞书释义的客观性、准确性,还能进一步增强汉语辞书编纂的科学性。语料库的出现在为我们提供方便的同时,也带来了一些问题。为了确保辞书编纂中语料分析的合理性、科学性,我们在进行数据分析时,应把握真实性、穷尽性、有效性和定量分析与定性分析相结合的原则。
关键词:辞书编纂 语料库 原则
一、引言
自20世纪80年代以来,随着计算机应用技术的不断发展,以语料库为基础的语言学研究在语言学和计算机科学领域中都取得了丰硕成果,语料库的建设也受到了世界各国的广泛重视。近年来,语料库规模的扩大及配套的检索技术的完善,为辞书编纂带来了新的思路和角度。大量电子文本的出现,不仅给辞书编纂带来了大量的信息来源,使我们节省了很多人力、物力,也给读者提供了一种新的更加快捷的语料查找渠道,便于人们进行有关方面的学习和研究。但与此同时,为了确保辞书编纂中语料分析的合理性、科学性,我们在进行数据分析时,还应把握真实性、穷尽性、有效性和定性与定量相结合的原则。
二、真实性
所谓真实性,主要是指语料的真实性和数据的真实性。在我们进行数据分析前,首先要确保的是语料库中语料的真实性。语料库中的语料应该是在现实生活中真实应用于自然语言交际的真实话语和真实文本材料。语料库素材的构成和取样范围要按照明确清晰的语言学原则和严谨科学的语料库设计宗旨,通过科学的实际调查和合理的数据统计来完成,而并不是由随意拼凑的或随机抽取的某一部分语言材料堆积而成。因此,我们在进行数据分析时常常选择一些规模较大语料库,它们都是国家或者有实力的大学设计和建设的,从而使我们能方便快捷地找到大量真实可靠的数据。例如:国外的语料库有布朗语料库、伦敦—隆德口头英语语料库、国际英语语料库等,国内的语料库有现代汉语语料库、北京大学计算语言学研究所开发的人民日报语料库等。这些大型的语料库为我们提供了大量的真实可靠的语料,这也为我们下一步进行数据统计的真实性奠定了坚实的基础。
其次,我们还要保证统计数据的真实性。我们从语料库中筛选出需要的语料,然后就要进行相关方面的数据统计,切记要一一进行查找,不能偷懒进行类推或者大致推算。因为每一个数据都有自身的独特性,它所具有的某些性质也许只是这一个例子所表现出的特征,并不能代表全部。例如,我们要对“给力”这个词条进行调查研究,在资料考证过程中我们发现“给力”在给定的语料库2012年的语料使用中频率较高,但是我们不能简单推测在2013年的语料中它也大量使用,具体它的使用频率是多少,是否在2013年的语料中同样有较高的使用率,还要认真地在2013年的语料中进行实际的考察和统计才能得出真实可信的定论。如果我们的调查失去了真实性,那么也就失去了调查的意义,就更不要谈语言研究的价值了。因此,真实性是辞书编纂中语料库数据分析的首要原则。我们要确保数据统计的真实性,做好数据分析的基础工作。
三、穷尽性
在确保真实性的基础上,我们还要保证数据分析的穷尽性。所谓穷尽性,就是我们在检索语料的过程中,要把语料库中关于调查内容的语料全部检索一遍,应该将含有检索条目的语例尽可能完全地收录进来。这样我们不仅可以全面了解词语的使用情况,而且还能为进一步的全面分析打好基础。如果搜集的语料没有穷尽所调查的使用领域,就会导致分析结果有一定程度的偏差,语料抽样比例越小,最终所得到的的结果偏差就越大。比如说我们现在要对“问讯”这个词条进行考察,通过在语料中的检索我们发现,它通常有三层意思:作动词,表示“询问”;作动词,表示“讯问,审问”;作动词,带有书名面色彩,表示“问候”。其中在含有“问讯”一词的153则语料中,还有6个语例是表示僧尼跟人应酬时合十招呼——也叫“打问讯”。这一用法虽然只占到总数的4%,但如果在调查过程中忽略了这6个用法,就不仅没有真实地反映语言在现实生活中的应用,而且在读者遇到此类用法时也查无依据,还给语言的发展带来不必要的麻烦。语料库数据分析区别于传统分析的最大特点,就是它建立在大规模真实语料数据的基础之上,分析的方法较之过去更加客观全面,分析的结果较之以往也有更加详实充分的依据,因此也就具有了高度的科学性和说服力。
当然穷尽性是相对而言的,通用型的语料库数据范围和数量都极大,要想进行穷尽性的分析统计有时还需要借助相关的专业工具和技术。而专门语料库数据量较小,进行穷尽性的分析难度较低,操作起来比较简单易行。所以不论难度高低,我们都要进行穷尽性的检索和统计,这样我们最后得出的结果才有意义,有一定语言研究价值。因此,穷尽性是辞书编纂中语料库数据分析的重要原则。只有把握了穷尽性原则,才能为辞书的进一步发展提供全面的有力支持。
四、有效性
所谓有效性,主要是指所分析的对象的有效性和分析数据运用的有效性。首先是分析的对象的有效性,也就是说在进行数据分析时,要在数据真实基础上,进一步要求所调查的数据的有效性,或者说我们最终所选定的分析数据是符合我们所调查的目的的。例如,我们在北大语料库中对语句中“叛离”一词不同语句中的应用情况进行检索,得到39个语例;但是在进一步的考察中发现,其中有2条语例是在词典中的运用,因此在进行调查数据统计时,符合调查目的的有效语例应该计为37例。因此,我们不能简单地把检索出来的结果直接拿来使用,而要根据调查的目的认真仔细地进行筛选,剔除无效的数据,保留有效数据。
同时,我们还应考虑分析数据运用的有效性。数据分析对象的有效性并不等于分析数据运用的有效性,但是数据分析对象的有效性是保证分析数据运用的有效性的先决条件。以上文中“叛离”一词为例,在确定了有效语例为37的基础上,我们才能进一步考察其应用情况,在考察“叛离”后与组织类名词搭配使用和与人物名词搭配使用的情况时就不能将这37个语例笼统地运用进去。经过进一步的考察后发现,与组织类搭配的有9例,与人物类搭配的有5例,这是在有效语例中进一步考察分析数据运用的基础上得出的有效数据。如果没有前期考证的有效语例,那么这一次进一步的考证也是没有绝对的说服力的,当然还有可能出现错误。如果在考察“叛离”搭配的使用时,我们以检索到的39个语例进行分析,那么那2个无效的语例也就在无意中扩大了考察的范围,也更会影响到最后统计比例的大小。当我们发现“叛离”与组织类名词搭配使用的情况最多时,我们在进行词典编纂时就可以将“叛离”与组织类搭配使用的例子放在首位,或者是多举几例。这些都说明分析数据运用的有效性是完全考虑到现实应用的,同时还说明建立在数据有效性基础上的分析数据运用的有效性也是完全符合现实需要的。从语料分析的最终用途角度来看,有效性是不可忽视的重要问题。因此,有效性是辞书编纂中语料库数据分析必不可少的重要原则。我们要把握分析的对象的有效性和分析数据运用的有效性原则,从辞书编纂的现实出发,不断提高辞书的现实价值。 五、定量分析与定性分析相结合
在所有语料库的分析方法中,定量分析是语料库数据分析的基础方法,所得到的的分析结果的科学性在很大程度上都是取决于定量分析的真实性、穷尽性和有效性。但是这并不是唯一的、万无一失的方法,单纯依靠定量分析的方法是不能得到最终的有效结果的。通过上文的分析可以看出,定量分析往往是与定性分析紧密结合在一起的,也只有将定量分析与定性分析结合起来,才能得出更加科学、可信的结果。在辞典编纂过程中,词语义位的确定、用法功能的分析、搭配词语的选择等诸多方面都离不开定量和定性分析。比如我们现在要对“叛逆”一词进行检索调查,输入被检索的条目后,一共得到569个语例。但是“叛逆”一词并不是一个单一词性的词语,它存在动词和名词两种词性,所以我们在进一步的分析中要考察其动词和名词的使用情况,明确了这些区别,我们才能更好地对它的使用情况做出分析统计。经过进一步的调查发现,“叛逆”作名词的情况较作动词的情况更多一些,在定性分析的结果指导下,我们在辞典编纂时就可以把“叛逆”作名词的情况放在第一来解释,作动词的情况放在第二来解释。这样将定量与定性分析结合起来,在定量的基础上进行定性的考察,在定性的分析结果指导下进而明确定量的分布安排,这样往复循环,不断提高语料库数据分析的科学性。
因此,定量分析必须与定性分析相结合。如果缺少了定性分析,那么定量分析只能停留在仅仅反映现象的数据数字本身,根本不能揭示出数据背后的本质规律,当然也就无法得到科学的使用;如果缺少了定量分析,那么定性分析往往会表现出主观性,有时甚至会片面反映客观现象,只能流于经验之谈,最终的结果也只能是为了研究而研究,为了调查而调查,不能运用到实际应用中。所以定量与定性相结合是辞书编纂中语料库数据分析根本性的重要原则。只有把定量分析与定性分析结合起来,它们才能相互补充,取长补短,不断推动辞书编纂的科学性和客观性的提高。
参考文献:
[1]章宜华.计算词典学与新型词典[M].上海:上海辞书出版社,2004.
[2]符淮青.词典学词汇学语义学文集[C].北京:商务印书馆,2004.
[3]张志毅,张庆云.词汇语义学[M].北京:商务印书馆,2005.
[4]SidneyI.Landau.词典编纂的艺术与技巧[M].北京:商务印书馆,2005.
[5]卫乃兴.基于语料库和语料库驱动的词语搭配研究[J].当代语言学,2002,(2).
[6]苏宝荣.词义研究与辞书释义[M].北京:商务印书馆,2008.
[7]冯志伟.计算语言学基础[M].北京:商务印书馆,2001.
(唐萌 山东烟台 鲁东大学文学院 264025)
关键词:辞书编纂 语料库 原则
一、引言
自20世纪80年代以来,随着计算机应用技术的不断发展,以语料库为基础的语言学研究在语言学和计算机科学领域中都取得了丰硕成果,语料库的建设也受到了世界各国的广泛重视。近年来,语料库规模的扩大及配套的检索技术的完善,为辞书编纂带来了新的思路和角度。大量电子文本的出现,不仅给辞书编纂带来了大量的信息来源,使我们节省了很多人力、物力,也给读者提供了一种新的更加快捷的语料查找渠道,便于人们进行有关方面的学习和研究。但与此同时,为了确保辞书编纂中语料分析的合理性、科学性,我们在进行数据分析时,还应把握真实性、穷尽性、有效性和定性与定量相结合的原则。
二、真实性
所谓真实性,主要是指语料的真实性和数据的真实性。在我们进行数据分析前,首先要确保的是语料库中语料的真实性。语料库中的语料应该是在现实生活中真实应用于自然语言交际的真实话语和真实文本材料。语料库素材的构成和取样范围要按照明确清晰的语言学原则和严谨科学的语料库设计宗旨,通过科学的实际调查和合理的数据统计来完成,而并不是由随意拼凑的或随机抽取的某一部分语言材料堆积而成。因此,我们在进行数据分析时常常选择一些规模较大语料库,它们都是国家或者有实力的大学设计和建设的,从而使我们能方便快捷地找到大量真实可靠的数据。例如:国外的语料库有布朗语料库、伦敦—隆德口头英语语料库、国际英语语料库等,国内的语料库有现代汉语语料库、北京大学计算语言学研究所开发的人民日报语料库等。这些大型的语料库为我们提供了大量的真实可靠的语料,这也为我们下一步进行数据统计的真实性奠定了坚实的基础。
其次,我们还要保证统计数据的真实性。我们从语料库中筛选出需要的语料,然后就要进行相关方面的数据统计,切记要一一进行查找,不能偷懒进行类推或者大致推算。因为每一个数据都有自身的独特性,它所具有的某些性质也许只是这一个例子所表现出的特征,并不能代表全部。例如,我们要对“给力”这个词条进行调查研究,在资料考证过程中我们发现“给力”在给定的语料库2012年的语料使用中频率较高,但是我们不能简单推测在2013年的语料中它也大量使用,具体它的使用频率是多少,是否在2013年的语料中同样有较高的使用率,还要认真地在2013年的语料中进行实际的考察和统计才能得出真实可信的定论。如果我们的调查失去了真实性,那么也就失去了调查的意义,就更不要谈语言研究的价值了。因此,真实性是辞书编纂中语料库数据分析的首要原则。我们要确保数据统计的真实性,做好数据分析的基础工作。
三、穷尽性
在确保真实性的基础上,我们还要保证数据分析的穷尽性。所谓穷尽性,就是我们在检索语料的过程中,要把语料库中关于调查内容的语料全部检索一遍,应该将含有检索条目的语例尽可能完全地收录进来。这样我们不仅可以全面了解词语的使用情况,而且还能为进一步的全面分析打好基础。如果搜集的语料没有穷尽所调查的使用领域,就会导致分析结果有一定程度的偏差,语料抽样比例越小,最终所得到的的结果偏差就越大。比如说我们现在要对“问讯”这个词条进行考察,通过在语料中的检索我们发现,它通常有三层意思:作动词,表示“询问”;作动词,表示“讯问,审问”;作动词,带有书名面色彩,表示“问候”。其中在含有“问讯”一词的153则语料中,还有6个语例是表示僧尼跟人应酬时合十招呼——也叫“打问讯”。这一用法虽然只占到总数的4%,但如果在调查过程中忽略了这6个用法,就不仅没有真实地反映语言在现实生活中的应用,而且在读者遇到此类用法时也查无依据,还给语言的发展带来不必要的麻烦。语料库数据分析区别于传统分析的最大特点,就是它建立在大规模真实语料数据的基础之上,分析的方法较之过去更加客观全面,分析的结果较之以往也有更加详实充分的依据,因此也就具有了高度的科学性和说服力。
当然穷尽性是相对而言的,通用型的语料库数据范围和数量都极大,要想进行穷尽性的分析统计有时还需要借助相关的专业工具和技术。而专门语料库数据量较小,进行穷尽性的分析难度较低,操作起来比较简单易行。所以不论难度高低,我们都要进行穷尽性的检索和统计,这样我们最后得出的结果才有意义,有一定语言研究价值。因此,穷尽性是辞书编纂中语料库数据分析的重要原则。只有把握了穷尽性原则,才能为辞书的进一步发展提供全面的有力支持。
四、有效性
所谓有效性,主要是指所分析的对象的有效性和分析数据运用的有效性。首先是分析的对象的有效性,也就是说在进行数据分析时,要在数据真实基础上,进一步要求所调查的数据的有效性,或者说我们最终所选定的分析数据是符合我们所调查的目的的。例如,我们在北大语料库中对语句中“叛离”一词不同语句中的应用情况进行检索,得到39个语例;但是在进一步的考察中发现,其中有2条语例是在词典中的运用,因此在进行调查数据统计时,符合调查目的的有效语例应该计为37例。因此,我们不能简单地把检索出来的结果直接拿来使用,而要根据调查的目的认真仔细地进行筛选,剔除无效的数据,保留有效数据。
同时,我们还应考虑分析数据运用的有效性。数据分析对象的有效性并不等于分析数据运用的有效性,但是数据分析对象的有效性是保证分析数据运用的有效性的先决条件。以上文中“叛离”一词为例,在确定了有效语例为37的基础上,我们才能进一步考察其应用情况,在考察“叛离”后与组织类名词搭配使用和与人物名词搭配使用的情况时就不能将这37个语例笼统地运用进去。经过进一步的考察后发现,与组织类搭配的有9例,与人物类搭配的有5例,这是在有效语例中进一步考察分析数据运用的基础上得出的有效数据。如果没有前期考证的有效语例,那么这一次进一步的考证也是没有绝对的说服力的,当然还有可能出现错误。如果在考察“叛离”搭配的使用时,我们以检索到的39个语例进行分析,那么那2个无效的语例也就在无意中扩大了考察的范围,也更会影响到最后统计比例的大小。当我们发现“叛离”与组织类名词搭配使用的情况最多时,我们在进行词典编纂时就可以将“叛离”与组织类搭配使用的例子放在首位,或者是多举几例。这些都说明分析数据运用的有效性是完全考虑到现实应用的,同时还说明建立在数据有效性基础上的分析数据运用的有效性也是完全符合现实需要的。从语料分析的最终用途角度来看,有效性是不可忽视的重要问题。因此,有效性是辞书编纂中语料库数据分析必不可少的重要原则。我们要把握分析的对象的有效性和分析数据运用的有效性原则,从辞书编纂的现实出发,不断提高辞书的现实价值。 五、定量分析与定性分析相结合
在所有语料库的分析方法中,定量分析是语料库数据分析的基础方法,所得到的的分析结果的科学性在很大程度上都是取决于定量分析的真实性、穷尽性和有效性。但是这并不是唯一的、万无一失的方法,单纯依靠定量分析的方法是不能得到最终的有效结果的。通过上文的分析可以看出,定量分析往往是与定性分析紧密结合在一起的,也只有将定量分析与定性分析结合起来,才能得出更加科学、可信的结果。在辞典编纂过程中,词语义位的确定、用法功能的分析、搭配词语的选择等诸多方面都离不开定量和定性分析。比如我们现在要对“叛逆”一词进行检索调查,输入被检索的条目后,一共得到569个语例。但是“叛逆”一词并不是一个单一词性的词语,它存在动词和名词两种词性,所以我们在进一步的分析中要考察其动词和名词的使用情况,明确了这些区别,我们才能更好地对它的使用情况做出分析统计。经过进一步的调查发现,“叛逆”作名词的情况较作动词的情况更多一些,在定性分析的结果指导下,我们在辞典编纂时就可以把“叛逆”作名词的情况放在第一来解释,作动词的情况放在第二来解释。这样将定量与定性分析结合起来,在定量的基础上进行定性的考察,在定性的分析结果指导下进而明确定量的分布安排,这样往复循环,不断提高语料库数据分析的科学性。
因此,定量分析必须与定性分析相结合。如果缺少了定性分析,那么定量分析只能停留在仅仅反映现象的数据数字本身,根本不能揭示出数据背后的本质规律,当然也就无法得到科学的使用;如果缺少了定量分析,那么定性分析往往会表现出主观性,有时甚至会片面反映客观现象,只能流于经验之谈,最终的结果也只能是为了研究而研究,为了调查而调查,不能运用到实际应用中。所以定量与定性相结合是辞书编纂中语料库数据分析根本性的重要原则。只有把定量分析与定性分析结合起来,它们才能相互补充,取长补短,不断推动辞书编纂的科学性和客观性的提高。
参考文献:
[1]章宜华.计算词典学与新型词典[M].上海:上海辞书出版社,2004.
[2]符淮青.词典学词汇学语义学文集[C].北京:商务印书馆,2004.
[3]张志毅,张庆云.词汇语义学[M].北京:商务印书馆,2005.
[4]SidneyI.Landau.词典编纂的艺术与技巧[M].北京:商务印书馆,2005.
[5]卫乃兴.基于语料库和语料库驱动的词语搭配研究[J].当代语言学,2002,(2).
[6]苏宝荣.词义研究与辞书释义[M].北京:商务印书馆,2008.
[7]冯志伟.计算语言学基础[M].北京:商务印书馆,2001.
(唐萌 山东烟台 鲁东大学文学院 264025)