论文部分内容阅读
摘要:文章通过对语料库的演变与发展,语料库的研究与机器翻译,语料库研究的科学性和前瞻性,及语料库对语言教学的启示,阐述了语料库的应用改变了传统的语言研究模式,使得语言研究在具有科学性依据的同时更好地服务于语言的交际功能和目的。
关键词:计算机化;语料库;科学性;前瞻性;语言教学
中图分类号:G642 文献标识码:A 文章编号:1674-0432(2012)-10-0271-2
基金项目:该论文为教育部2011年度“春輝计划”立项资助合作科研项目,项目编号:Z2011129。
1 语料库的演变与发展
随着计算机科学的发展,语料库的研制也进入到了新的阶段。第一代语料库通常是指20世纪60年代至80年代建成的电子语料库。在这其中,由布朗大学于1963-1964年建成的布朗语料库可以称作最为典型的代表。该语料库的全称为“布朗大学当代美语标准预料库”是当今最早的机读语料库。第一代语料库通常将所收集的语料转化为电子符号储存在计算机内。多种信息需要在计算机上进行标注。标注指的是借助于计算机软件对预料进行加工,把各种语言特征的附码标注在相应的语言成分上,这样计算机才能够进行识读。自20世纪下半叶英美开发出第一代语料库以来,世界上许多国家和地区也陆续建立起各种单语语料库,其中包括书面语和口语,共时语料和历时语料。限于当时的计算机技术和应用水平,第一代语料库的规模一般不超过100万词次。
随着计算机信息技术的发展出现了第二代语料库。这些语料库的规模通常在千万词甚至是上亿词次以上,数量之巨远远超过了第一代语料库。此外,第二代计算机语料库大都采用了教新的KDEM (Kurzwei Data Entry Machine) 光电符号识别技术,大大加快了语料库的标注处理,能够使语料库的编码和编辑从繁重的人工输入中解脱出来。第二代语料库的鲜明特点是语料库建库的周期短,对语料加工的自动化程度高,结构安排更为合理。这些特点在很大程度上都归功于计算机信息技术的不断更新和迅猛发展。
2 语料库语言研究的科学性
语料库研究是一种科学的语言研究方法。语料库的建立可以使语言研究者较为快速地从大批量文本中准确地提取多种数据。运用语料库进行分析,我们能够十分有效地将语料库中的大量数据呈现在我们面前,使得隐藏于大量文本中的语言信息得以浮现出来。只要研究者细心观察,便可以从大量的数据中发现规律。这非常有利于研究者把定量研究和定性研究科学地结合起来,同时也为语言学习积累了丰富的科学知识。
语料库的应用也充分体现出了科学性。语料库的应用大致可以分为建库、数据提取、统计和数据分析这三个主要阶段。在建库之前,需要进行取样方面的论证,此时建库者需要考虑到取样的平衡,语料库的设计容量,语料来源等。语料库中的语料都是具有代表性的资料,具有很强的科学性。同时,所得到的文本还需进行细致的整理和清洁,并按照需要进行必要的标注。标注主要分为元信息标注,语音标注,词性赋码,语义标注,句法标注等。无论是人工标注还是自动标注,都要在核对其准确性之后才能入库。语言研究者可以利用各种语料库分析工具从语料库中提取所需信息。数据的提取可涉及到语音数据的提取,索引的生成,词表的生成,主题词表的生成和搭配和类连接的提取等。
3 语料库语言研究的前瞻性
人类的各项交流均无法脱离语言这一工具。随着科技的日新月异,语言的研究和学习也需要科学性的研究方法。计算机语料库语言研究代表着语言研究发展的科学化趋势,具有前瞻性。从第一个语料库—布朗语料库在美国诞生以来,语料库的容量越来越大,计算机语料库的设计越来越科学。随着时代的进步和科技的发展,语料库的容量将近一步扩大。同时,在这些大型的语料库中,语言研究者和使用者不仅能够得到样本文本,而且可以根据需要提取已对样本进行预处理的标注文本、其他用户的使用及评价信息等,以供研究是参考。随着语言研究的国际化,不同语种的语言研究越来越依赖于可机读的电子语料库这一工具。人们已经意识到传统的语言学家、计算机语言学家和计算机科学家已经联手开始合作研究,使得语料库语言学的研究成为一个跨学科的语言学分支。语料库分析软件及应用软件开发和推广具有广阔的前景。“作为一种独特而强大的技术工具,计算机使得这种新的语言学(语料库语言学)成为可能。”4 (Leech,1992)。在今后,随着计算机的发展,语料库语言学研究参与人员的不断增加,语料库分析和应用软件的开发和推广既有重大意义,又有广阔的前景。为了满足不同语料库使用者的需要,语料库的编制者在研制综合性的超大型的语料库的同时,正在努力建立更多的专业性较强的专门用途的语料库。无论是大量的在线语料库还是各种电子媒介发行的电子文本语料库,以及各种类型的语料库,其建设,发展和应用都离不开计算机和网络平台。语料库的研究使语言研究和学习者不再拘泥于传统的教学和学习方法,具有了与实际相结合的更加科学化的研究和学习方式。可以预见,语料库的应用将从传统领域扩展到更多的新兴领域和学科,而且随着以语料库为基础的研究方法日益受到重视并得到广泛应用,相应研究成果的价值也会更加突出。
4 语料库语言研究对于语言学习的启示
语料库研究将在语言教学和研究方面发挥更大的作用。语料库语言研究使语言研究的层次更加清晰,更加立体化。语料库的研究产生了基于词语的语境共现技术,词表统计、搭配研究。同时,分析形态的基本依据是词语,主要概念为词素、形态音位。分析词语的基本依据是语境词,主要概念为词频、形符、类符、类/形比、搭配词、搭配力、语法模式、意义单位等。分析短语的基本依据是临近的短语和句子,主要概念为词簇、短语、表达和命题。分析篇章的基本依据是篇章的句子和同类文本,主要概念为衔接、文类、话语分析。由此可见,与传统的语言研究方式相比,语料库的研究使得语言研究更加细致,更加具体。在传统的语言教学中,教学者通常只要求学习者掌握词语的意思(教师大多是使用同义词进行释义),也就是说,教师往往认为只要求学生领会某词在不同句子中表达什么意思就够了。在语法讲解时,通常忽略了实际使用时的各种语境因素,过分强调所谓的系统性和正确性,使知识的学习过于僵化,学生往往在实际运用中缺少灵活性。在课文的讲解中,也没有考虑到词汇及句型的使用频率,学生只是被动地接受知识,而在现实生活中往往不知如何表达,形成了输入与输出极度不平衡的现象。 语料库的语言研究将引起外语教学思想观念的转变,改变传统外语教学中输入与输出不平衡的现象。因为语料库的语言研究是有区分性地对待典型的语言现象。通过检索手段进行频率统计,语料库语言学将语言的不对称分布特征清楚地呈现在人们面前:大部分书面文章的95%的内容由4000~5000个高频词构成,而它们中的前1000个高频词又占据了文章的85%;在口语语料库中,50个高频功能词就占据了60% (Nation,1990)。这样,在语言教学过程中就能将高频词,高频语法结构和高频词汇搭配等。同时,语料库语言研究为分析目的语和母语之间的差异性提供了技术上的可能和科学可靠的依据,它所揭示的目的语的典型语言特征是教学的重点并得到学生和教师的共同重视。语料库的语言研究改变了传统的对语言规则进行大量的定义和解释的僵化学习现象,通过对语料库中大量实例的研究和分析可以得出语言的实际运用规则。此外还能将以教师为中心的填鸭式教学变为以学生为中心的探索型教学,鼓励学生充分利用语料库资源,能够极大地发挥他们在学习中的积极性和主动性。
语料库的语言研究可以打破传统教学大纲的局限性,能够为语言教学提高丰富的词汇、短语、句子、篇章及其他类型的资料。这些资料不仅在语法上正确,而且是在上下文里得体的语言结构。语料库的应用还可以帮助语言教学者实现著名语言理论家克拉申可理解性输入假设理论中的i+1原则,i代表的是学生现有的语言水平,1指的是提供给学生的输入材料的难度要稍微提高一点(即略高于他们现有的水平)。在传统教学中,教师很难把握这一差距,而语料库的应用可以使教师较为容易的把握这一差距。因为语料库可为语言教学者充分描述学生在某一阶段的知识状况,依据这一表述,大纲设计者便能制定出超出学生目前外语水平而难度在合理范围之内的学习内容。以语料库为基础的语言教学能够更好地实现语言的交际功能。由此可见,语料库的语言研究为语言教学及语言应用带来了丰富的启示,符合语言教学及语言应用的发展趋势。
参考文献
[1] 张政.计算机翻译研究[M].北京:清华大学出版社,2006.
[2] 馮志伟.机器翻译研究[M].北京:中国对外翻译出版公司,
2004.
[3] 梁茂成,李文中,许家金.语料库应用教程[M].北京:外语教学与研究出版社,2010.
作者简介:张敏(1978-),女,吉林省吉林市人,北华大学外语学院讲师,研究方向:语言学;王礼华(1961-),女,福建泉州人,大阪电气通讯大学综合信息学部副教授,研究方向:数字游戏;张志义(1964-),男,吉林省吉林市人,北华大学工程训练中心博士,教授,研究方向:机械自动化。
关键词:计算机化;语料库;科学性;前瞻性;语言教学
中图分类号:G642 文献标识码:A 文章编号:1674-0432(2012)-10-0271-2
基金项目:该论文为教育部2011年度“春輝计划”立项资助合作科研项目,项目编号:Z2011129。
1 语料库的演变与发展
随着计算机科学的发展,语料库的研制也进入到了新的阶段。第一代语料库通常是指20世纪60年代至80年代建成的电子语料库。在这其中,由布朗大学于1963-1964年建成的布朗语料库可以称作最为典型的代表。该语料库的全称为“布朗大学当代美语标准预料库”是当今最早的机读语料库。第一代语料库通常将所收集的语料转化为电子符号储存在计算机内。多种信息需要在计算机上进行标注。标注指的是借助于计算机软件对预料进行加工,把各种语言特征的附码标注在相应的语言成分上,这样计算机才能够进行识读。自20世纪下半叶英美开发出第一代语料库以来,世界上许多国家和地区也陆续建立起各种单语语料库,其中包括书面语和口语,共时语料和历时语料。限于当时的计算机技术和应用水平,第一代语料库的规模一般不超过100万词次。
随着计算机信息技术的发展出现了第二代语料库。这些语料库的规模通常在千万词甚至是上亿词次以上,数量之巨远远超过了第一代语料库。此外,第二代计算机语料库大都采用了教新的KDEM (Kurzwei Data Entry Machine) 光电符号识别技术,大大加快了语料库的标注处理,能够使语料库的编码和编辑从繁重的人工输入中解脱出来。第二代语料库的鲜明特点是语料库建库的周期短,对语料加工的自动化程度高,结构安排更为合理。这些特点在很大程度上都归功于计算机信息技术的不断更新和迅猛发展。
2 语料库语言研究的科学性
语料库研究是一种科学的语言研究方法。语料库的建立可以使语言研究者较为快速地从大批量文本中准确地提取多种数据。运用语料库进行分析,我们能够十分有效地将语料库中的大量数据呈现在我们面前,使得隐藏于大量文本中的语言信息得以浮现出来。只要研究者细心观察,便可以从大量的数据中发现规律。这非常有利于研究者把定量研究和定性研究科学地结合起来,同时也为语言学习积累了丰富的科学知识。
语料库的应用也充分体现出了科学性。语料库的应用大致可以分为建库、数据提取、统计和数据分析这三个主要阶段。在建库之前,需要进行取样方面的论证,此时建库者需要考虑到取样的平衡,语料库的设计容量,语料来源等。语料库中的语料都是具有代表性的资料,具有很强的科学性。同时,所得到的文本还需进行细致的整理和清洁,并按照需要进行必要的标注。标注主要分为元信息标注,语音标注,词性赋码,语义标注,句法标注等。无论是人工标注还是自动标注,都要在核对其准确性之后才能入库。语言研究者可以利用各种语料库分析工具从语料库中提取所需信息。数据的提取可涉及到语音数据的提取,索引的生成,词表的生成,主题词表的生成和搭配和类连接的提取等。
3 语料库语言研究的前瞻性
人类的各项交流均无法脱离语言这一工具。随着科技的日新月异,语言的研究和学习也需要科学性的研究方法。计算机语料库语言研究代表着语言研究发展的科学化趋势,具有前瞻性。从第一个语料库—布朗语料库在美国诞生以来,语料库的容量越来越大,计算机语料库的设计越来越科学。随着时代的进步和科技的发展,语料库的容量将近一步扩大。同时,在这些大型的语料库中,语言研究者和使用者不仅能够得到样本文本,而且可以根据需要提取已对样本进行预处理的标注文本、其他用户的使用及评价信息等,以供研究是参考。随着语言研究的国际化,不同语种的语言研究越来越依赖于可机读的电子语料库这一工具。人们已经意识到传统的语言学家、计算机语言学家和计算机科学家已经联手开始合作研究,使得语料库语言学的研究成为一个跨学科的语言学分支。语料库分析软件及应用软件开发和推广具有广阔的前景。“作为一种独特而强大的技术工具,计算机使得这种新的语言学(语料库语言学)成为可能。”4 (Leech,1992)。在今后,随着计算机的发展,语料库语言学研究参与人员的不断增加,语料库分析和应用软件的开发和推广既有重大意义,又有广阔的前景。为了满足不同语料库使用者的需要,语料库的编制者在研制综合性的超大型的语料库的同时,正在努力建立更多的专业性较强的专门用途的语料库。无论是大量的在线语料库还是各种电子媒介发行的电子文本语料库,以及各种类型的语料库,其建设,发展和应用都离不开计算机和网络平台。语料库的研究使语言研究和学习者不再拘泥于传统的教学和学习方法,具有了与实际相结合的更加科学化的研究和学习方式。可以预见,语料库的应用将从传统领域扩展到更多的新兴领域和学科,而且随着以语料库为基础的研究方法日益受到重视并得到广泛应用,相应研究成果的价值也会更加突出。
4 语料库语言研究对于语言学习的启示
语料库研究将在语言教学和研究方面发挥更大的作用。语料库语言研究使语言研究的层次更加清晰,更加立体化。语料库的研究产生了基于词语的语境共现技术,词表统计、搭配研究。同时,分析形态的基本依据是词语,主要概念为词素、形态音位。分析词语的基本依据是语境词,主要概念为词频、形符、类符、类/形比、搭配词、搭配力、语法模式、意义单位等。分析短语的基本依据是临近的短语和句子,主要概念为词簇、短语、表达和命题。分析篇章的基本依据是篇章的句子和同类文本,主要概念为衔接、文类、话语分析。由此可见,与传统的语言研究方式相比,语料库的研究使得语言研究更加细致,更加具体。在传统的语言教学中,教学者通常只要求学习者掌握词语的意思(教师大多是使用同义词进行释义),也就是说,教师往往认为只要求学生领会某词在不同句子中表达什么意思就够了。在语法讲解时,通常忽略了实际使用时的各种语境因素,过分强调所谓的系统性和正确性,使知识的学习过于僵化,学生往往在实际运用中缺少灵活性。在课文的讲解中,也没有考虑到词汇及句型的使用频率,学生只是被动地接受知识,而在现实生活中往往不知如何表达,形成了输入与输出极度不平衡的现象。 语料库的语言研究将引起外语教学思想观念的转变,改变传统外语教学中输入与输出不平衡的现象。因为语料库的语言研究是有区分性地对待典型的语言现象。通过检索手段进行频率统计,语料库语言学将语言的不对称分布特征清楚地呈现在人们面前:大部分书面文章的95%的内容由4000~5000个高频词构成,而它们中的前1000个高频词又占据了文章的85%;在口语语料库中,50个高频功能词就占据了60% (Nation,1990)。这样,在语言教学过程中就能将高频词,高频语法结构和高频词汇搭配等。同时,语料库语言研究为分析目的语和母语之间的差异性提供了技术上的可能和科学可靠的依据,它所揭示的目的语的典型语言特征是教学的重点并得到学生和教师的共同重视。语料库的语言研究改变了传统的对语言规则进行大量的定义和解释的僵化学习现象,通过对语料库中大量实例的研究和分析可以得出语言的实际运用规则。此外还能将以教师为中心的填鸭式教学变为以学生为中心的探索型教学,鼓励学生充分利用语料库资源,能够极大地发挥他们在学习中的积极性和主动性。
语料库的语言研究可以打破传统教学大纲的局限性,能够为语言教学提高丰富的词汇、短语、句子、篇章及其他类型的资料。这些资料不仅在语法上正确,而且是在上下文里得体的语言结构。语料库的应用还可以帮助语言教学者实现著名语言理论家克拉申可理解性输入假设理论中的i+1原则,i代表的是学生现有的语言水平,1指的是提供给学生的输入材料的难度要稍微提高一点(即略高于他们现有的水平)。在传统教学中,教师很难把握这一差距,而语料库的应用可以使教师较为容易的把握这一差距。因为语料库可为语言教学者充分描述学生在某一阶段的知识状况,依据这一表述,大纲设计者便能制定出超出学生目前外语水平而难度在合理范围之内的学习内容。以语料库为基础的语言教学能够更好地实现语言的交际功能。由此可见,语料库的语言研究为语言教学及语言应用带来了丰富的启示,符合语言教学及语言应用的发展趋势。
参考文献
[1] 张政.计算机翻译研究[M].北京:清华大学出版社,2006.
[2] 馮志伟.机器翻译研究[M].北京:中国对外翻译出版公司,
2004.
[3] 梁茂成,李文中,许家金.语料库应用教程[M].北京:外语教学与研究出版社,2010.
作者简介:张敏(1978-),女,吉林省吉林市人,北华大学外语学院讲师,研究方向:语言学;王礼华(1961-),女,福建泉州人,大阪电气通讯大学综合信息学部副教授,研究方向:数字游戏;张志义(1964-),男,吉林省吉林市人,北华大学工程训练中心博士,教授,研究方向:机械自动化。