论文部分内容阅读
摘要本文基于语料库的方法,对《中国日报》(英文版)和《纽约时报》财经新闻报道的语言特点进行对比分析。
关键词语料库 财经新闻报道 对比分析
中图分类号:H313文献标识码:A
1 引言
语料库语言学是一种新兴的语言学研究方法,近几十年来发展迅速,逐渐成为语言学研究的一股潮流。语料库是按照一定原则收集的电子文本集合,能够用专门检索软件进行统计分析。语料库语言学是用检索工具对语料库进行检索,并以此来分析语料库文本语言特点的研究方法。语料库为研究文本的语言特点和结构提供了量化的工具。随着计算机和相关技术的发展,基于语料库的研究方法将更加准确、可靠,这为语料库语言学的进一步发展奠定了基础。
通过对单个文本的检索,能够分析该文本的语言特征;对集合了同类文本对单个文本的检索,能够分析该文本的语言特征;对集合了同类文本的语料库进行检索,能够对该语料库的整体语言特点进行描述。Chafe总结了书面语和口语语体的两点区别:语篇结构的紧密性和分散性以及作者观点态度的参与性和分离性。根据Chafe的研究,书面语体结构上更为紧密,作者的参与性较弱,与读者的互动较少;而口语语体的分散性较强,作者的态度的分离性较弱,作者与听众的互动较多。
本文基于语料库方法,以Chafe的理论为基础,对《中国日报》和《纽约时报》两家媒体英文财经报道的语言特征进行对比分析。研究过程中,自建两个小型语料库,分别命名为“Coverage of China Daily(CCD)”和“Coverage of New York Times(CNYT)”。本文的研究方法采用Chafe概括的两分法:文本结构的紧密性和分散性以及作者态度的参与性和分离性。
2 资料收集与数据分析
语料库的代表性和规模,是影响其分析结果有效性和可靠性最重要的两个因素。语料库包含的文本数、文本种类、各类文本所占的比重等诸多因素都会影响其代表性,在构建语料库时必须加以考虑。该研究中,选用的文本来自两家新闻媒体网站上的财经新闻,时间是从2009年12月到2010年1月。为确保语料库的代表性,所选用的文本尽量涵盖经济生活各个领域。
语料库规模是影响分析结果有效性的另一重要指标。一般而言,规模越大,统计结果就越准确;但考虑到时间、投入等的影响,语料库规模能满足研究目的即可。在该研究中,语料库的样本都是从网上选取的自然语篇,样本数都是300。将两家媒体网站上的新闻文本复制到txt.文件中,再进行必要的格式调整和标注,以便使用检索软件。为保持语料库代表性,作者姓名和日期都被删除,只保留标题和正文。
3 数据分析
本文选用的检索工具是Antconc3.2 和Concordance Text Analysis 3.2,二者合用能提供比较详细的信息。语料库对比分析由两个方面展开:文本结构的紧密性和分散性以及作者态度的参与性和分离性。
3.1 紧密型和分散性
本文从词汇和句子两个层面对语篇结构紧密性和分散性进行分析。词汇层面的因素有平均词长、话语标识、逻辑连接词、词汇密度等,句子层面的分析因素主要是平均句长。
3.1.1 平均词长
Grzybek认为,平均词长是影响文本类型的重要因素。平均词长越大,文本的专业性、复杂度越高,紧密性一般也就越高。Biber指出,在书面语体,尤其是学术性语言中,更倾向于使用较长的词汇,以表达更为具体或专业的意义;而在其他场合,如口语中,小词的运用则更为普遍。本文所使用的检索软件不能直接统计出语料库的平均词长,但可以通过以下的公式求出:
平均词长=字符数/形符数
字符数是指除去空格以后所有字符的数量,即语料库中所有词汇包含的字母总数。数据表明,语料库CCD和CNYT 的平均词长比较接近,CCD要稍大一些。这可能是由于中美作者用词习惯不同造成的。《中国日报》的作者大多是中国人,倾向于使用大词来表达,而《纽约时报》的作者大都以英语为母语,能够运用小词来准确、灵活地表达。
3.1.2 平均句长
平均句长对句子的复杂度有很明显的影响。句子越长,句子所表达的意义和结构就越复杂,紧密性也就越强。所建立的两个语料库在平均句长方面的差距比较明显。CCD的平均句长为16.74,远低于CNYT的19.16。从这个方面来说,CNYT中语篇的句子结构更为复杂,文本的紧密性也就更强。
3.1.3 话语标记
话语标记的功能在于保持口语中前后话题的连续性或促使话题顺畅。话语标记不仅用于英语口语,它们也常见于书面语。在CCD中,每千形符中话语标记出现的平均频次为29.1,而CNYT中每千形符的频次是32.3。可见,CNYT中的文本话题的连续性更强。
表1话语标记
3.1.4 逻辑连接词
话语标记在口语中运用比较普遍,用来维持话题和内容的连续性;在书面语中则更多使用逻辑连接词。逻辑连接词对文本紧密性的影响很大,能使语篇结构更加紧凑。Ochs 指出,逻辑连接词所代表的话题之间的关系要比话语标记更精确、具体、严密,大量使用逻辑连接词会使语篇结构非常严谨。
3.1.5 词汇密度
词汇密度是指文本中实词出现的频次与总形符数的比值。实词主要包括名词、动词、形容词、副词等,具有很强的表意功能;而其他诸如介词、助词之类的语法词汇主要是结构上的功能。词汇密度较高,蕴含的信息量较大;词汇密度越低,传递的信息相对较少,而语篇的机构会更紧凑。CCD的词汇密度要高于CNYT,这说明CCD的语篇更着重于传递信息,而CNYT的结构紧密性更强一些。
表2词汇密度
3.2 参与性和分离性
参与性和分离性是判定作者对所论述问题的观点和态度的重要指标。在写作时,如果作者较明显地表现出他们的情感或态度,作者的参与性就较强,与读者的互动就较明显。根据Chafe的研究,口语的参与性比较强,作者与听众的互动比较频繁;而在书面语中,分离性更明显,作者更倾向于传递信息。判断参与性和分离性的指标主要有第一、第二人称和被动语态。
3.2.1 第一、第二人称的使用
第一、第二人称的频繁使用会提高文本的参与性。第一、第二人称在口语中的应用比较普遍,而第三人称在书面语中的出现频次更高。另一方面,大多作者在表达时一般会追求客观,尤其是在科技或行政等语域中,从而刻意减少第一、第二人称的使用,使文章说服力更强。因此,我们可以通过分析第一、第二人称的使用来判定作者的参与性和分离性。本文发现CCD 中,平均每千形符第一、第二人称出现的次数明显少于CNYT,见表4。从该角度而言,CCD中的文本分离性更强,CNYT的参与性更强。
表3第一、第二人称代词
3.2.2 被动语态
Chafe认为,使用被动结构能降低文本的参与性。被动语态通常能将句子中的主语如“I”、“We”等隐去,使得其表达的观点显得更加客观可信。本文所使用的软件不能直接检索出被动语态在语料库中出现的频次,但可以通过一些间接的指标来统计被动语态的使用,例如介词“by”的使用,“be”动词后面跟动词-ed形式的频次等。“by”偶尔会用在形容词性词组之中,但主要是用来引导被动语态的施动者。尽管有一部分动词是不规则的,但大多数都是规则的,动词的过去分词大都是以-ed结尾,因此可以通过检索“to be *ed”来统计被动结构的使用。本文通过检索介词“by”和“be *ed”的频次大概统计被动结构出现的次数。由“am”引导的“am *ed”在分析时略去,因为这种结构未能隐去主语“I”,不能降低文本的分离性。
根据统计数据,“by”和“be *ed”每千形符平均出现的频次都是CCD高于CNYT。可以推测CCD中被动语态的使用比CNYT更为普遍。这表明CCD的分离性比CNYT要高。
4 讨论
本文基于语料库方法,在Chafe关于口语和书面语对比分析两分法的理论基础上,对《中国日报》和《纽约时报》英文财经新闻报道的语言特点和结构进行对比分析。分析表明,《纽约时报》的财经报道结构上更加紧密,作者在表达观点时参与性较强;而《中国日报》财经新闻语篇结构的分散性和作者表达观点的分离性都更强。一方面,这是由中国特殊的国情造成的。我国坚持中国特色社会主义道路,形成了独特的经济发展模式;中国还有独特的文化传统,作者在写作时不可避免受到传统思维习惯和文化的影响。此外,中国的财经报道作者大多是中国人,英语是第二外语,语言掌握程度影响了表达,与英美等国相比,在语言运用上存在差距。再次,中国的财经新闻篇幅更短小,大多是浅显的事实报道,没有专业的深入分析,这也折射出我国英文财经新闻领域专业人才的匮乏。
本文由中国矿业大学大学生科研创新计划项目资助
参考文献
[1]Kennedy G. An Introduction to Corpus Linguistics [M]. London: Addison Wesley Longman, 1998. 1~2.
[2]杨惠中. 语言学导论[M]. 上海:上海外语教育出版社, 2002.152~161.
[3]Chafe W. Integration and involvement in speaking, writing, and oral literature [C]. // Tannen D. Spoken and Written language: exploring orality and literacy. Norwood,?N.J.:?Ablex?Pub. Corp., 1982. 35~53.
[4]Biber D. Representativeness in corpus design [J]. Literary and Linguistic Computing, 1993 8(4):243~257.
[5]Grzybek P etc. Quantitative text typology: the impact of word length [C]. // Jahrestagung, Claus Weihs, Gesellschaft f€黵 Klassifikation,?Wolfgang Gaul. Classification, the ubiquitous challenge. University of Dortmund, 2004:53~64.
[6]Biber D. Variation across speech and writing [M]. Cambridge: Cambridge University Press, 1988.
[7]Flowerdew J. Variation across speech and writing in biology: a quantitative study [J]. Perspectives. City university of Hong Kong, 1993.
[8]Ochs E. Planned and Unplanned Discourse [C]. //Talmy Giv€髇. Discourse and Syntax, Syntax and Semantics. New York: Academic Press, 1979:51~80.
关键词语料库 财经新闻报道 对比分析
中图分类号:H313文献标识码:A
1 引言
语料库语言学是一种新兴的语言学研究方法,近几十年来发展迅速,逐渐成为语言学研究的一股潮流。语料库是按照一定原则收集的电子文本集合,能够用专门检索软件进行统计分析。语料库语言学是用检索工具对语料库进行检索,并以此来分析语料库文本语言特点的研究方法。语料库为研究文本的语言特点和结构提供了量化的工具。随着计算机和相关技术的发展,基于语料库的研究方法将更加准确、可靠,这为语料库语言学的进一步发展奠定了基础。
通过对单个文本的检索,能够分析该文本的语言特征;对集合了同类文本对单个文本的检索,能够分析该文本的语言特征;对集合了同类文本的语料库进行检索,能够对该语料库的整体语言特点进行描述。Chafe总结了书面语和口语语体的两点区别:语篇结构的紧密性和分散性以及作者观点态度的参与性和分离性。根据Chafe的研究,书面语体结构上更为紧密,作者的参与性较弱,与读者的互动较少;而口语语体的分散性较强,作者的态度的分离性较弱,作者与听众的互动较多。
本文基于语料库方法,以Chafe的理论为基础,对《中国日报》和《纽约时报》两家媒体英文财经报道的语言特征进行对比分析。研究过程中,自建两个小型语料库,分别命名为“Coverage of China Daily(CCD)”和“Coverage of New York Times(CNYT)”。本文的研究方法采用Chafe概括的两分法:文本结构的紧密性和分散性以及作者态度的参与性和分离性。
2 资料收集与数据分析
语料库的代表性和规模,是影响其分析结果有效性和可靠性最重要的两个因素。语料库包含的文本数、文本种类、各类文本所占的比重等诸多因素都会影响其代表性,在构建语料库时必须加以考虑。该研究中,选用的文本来自两家新闻媒体网站上的财经新闻,时间是从2009年12月到2010年1月。为确保语料库的代表性,所选用的文本尽量涵盖经济生活各个领域。
语料库规模是影响分析结果有效性的另一重要指标。一般而言,规模越大,统计结果就越准确;但考虑到时间、投入等的影响,语料库规模能满足研究目的即可。在该研究中,语料库的样本都是从网上选取的自然语篇,样本数都是300。将两家媒体网站上的新闻文本复制到txt.文件中,再进行必要的格式调整和标注,以便使用检索软件。为保持语料库代表性,作者姓名和日期都被删除,只保留标题和正文。
3 数据分析
本文选用的检索工具是Antconc3.2 和Concordance Text Analysis 3.2,二者合用能提供比较详细的信息。语料库对比分析由两个方面展开:文本结构的紧密性和分散性以及作者态度的参与性和分离性。
3.1 紧密型和分散性
本文从词汇和句子两个层面对语篇结构紧密性和分散性进行分析。词汇层面的因素有平均词长、话语标识、逻辑连接词、词汇密度等,句子层面的分析因素主要是平均句长。
3.1.1 平均词长
Grzybek认为,平均词长是影响文本类型的重要因素。平均词长越大,文本的专业性、复杂度越高,紧密性一般也就越高。Biber指出,在书面语体,尤其是学术性语言中,更倾向于使用较长的词汇,以表达更为具体或专业的意义;而在其他场合,如口语中,小词的运用则更为普遍。本文所使用的检索软件不能直接统计出语料库的平均词长,但可以通过以下的公式求出:
平均词长=字符数/形符数
字符数是指除去空格以后所有字符的数量,即语料库中所有词汇包含的字母总数。数据表明,语料库CCD和CNYT 的平均词长比较接近,CCD要稍大一些。这可能是由于中美作者用词习惯不同造成的。《中国日报》的作者大多是中国人,倾向于使用大词来表达,而《纽约时报》的作者大都以英语为母语,能够运用小词来准确、灵活地表达。
3.1.2 平均句长
平均句长对句子的复杂度有很明显的影响。句子越长,句子所表达的意义和结构就越复杂,紧密性也就越强。所建立的两个语料库在平均句长方面的差距比较明显。CCD的平均句长为16.74,远低于CNYT的19.16。从这个方面来说,CNYT中语篇的句子结构更为复杂,文本的紧密性也就更强。
3.1.3 话语标记
话语标记的功能在于保持口语中前后话题的连续性或促使话题顺畅。话语标记不仅用于英语口语,它们也常见于书面语。在CCD中,每千形符中话语标记出现的平均频次为29.1,而CNYT中每千形符的频次是32.3。可见,CNYT中的文本话题的连续性更强。
表1话语标记
3.1.4 逻辑连接词
话语标记在口语中运用比较普遍,用来维持话题和内容的连续性;在书面语中则更多使用逻辑连接词。逻辑连接词对文本紧密性的影响很大,能使语篇结构更加紧凑。Ochs 指出,逻辑连接词所代表的话题之间的关系要比话语标记更精确、具体、严密,大量使用逻辑连接词会使语篇结构非常严谨。
3.1.5 词汇密度
词汇密度是指文本中实词出现的频次与总形符数的比值。实词主要包括名词、动词、形容词、副词等,具有很强的表意功能;而其他诸如介词、助词之类的语法词汇主要是结构上的功能。词汇密度较高,蕴含的信息量较大;词汇密度越低,传递的信息相对较少,而语篇的机构会更紧凑。CCD的词汇密度要高于CNYT,这说明CCD的语篇更着重于传递信息,而CNYT的结构紧密性更强一些。
表2词汇密度
3.2 参与性和分离性
参与性和分离性是判定作者对所论述问题的观点和态度的重要指标。在写作时,如果作者较明显地表现出他们的情感或态度,作者的参与性就较强,与读者的互动就较明显。根据Chafe的研究,口语的参与性比较强,作者与听众的互动比较频繁;而在书面语中,分离性更明显,作者更倾向于传递信息。判断参与性和分离性的指标主要有第一、第二人称和被动语态。
3.2.1 第一、第二人称的使用
第一、第二人称的频繁使用会提高文本的参与性。第一、第二人称在口语中的应用比较普遍,而第三人称在书面语中的出现频次更高。另一方面,大多作者在表达时一般会追求客观,尤其是在科技或行政等语域中,从而刻意减少第一、第二人称的使用,使文章说服力更强。因此,我们可以通过分析第一、第二人称的使用来判定作者的参与性和分离性。本文发现CCD 中,平均每千形符第一、第二人称出现的次数明显少于CNYT,见表4。从该角度而言,CCD中的文本分离性更强,CNYT的参与性更强。
表3第一、第二人称代词
3.2.2 被动语态
Chafe认为,使用被动结构能降低文本的参与性。被动语态通常能将句子中的主语如“I”、“We”等隐去,使得其表达的观点显得更加客观可信。本文所使用的软件不能直接检索出被动语态在语料库中出现的频次,但可以通过一些间接的指标来统计被动语态的使用,例如介词“by”的使用,“be”动词后面跟动词-ed形式的频次等。“by”偶尔会用在形容词性词组之中,但主要是用来引导被动语态的施动者。尽管有一部分动词是不规则的,但大多数都是规则的,动词的过去分词大都是以-ed结尾,因此可以通过检索“to be *ed”来统计被动结构的使用。本文通过检索介词“by”和“be *ed”的频次大概统计被动结构出现的次数。由“am”引导的“am *ed”在分析时略去,因为这种结构未能隐去主语“I”,不能降低文本的分离性。
根据统计数据,“by”和“be *ed”每千形符平均出现的频次都是CCD高于CNYT。可以推测CCD中被动语态的使用比CNYT更为普遍。这表明CCD的分离性比CNYT要高。
4 讨论
本文基于语料库方法,在Chafe关于口语和书面语对比分析两分法的理论基础上,对《中国日报》和《纽约时报》英文财经新闻报道的语言特点和结构进行对比分析。分析表明,《纽约时报》的财经报道结构上更加紧密,作者在表达观点时参与性较强;而《中国日报》财经新闻语篇结构的分散性和作者表达观点的分离性都更强。一方面,这是由中国特殊的国情造成的。我国坚持中国特色社会主义道路,形成了独特的经济发展模式;中国还有独特的文化传统,作者在写作时不可避免受到传统思维习惯和文化的影响。此外,中国的财经报道作者大多是中国人,英语是第二外语,语言掌握程度影响了表达,与英美等国相比,在语言运用上存在差距。再次,中国的财经新闻篇幅更短小,大多是浅显的事实报道,没有专业的深入分析,这也折射出我国英文财经新闻领域专业人才的匮乏。
本文由中国矿业大学大学生科研创新计划项目资助
参考文献
[1]Kennedy G. An Introduction to Corpus Linguistics [M]. London: Addison Wesley Longman, 1998. 1~2.
[2]杨惠中. 语言学导论[M]. 上海:上海外语教育出版社, 2002.152~161.
[3]Chafe W. Integration and involvement in speaking, writing, and oral literature [C]. // Tannen D. Spoken and Written language: exploring orality and literacy. Norwood,?N.J.:?Ablex?Pub. Corp., 1982. 35~53.
[4]Biber D. Representativeness in corpus design [J]. Literary and Linguistic Computing, 1993 8(4):243~257.
[5]Grzybek P etc. Quantitative text typology: the impact of word length [C]. // Jahrestagung, Claus Weihs, Gesellschaft f€黵 Klassifikation,?Wolfgang Gaul. Classification, the ubiquitous challenge. University of Dortmund, 2004:53~64.
[6]Biber D. Variation across speech and writing [M]. Cambridge: Cambridge University Press, 1988.
[7]Flowerdew J. Variation across speech and writing in biology: a quantitative study [J]. Perspectives. City university of Hong Kong, 1993.
[8]Ochs E. Planned and Unplanned Discourse [C]. //Talmy Giv€髇. Discourse and Syntax, Syntax and Semantics. New York: Academic Press, 1979:51~80.