论文部分内容阅读
商务英语的词汇特点是专业理论知识的基本要素,对建构整个理论知识体系至关重要。英语词汇的量化描述对英语教学与研究、机器翻译、自然语言处理等领域有重要意义。计量语言学家对普通英语和科技英语的语篇词汇量化特征有深入的研究,但对商务英语词汇则很少或没有相关研究。本文基于语料库,运用计量语言学的理论和方法对英国国家语料库中商务英语语域的词汇特征进行定量和定性分析。以容量为100,000,000单词的英国国家语料库为语料来源,并从其商务英语语域中随机抽取了2,000,000单词,研究其词汇的量化特征。作为参照,本研究还从英国国家语料库另外8个语域中分别随机抽取了8组样本,每组2,000,000单词,由1,000个语篇组成,每个语篇长度约为2,000单词。研究内容包括商务英语的词汇量、词汇密度、词汇增长、词频分布、商务英语单词熵、大学英语四级和六级词汇对商务英语的单词覆盖率、Brunet和Tuldava等数学模型对商务英语词汇增长曲线的拟合度。本研究运用Perl编程并进行抽样、数据提取、处理、及词汇增长和数学模型计算等。运用Visual Foxpro进行词目归并。NLREG为统计分析软件包,用于各种统计测试、计算及分析。该研究表明:1.总体上,在BNC 9个语域中, CDBNC与其它8个语域有着显著差异。CDBNC的词汇量,一次词和词汇密度最小。在CDBNC的30,044词汇中有10,622一次词。2CDBNC的200个高频词有两个特点:首先,他们具有明显的商务英语的特点;第二,(CDBNC的200个高频词中的核心词无法进入到普通英语中200个高频词行列。3.与BNC中的其它8个语域相比,CDBNC的单词熵和复杂度较小。4.相同长度文本TTR呈正态分布:随着文本长度增加TTR变小。这种变化可用Tuldava模型来描述。5CDBNC中的大学英语四级和六级词汇的覆盖率呈正态分布。四级平均词汇覆盖率为0.7747,六级平均词汇覆盖率为0.8170。四级和六级篇际词汇覆盖率明显高于四级和六级的词汇覆盖率,四级平均篇际词汇覆盖率为0.872,六级平均篇际词汇覆盖率为0.8955。6. Brunet’s模型对CDBNC的词汇增长率的拟合度很好。