面向学术论文计算机辅助翻译的受限汉语研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:yangliu349
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近一百多年来,随着东西方文明的不断碰撞,国内知识界翻译了大量的外国文献。在翻译引进的过程中,以汉语为代表的汉藏语系语言受到了以英语为代表的印欧语系语言的影响。这种影响使汉语无论在词汇方面还是在语法方面,都发生了一些变化。追溯这些变化发生的主要原因,我们看到翻译在其中起了非常重要的作用。这些作用主要体现在三个方面:西方来华的传教士们对基督教经典文本的翻译,清末国内知识分子翻译的外国文学作品和对以日语教科书为代表的、从日本引进的大量科技、法政、社会类书籍的翻译工作。在词汇、词组(短语)和句法结构方面的变化使现代汉语在某种意义上与翻译源语――英语有着一定的相似性。因为近代中国受西方的影响,一直以输入西方科学和技术为主,所以汉语的这些变化突出体现在科学和技术领域。  除了与翻译有密切关系的科技专著,作为阐述科学原理和论述科学规律的重要工具之一,学术论文的翻译在促进科学进步、传播科学知识的过程中起着不可替代的作用。相比于其他文体,学术论文有着自身的语言特点,如词汇集合相对较小、语义单一、词类比较确定、句式结构比较规范等。这些特点也促使我们可以循着汉英两种语言在特定领域、特定文体中具有相似性这一规律,设计出一种专门用途的受限汉语以简化汉语相对于英语比较复杂的表达方式,实现利用计算机作为工具辅助翻译学术论文的工作向“人助机译”的目标更进一步,一定程度上提高翻译的效率和质量。本文研究工作的意义集中体现在以下三个方面:  1.本文首先选取典型的传教士翻译的欧化白话文文本,经过与古白话文文本进行比较,阐述了汉语语法结构发生的变化,并对两种语言之间的关系做了历时论证,表明现代汉语语法借鉴英语语法进行分析是可能的。然后,本文在考查了学术论文这种特定文体语用特点的基础上,从词汇、词组(短语)、句子三个层面分析并归纳了汉英两种语言的异同点,提出了面向学术论文计算机辅助翻译的受限汉语的设计原则与方法。  2.本文针对学术论文计算机辅助翻译的需要,基于现有的相关研究工作,构建并完善了以计算语言学学科为研究对象的学科相关词汇集、学术论文通用词汇集、计算语言学术语库等用于翻译学术论文的基础资源,同时提出了上述词汇集合的受限处理方案,确定了相应的当用词集。这些词集可以作为利用计算机辅助翻译学术论文有价值的参考信息,帮助译者提高工作效率与质量。同时,这些资源对于计算语言学学科自身的研究和发展也会起到重要的作用。本文还着重介绍了北京大学计算语言学所建设的面向中文信息处理的成语知识库,探索了成语知识库在计算机辅助翻译中的应用。在实际应用中,成语知识库中的条目增加如英译、情感色彩等字段,不但可以给翻译者提供更多的参考信息,还对语言研究、对外汉语教学等工作具有重要的意义。  3.为了验证本文提出的面向学术论文计算机辅助翻译的受限汉语方法的有效性,我们利用国际通用的评测机器翻译结果的工具,对中文学术论文中与英语形式上相差较大的词缀词、兼类词、量词、只起语法功能的助词等词类;出现频率较高的介词词组、以名词为中心词的n-gram词组;汉语典型的省略主语句、存现句、宾语前置句、前置的长定语结构、连动式和兼语式等特殊句式做了受限处理并翻译后的文本进行了评测。评测结果表明无论在人工辅助下还是由机器自动翻译,经过受限处理和改写后的中文学术论文文本经翻译后比直接进行自动翻译会获得更好的效果。最后,本文还结合向量空间模型利用自动聚类的方法归纳了学术论文中经常出现的句式模板,并用数据库存储起来帮助译者在翻译论文时进行参考。  在以上研究工作的基础之上,本文最后提出建立一个学术论文计算机辅助翻译的平台。该平台基于Deja Vu计算机辅助翻译系统,并利用谷歌开放的应用程序接口开发了自动翻译模块。此外,本文还介绍了学术论文翻译后编辑和校对工作时应该注意的一些事项以及可以用于管理参考文献的工具。  本文研究工作的主要创新点在于:从翻译史的角度用统计和计算的方法定量地研究了近代汉语发展演变的规律:利用实证的方法验证了在特定领域、特殊文体中汉英两种语言在词汇和语法上具有相似性;把学术论文作为研究对象,提出了一种面向学术论文计算机辅助翻译的受限汉语设计方法,并利用基于规则和基于机器学习等自然语言处理技术自动设计构建了相关的语言知识库,并基于知识库中的词语集确立了相应的受限语言当用词集;针对统计机器翻译难以使用词典的问题,提出了一种在系统中使用特定ID代表词或语块,翻译时先把词或语块识别为OOV,翻译后在结果中还原为翻译词或语块的方法;利用该方法设计了相关实验验证了这种专门用途的受限汉语可以在计算机辅助翻译和机器自动翻译两方面提高学术论文翻译工作的效率和质量。
其他文献
蚁群算法是一种基于种群的启发式搜索算法,主要用于解决组合优化问题。该算法采用分布式并行计算的机制,易与其他算法相结合,具有较强的鲁棒性和发现较好解的优点。由于蚁群
在地形三维场景的绘制过程中,传统的技术方案主要集中在图形硬件端的优化,即通过显示列表、顶点缓存对象等对客户端发送到显卡服务器的地形数据进行封包显示,严重的占用了存
可靠性从上个世纪三四十年代就受到了人们的关注,其主要原因就是当时军用产品频频出现故障,以至于人们不得不深刻的反思应该怎样对产品的可靠性进行保证。从那以后,人们便开
本系统针对林权改革实际问题和需求,以PDA为硬件,通过嵌入式编程开发,研发了基于eSuperMap的林权改革数据采集系统。该系统充分发挥了地图编辑、地图处理、GPS导航及数据采集
信息可视化(Information Visualization)是可视化研究领域的重要分支,它致力于增强人们对源于自然、科学与社会生产实践的、抽象的、大型非空间数据集认知能力的可视方法与交
运动目标的跟踪是计算机视觉、模式识别以及人工智能等学科的一个重要研究内容,广泛应用于安防监控系统中。由于目标运动的多样性和周围环境的复杂性,包括遮挡、目标变形、光照
权限管理模块是web应用系统中重复开发率较高的模块之一。基于B/S的通用权限管理系统的研建将开发人员从重复的开发中解脱出来,使其更专注于业务需求的实现。本文首先对RBAC
移动无线自组织网络是由多个无线可移动的节点组成的一个无固定架构的多跳无线网络。Ad hoc自组网可以满足灾后救援以及战场指挥等特殊场合的通信需求便是得益于它无需任何固
对于PC机而言,开机执行的第一条指令来自主板BIOS。因此BIOS的安全影响着整个计算机的安全。可扩展固件接口(EFI)是英特尔公司为其新一代64位安腾处理器(Itanium)设计的操作
不确定数据在一些重要应用领域中是固有存在的,如传感器网络和移动物体追踪。随着数据采集和处理技术的进步,人们对数据的不确定性的认识也逐步深入。基于不确定数据进行数据