面向中文专著的汉韩机器辅助翻译研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:kkai365
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文对面向中文专著的汉韩机器辅助翻译进行了研究。主要成果可以归结为以下六个方面: 第一,深入地分析了中文专著的语言特点。中文专著在编写格式、语言运用上除了一般文章的共性外,有着它们特殊的个性和规律。本文通过对中文专著的定量、定性分析,揭示了其中的一些规律性内容。这些语言特点直接为汉韩机器辅助翻译系统的设计提供了切实的依据。 第二,本文在对比语言学理论指导下,系统地考察了汉韩两种语言在词汇、句子层面上的异同点。本文的语言对比研究直接服务于中文专著的韩文翻译。以往的汉韩对比研究主要针对文学作品的翻译,而对学术性文章的翻译问题并没有给予足够重视。本文针对中文专著的韩文翻译,加强了这种受限领域的语言对比研究。另一方面,这些研究对机器辅助翻译有着更直接的指导意义。本文尽量利用汉语与韩国语在语言形式上的共同点,重新调整适合处理汉韩两种语言的翻译系统。同时对语言形式上的不对应现象加以关注,并且找出一些规律性的办法来解决实际问题。 第三,在专著语言特点分析以及汉韩语言对比的基础上,参照原有的汉英机器辅助翻译模型,分析其中存在的问题,本文提出了一种改进的汉韩机器辅助翻译模型。该模型的特点可以概括为:采取支持Unicode编码方式的系统设计;提高术语辅助翻译工具的自动化水平;提高翻译记忆系统的利用率,从而实现以小句为转换单位的翻译记忆系统。 第四,提出了面向专著的汉语术语自动提取与韩国语辅助翻译方法。任何专著都有其特定的术语,相应地,专著翻译任务中必然涉及专业术语的翻译。为此,本文提出了计算机辅助的术语翻译方法。当设计术语辅助翻译模型时,主要考虑的是“专业术语的自动提取”和“汉语术语的韩国语翻译”这两个方面。关于中文术语的提取方面,本文工作则采取了“以统计方法为主,规则方法为辅”的策略。结果表明,统计和规则相结合的方法大幅度提高了术语提取的准确率。此外,本文提出了汉语术语的韩国语辅助翻译方法。在术语辅助翻译过程中,术语知识库的规模和质量是翻译系统成败的关键,为弥补汉韩对照术语资源的不足,本文充分利用已有的英汉、英韩术语资源,以英语作为桥梁,构建汉韩对照术语表。在此基础上,使用汉韩双语词典、术语转换模板以及韩国语语料库进行中文术语的韩文辅助翻译。 第五,本文提出了面向中文专著的汉韩翻译记忆模型。翻译记忆(TranslationMemory)的基本思想是帮助译者处理重复出现的语言现象。为实现高效率的翻译记忆模块,本文提出了小句一级的处理方法。由于句子一级的语句匹配成功率不高,本文尝试把复杂长句切分成几个简单短语或小旬,从而提高翻译记忆系统的效率。另外,又将短语一级的翻译模板用于中文专著的韩文翻译工作。为建设翻译模板库,本文使用串频统计方法自动提取重复出现的短语。实验结果分析表明,中文专著语句虽然在句子一级的重复率不高,但是在小句或短语的重复率相当高,因此,这种方法对中文专著的翻译提供了有力的帮助。 第六,本文以中文专著《现代汉语语法信息词典详解》为例,专门考察了汉语的隐喻现象和韩国语翻译问题。结果表明学术性语言中也有不少的隐喻现象,包括词汇级隐喻和语句级隐喻。从语言对比的角度看,汉韩两种语言中的隐喻表达方式不仅相同。对此,本文一面进行了详细描述,一面提出了一个隐喻翻译的策略。
其他文献
随着计算机技术的不断发展,Web已成为人们获取信息的一个重要途径。由于信息技术的高速发展,Internet上的信息资源呈指数膨胀,面对海量数据人们不得不花费大量的时间去搜索、浏
概率主题建模是发现数据中隐藏的主题结构的一类方法。在概率主题建模中引入数据本身具有的标注信息,将无监督概率主题建模拓展成为监督概率主题建模,是概率主题建模的一个重要
本文介绍了一种新型时间自动机模型——有限精度时间自动机。它介于离散时间自动机和连续时间自动机之间,可以描述异步系统并进行相关性质的验证。所谓“有限精度”,是指有限精
数据中心能耗控制与应用服务质量(QoS)优化是当前云计算产业面临的关键问题。在保障应用QoS的前提下,优化整个数据中心资源组合与分配方式,将不同资源需求的应用程序环境(AEs)
目前,我国在许多商业和政府机构、通讯、医院、保险行业中,票据处理是个繁重的劳动。长期以来,票据管理工作因管理手段落后,各类票据的打印、整理、装订和归档需要花费大量的
Internet高速发展使互联网成为人们获取新闻的主要途径之一。但是,面对海量的新闻报道,人们经常会迷失在信息的海洋中。人们希望能够快速准确地从海量的网络新闻报道中获得新闻
聚合k最近邻查询处理技术是近年来数据库领域的一个研究重点与热点,传统的聚合k最近邻查询主要关注欧式空间,并用欧式距离来度量对象之间的邻近关系。路网中的邻近关系不能简单
随着软件系统变得越来越复杂,如何保证软件系统的可靠运行,已经成为科研人员所面临的巨大挑战。软件缺陷是软件系统不可靠的主要原因。目前已经有许多关于软件缺陷检测的研究
随着GPGPU在通用计算领域的快速发展,异构多核体系架构越来越普及,其计算能力越来越强大,GPGPU编程模型通常以主机和设备为基础,CPU执行主机端代码,GPGPU执行设备端代码只负责计算
以VoIP为代表的互联网通信作为一种典型的宽带应用正面临着前所未有的发展机遇。VoIP为语音、视频、数据业务的融合提供了一个综合的开放平台。在这个平台上,IP电话、视频播