领域多词表达翻译对的自动抽取及其应用

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:kingbottle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多词表达是一个影响着自然语言处理领域中许多其他应用问题的“基础问题”,它是一种由若干词汇组成的语义单元,但其句法与语义属性并不能显式地由其构成词汇给出。自动识别和应用多词表达是研究者在这个领域的主要关注点,同时也被认为是自然语言处理中的难点。近年来多词表达被单独提出来作为一个专门的主题来研究。本研究针对中文领域多词表达的特点提出了领域多词表达的抽取流程,该流程包括候选多词表达的抽取,多词表达的过滤,多词表达的评价方法等一系列过程。利用双语语料的对齐信息进行多词表达候选翻译的抽取,并建立基于感知器的分类模型来识别正确的候选翻译。在多词表达翻译对的应用上,把多词表达翻译对作为统计机器翻译的一种知识资源,利用该资源来提高统计机器翻译效果。主要研究内容及结果包括:   ⑴为了有效抽取多词表达,提出了抽取、过滤、评价的过程。抽取步骤中,在自然语言的层次状句法结构的启发下提出了一种基于LLR值的层次归约算法。该算法不仅能逐步地从短往长抽取候选多词表达,而且与之前方法比较,还具有避免抽取一些无意义的词串和阈值选择容易的优点。过滤步骤中,C-value和上下文熵的方法被分别用来过滤无意义的子多词表达和高频粘连词串。这两种方法实现简单,而且过滤效果不错。评价步骤中,结合领域多词表达关联程度高和领域性强的特点,提出了基于KL距离的最大二分LLR值评价方法。实验证实,该评价方法具有较好的性能。   ⑵在多词表达抽取结果上,借鉴短语抽取的思想,利用对齐信息来抽取多词表达候选翻译。在得到多个候选翻译后,采用了基于感知器的分类模型来识别正确的候选翻译。在该模型中,设计了两类特征:互翻译特征和语言特征。其中,互翻译特征用来衡量多词表达和候选翻译之间互为翻译的程度。语言特征用来衡量候选翻译本身是否是一个合理的多词表达翻译。本文利用感知器将这两类特征融合一起进行训练。实验证明,这两类特征的结合使用能最大程度地提高了识别的正确率和召回率。   ⑶考查了多词表达应用于统计机器翻译中。本文采取了两种不同的策略来使用多词表达翻译对。第一种策略将多词表达翻译对应用于训练过程中,用来提高词语对齐和短语抽取的准确性。第二种策略将多词表达翻译对应用于解码过程中,用来提高短语选取的准确性。实验表明,这两种策略均能提高基于短语的统计机器翻译质量。同时也证明了改进多词表达抽取的质量,可以进一步提高它在统计机器翻译中的表现效果。
其他文献
自60年代出现软件危机以来,世界各国政府、计算机软件研究机构和组织在软件工程化方法、技术和工具的研究、开发和实践方面投入了大量的人力、物力和资金。人们认识到,要高效率
随着射频识别技术(RFID)的不断发展以及广泛应用,RFID中间件越来越受到人们的关注。RFID中间件扮演着RFID硬件设备和应用程序之间的中介角色,在应用程序端使用中间件提供的一组
学位
随着互联网络的飞速发展,以基于可信任网络和静态网络设计的TCP/IP协议为主的Internet网络面临着巨大的挑战。进入90年代,TCP/IP逐渐成为因特网上主机间的共同协议,但协议设计上
学位
超并行体系结构HPP是中国科学院计算技术研究所提出的一种同时面向千万亿次高性能计算和效用计算的高性能计算机体系结构。支持节点内统一地址空间和单一操作系统映像的超节
现代计算机在体系结构和应用场景复杂性的增长使得程序性能的增长、保持程序性能的可移植性以及程序开发效率的提升越来越困难,程序自动调优(auto-tuning)是解决此问题的一个
网格技术将地理上广泛分布的计算资源、存储资源、网络资源、软件资源、信息资源等连成一个逻辑整体,并为用户提供一体化的资源信息应用服务。网格记账系统是在网格环境下解析
物联网是射频识别技术与互联网结合而成的新型网络,其具有与互联网类同的资源寻址需求,以确保其中联网物品的相关信息能够被高效、准确和安全的寻址、定位以及查询。其上的发现
学位
互联网的出现使到信息的交换和共享变得简单,人们如今可以通过Internet发布自己的作品、重要信息和进行网上贸易,但随之而来的问题也十分严重,例如作品侵权更加容易,盗取及篡改也
颜色量化是计算机彩色图像处理的关键技术之一,即在尽可能完美地再现原始图像色彩效果的前提下,减少图像中的冗余信息,从而减少图像数据对存储空间和信道容量的要求。颜色量化算
2007年,我国在南海神狐海域成功钻获天然气水合物实物样品,这为研究天然气水合物提供了理想的场所。但是随着天然气水合物勘探技术的发展,水合物数据日益增长,数据量大、数据
学位