基于可比较语料库的中英文词表构建研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:h4975915
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
双语词表作为跨语言信息处理的基本纽带,是自然语言处理领域的重要资源,在统计机器翻译和跨语言信息检索等应用中发挥着重要的作用。本文在深入研究现有从可比较语料库构建双语词表方法的基础上,以中文和英文为例,提出了基于依存关系映射模型的双语词表构建方法,旨在提高其性能。研究内容主要包括:1)实现了基于依存上下文模型的中英文词表构建系统。参考传统的依存上下文模型,从句子的依存树结构中抽取词语的前驱节点和后继节点词语作为其上下文来实现了本文的基准系统,并考察了窗口大小、关联强度衡量方法和相似度计算方法对双语词表构建性能的影响;2)提出了基于依存关系映射模型的双语词表构建方法。针对依存上下文模型所存在的缺点,本文提出了基于依存关系映射的中英文词表构建方法,通过同时匹配依存树中的上下文词语、依存关系类型来实现双语词表的构建;3)研究了依存关系映射的自动获取和优化方法。针对手工制定依存映射规则所存在的局限性,提出了依存映射规则的自动获取方法,并通过分离测试算法过滤依存映射规则,然后再利用感知器学习算法优化映射规则的权值,以期进一步提高双语词表构建的性能和适用性。在中英文词表构建系统的实验表明,本文提出的基于依存映射模型的方法能显著提高中文-英文和英文-中文两个方向上的词表构建性能,同时,依存映射规则的自动获取和过滤方法能有效梳理出关键的映射规则,再经过感知器算法进行权值优化后,进一步提高了双语词表构建的性能,同时也增强了依存映射模型的适用性。
其他文献
随着生物技术、图像处理技术以及计算机技术的发展,医学图像配准已经成为现代医学图像处理的关键技术。作为医学图像融合及其他医学图像分析的前提和基础,医学图像配准对临床
近年来,空气质量问题受到社会各界的广泛关注。2012年2月,国家相关部门发布了新修订的《环境空气质量标准》,增设了PM2.5和O3浓度限值并对现有部分限值进行了调整,新标准势必要求
WebGIS是以互联网为环境,以Web页面作为GIS软件的用户界面,将Internet与GIS技术结合在一起,为各种地理信息应用提供GIS功能的技术[1],它将Web技术、GIS技术和数据库技术融为一体,
随着办公自动化的不断普及,信息采集系统已成为各个领域不可或缺的办公工具,数据作为信息采集系统最重要的部分,研究如何将数据以中文复杂报表的形式呈现出来是目前信息采集系统
多核和众核架构有望解决或缓解现代处理器设计面临的存储墙、线延迟和功耗问题,分片式处理器作为一种代表性的众核实现方案,强调功能单元的分布化、结构的层次化,将硬件细节暴露
随着网络技术的迅速发展,面向服务的体系架构(SOA)以其良好的可重用性、松耦合性和互操作性,已成为一种工业界和学术界广泛接受的网络化软件应用模式。Web服务作为SOA的主流
群体智能优化算法属于随机搜索算法的一种,由于其可以解决传统优化技术无法解决的优化问题,因此受到众多专家学者们的青睐。人工蜂群算法是新兴的群体智能优化算法,算法主要
校友是高校发展的重要资源,大量的校友信息蕴含在电子文本或者网页中,如何从中抽取出校友信息是一项很有价值的研究问题。传统的解决方法是使用实体抽取方法将人名看作候选校友
针对现有服务选择技术的不足,提出一种应用服务社会网络SSN(Service Social Network)机制的方法。算法主要通过社会网络原理,将Web候选服务根据联系紧密程度和服务本身的QoS属性
云计算及移动云计算因在时间效率,成本效益,以及高效利用计算资源等方面展现出了明显优势,从而备受业界的广泛关注。然而,在这一技术逐步发展的过程中仍存在大量亟需解决的问题,如