汉语专名识别与音译方法研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:Hawk8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着自然语言处理技术的不断发展,为提高信息处理系统的性能,一个迫切的需求就是能够准确地进行专有名词识别。特别在中文信息处理中,由于文本中的人名、地名等一些未登录词常被切分成单个字,大大影响了文本分析和处理的效果。由于专有名词的数量非常庞大,无法在词典中一一收录。而且,随着时间和领域的变化,总是不断地有新的专名出现,又有旧的专名被淘汰。因此,专有名词识别是自然语言处理系统中的一个难题。有效的专名识别系统能显著提高信息抽取、信息检索等信息处理系统的性能。在专名识别的基础上,再进行有效的专名翻译,则十分有利于跨语言信息处理系统的性能提高。 本文设计并构建了一个系统,实现汉语专名的自动识别及英汉专名的相互音译,并对专名识别与专名音译中的一些关键技术进行具体介绍。 1.在专名识别的算法方面,本文采用了最大熵统计模型作为框架。因为最大熵模型能有效整合多种约束信息,对于汉语专名识别问题也有很好的适用性。在最大熵模型的框架上,本文引入少量人工规则以弥补统计模型的固有不足,提高处理性能。文章详细介绍了用于汉语专名识别的基于最大熵模型的混合算法,及其主要实现流程。 2.在上下文特征的选择方面,本文考虑了局部特征与全局特征两大类特征。其中,局部特征信息包含候选词的内部构词信息与外部接续信息两类。全局特征信息包含专名在文档中的重现频度,本文将其整合进动态词表。 3.在专名音译方面,本文采用了基于源语言待译专名与目标语言候选专名之间发音相似度的方法,通过发音序列的比较,从候选专名库中选择发音相似度值最高的专名作为待译英文专名或中文专名的对应音译结果,是一种简洁而有效的音译方法。
其他文献
移动AdHoc网络是在没有任何固定网络基础设施或是集中管理情况下动态形成的暂时性网络。网络中节点缺乏物理保护,容易被偷窃、捕获,落入敌手后重新加入网络,导致攻击从内部产生
在信息时代里,随着语音识别技术的不断发展,让机器具有“听懂”人类语言能力的研究正在一步一步成为现实。携带着大量信息的语音信号本身是非常复杂的,并且具有非平稳性、时
随着网络技术的飞速发展,尤其是WEB技术的广泛应用,同时学校网络基础设施的大力建设,学校管理的迫切需要,建立基于WEB平台的教务管理系统显得越来越重要。 本文论述了利用动态
数字签名是当前网络安全领域的研究热点。特别地,在电子商务、电子银行、电子政务等应用领域,数字签名是关键技术之一,在社会生活的各个领域也有极其广阔的应用前景。数字签名在
为了解决IP控制网关(IPCG)带宽不足的问题,本文提出了基于时间序列预测的IPCG集群,实现了基于时间序列预测的负载均衡调度算法以及基于Netfilter和策略路由的负载均衡技术。
碰撞检测及响应是计算机辅助设计与制造(CAD/CAM)、人体运动仿真、基于物理的建模、虚拟现实等领域中的基本研究问题。随着计算机仿真、虚拟现实、三维游戏的发展,三维虚拟场
秘密共享是信息安全与应用密码学领域中的重要研究方向之一。传统的秘密共享需要可信中心产生与分发秘密份额,可信中心的存在会导致“权威欺骗”问题。为了解决这一问题,无可
偏振是光的固有属性之一,也是光与物质相互作用所表现出的重要特性。它除了包含传统的光强信息外,还蕴含了丰富的环境与目标的重要信息。通过偏振成像测量光的偏振特性是常见
近年来,随着卫星定位系统(如GPS)和无线通讯技术的快速发展,跟踪并记录移动对象的位置变得可行,针对地理信息系统中最近邻查询方法的研究引起了人们越来越多的兴趣和关注,尤其是
随着计算机网络的发展,以Internet为依托的校园网络系统在全国各类学校的教学、管理工作中发挥着越来越重要的作用。本文针对中等职业技术学校校园网的应用软件需求,设计并开发