面向汉外机器翻译的自动分词系统

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:zaodt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动分词技术是汉外机器翻译的基础工程。 汉语自动分词不仅是汉外机器翻译的必要环节,也是各种汉语信息处理包括语音处理、词频统计、主题词索引、文摘生成、情报检索、汉语句法分析等工作的基础工程。 本文首先介绍了自动分词系统的总体框架。面向汉外机器翻译的汉语自动分词系统主要包括三个模块,即:粗切分模块、规范化处理过程模块以及专名识别模块。 针对组合歧义,本文总结了组合歧义的组成结构特点,提出了“穷尽标注,向上传递”的实用处理策略,并对组合歧义的发现策略给出了初步的观点。本文提出了一种切分规则库与基于歧义资料库相结合的交集型歧义处理策略。在实际语料中,有一些歧义实际上是机器形式上的歧义,即从一个人的角度来看,真正可能的切分形式只有一种。本文收集所有这些伪歧义组成了伪歧义表,当系统进行歧义切分时,首先查询伪歧义表,从而可以极大提高交集型歧义的切分精度。 本文通过对大规模实际语料库的统计和分析,按照歧义字段的交段个数,把交集型歧义字段分为四类,分别针对这些字段共总结出20余条消歧规则。通过开放性测试,这些规则证明对交集型歧义的消除是很有效果的。 在专名识别技术中,本文提出了一种基于模板和统计概率的专名识别方法。本文首先通过大规模实际网络语料,得到专名内部用字的使用频率,进而对专名进行初步筛选,得到候选专名。而专名的最终确定需要通过各个专名模板进行统一处理。专名模板是指从实际语料中抽取出来的,由专名及其上下文语境组成的一个包含变量与常量的模式匹配字符串。 在开放测试中,歧义切分处理的精度、专名识别的正确率达到了较高的水平。最后,本文提出了今后工作的方向和设想。今后将通过分析更多的语料来提炼交集型歧义的消歧规则。为进一步提高汉语自动分词的效果,提高专名的识别正确率,必须引进其它的手段来辅助分析。作者今后将探讨在适当引入句法信息,例如利用动词格框架理论来提高专名识别的正确率。
其他文献
本论文以现有汽车安全检测信息管理系统为研究对象,分析用户需求和检测流程之间的关系,提出了基于环岛模式的汽车安全检测方法;并在此基础上,通过对现有系统网络结构存在的缺
  本文分析了文本自动分类的关键理论及技术,给出一个基于向量空间模型的文本自动分类系统的框架模型,重点描述此系统的实现算法。自动文本分类就是在给定的分类体系下,让计算
目的 总结分析滴虫性阴道炎患者行甲硝唑联合制霉菌素治疗的效果及相关护理措施.方法 选择48例于2017年2月至2019年2月来我院治疗的滴虫性阴道炎患者作为研究对象,根据治疗方
秘密共享源于对密钥进行有效管理,是密码学的一个重要分支。随着理论研究的深入,秘密共享应用领域日渐广泛,现已涉及电子商务、隐私保护、数据安全及安全多方计算等方面。深
数据挖掘技术是现在机器学习、计算机科学、人工智能和数据库研究方向的重要内容,数据挖掘中的重点就是发现数据隐藏背后的关系和规则,尤其是关联规则的挖掘已经成为数据挖掘的
本文把LotusNotes的工作流技术应用到中小型软件企业的软件开发管理,尝试建立一个管理软件产品开发流程的集成化的工作平台。并在其上成功实现了高性能VPN等安全产品软件的开
当今社会,嵌入式系统的应用越来越广,需求越来越大.传统的嵌入式系统开发方法不利于修改设计,开发成本高,设计周期长,不能满足激烈的市场竞争的需要.一种新型的嵌入式系统设