论文部分内容阅读
自动分词技术是汉外机器翻译的基础工程。
汉语自动分词不仅是汉外机器翻译的必要环节,也是各种汉语信息处理包括语音处理、词频统计、主题词索引、文摘生成、情报检索、汉语句法分析等工作的基础工程。
本文首先介绍了自动分词系统的总体框架。面向汉外机器翻译的汉语自动分词系统主要包括三个模块,即:粗切分模块、规范化处理过程模块以及专名识别模块。
针对组合歧义,本文总结了组合歧义的组成结构特点,提出了“穷尽标注,向上传递”的实用处理策略,并对组合歧义的发现策略给出了初步的观点。本文提出了一种切分规则库与基于歧义资料库相结合的交集型歧义处理策略。在实际语料中,有一些歧义实际上是机器形式上的歧义,即从一个人的角度来看,真正可能的切分形式只有一种。本文收集所有这些伪歧义组成了伪歧义表,当系统进行歧义切分时,首先查询伪歧义表,从而可以极大提高交集型歧义的切分精度。
本文通过对大规模实际语料库的统计和分析,按照歧义字段的交段个数,把交集型歧义字段分为四类,分别针对这些字段共总结出20余条消歧规则。通过开放性测试,这些规则证明对交集型歧义的消除是很有效果的。
在专名识别技术中,本文提出了一种基于模板和统计概率的专名识别方法。本文首先通过大规模实际网络语料,得到专名内部用字的使用频率,进而对专名进行初步筛选,得到候选专名。而专名的最终确定需要通过各个专名模板进行统一处理。专名模板是指从实际语料中抽取出来的,由专名及其上下文语境组成的一个包含变量与常量的模式匹配字符串。
在开放测试中,歧义切分处理的精度、专名识别的正确率达到了较高的水平。最后,本文提出了今后工作的方向和设想。今后将通过分析更多的语料来提炼交集型歧义的消歧规则。为进一步提高汉语自动分词的效果,提高专名的识别正确率,必须引进其它的手段来辅助分析。作者今后将探讨在适当引入句法信息,例如利用动词格框架理论来提高专名识别的正确率。