论文部分内容阅读
近年来,随着国民经济信息化的不断发展以及Internet的普及,中文信息处理技术的应用日益广泛。由于中文文本是按句连写的,词间无间隙,因而中文信息处理的首要问题是词的切分问题。中文文本自动分词已成为中文信息处理的一个前沿课题。本课题对中文自动分词方法、歧义字段的计算机自动识别、命名实体的计算机自动识别、中文自动分词词典机制等技术进行了分析和研究。针对某些技术上的不足,提出了改进方案。本论文的主要工作有:(1)歧义字段的计算机自动识别对歧义字段产生的原因进行了研究,给出了交集型歧义字段和组合型歧义字段的计算机自动识别方法。(2)命名实体的计算机自动识别分析了中文姓名中姓和名的各自特点,给出了中文姓名的自动识别方法;对中文地名的计算机自动识别给出了利用知识库和规则库,采用推理机制进行计算机自动识别的方法;对机构名称的计算机自动识别技术以高校名称为例,从其语法性质、语义特性和组织规律等特征入手,给出了高校名称识别的基本规则。(3)中文自动分词词典机制介绍了三种典型的中文自动分词词典机制:整词二分、TRIE索引树及逐字二分的词典机制;对基于PATRICIA Tree的中文自动分词词典机制进行了改进,并对改进后的机制—“首字哈希-词尾PATRICIA Tree”机制进行了实验检验。实验结果显示,“首字哈希-词尾PATRICIA Tree”机制在时间和空间效率上都有很大提高。