论文部分内容阅读
词语处理技术是基于词一级中文信息处理应用的重要基础,也是中文信息处理技术的瓶颈。词语处理首先需要解决的是词语切分问题。目前自动分词系统性能,在歧义切分处理方面已经达到了较高水平,但未登录词识别性能仍有待进一步提高;同时,随着可获得的语料库规模不断扩大和统计方法的兴起,词汇级统计语言模型方法在语音识别、语音合成、机器翻译等领域得到了广泛应用,其中以n元文法最具有代表性。如何有效的缓解统计方法所固有的数据稀疏问题,提高词语线性邻接关系(n-gram)的统计精度是词语处理技术所面临的另一个难点。
本论文依上述两个问题依次展开,首先在原有自动分词系统的基础上,根据人的认知规律,提出了基于可信度的人名识别方法,同时提出和实现了一个基于多特征集成的新词语发现方法;研究了基于线性邻接特征的词语上下文分布相似性计算方法及其数据平滑处理策略,并介绍了该策略在计算机辅助校对系统中的应用。论文的主要内容和创新成果体现在以下几个方面:
(1)面向应用的歧义切分技术。歧义切分技术是中文自动分词系统的关键技术之一。特别是在现代汉语通用分词系统(GPWS)中,允许用户动态创建词库、允许多个用户词库同时参与切分,这给歧义切分技术提出了更高的实用性要求。本文从大规模的真实语料库中,考察了歧义(特别是交集型歧义)的分布情况和特征;提出了一种“正向最大匹配+回退一字”的交集型歧义字段发现算法,并且针对于不同类型的交集型歧义字段进行了统计分析;综合叙述了GPWS中“规则+例外”的3级实用消歧策略,包括元分词规则、不同类型歧义字段的处理规则,以及基于实例的歧义字段标注方法和动态校正算法;本文对1亿字《人民日报》语料(约234MB)中的交集型歧义字段进行了穷尽式的抽取,并随机的对上述策略进行了开放性测试,正确率达99%;
(2)基于分辨模型的人名识别可信度方法。专名识别技术是影响中文自动分词精度的一个重要方面,也是自动分词技术的难点之一。本文在有关专名的语言事实基础上,论证了专名识别中分辨模型优于生成模型;并基于分辨模型的原理,说明人名用字特征的属性值的应是词表匹配后的落单字的频率,而不是文本中的原始字频;提出了一整套的人名识别用字特征,提出了基于分辨模型的人名识别可信度计算公式,该公式与分词排歧方法合在一起,形成了实用高效的分词技术;同时给出了一个基于自举学习(Bootstrapping)的模型训练方法,克服了人工标注语料库规模的限制。从我们对《人民日报》1998年1月、2000年12月(共约379万字)语料的测试结果来看,基于可信度的人名识别方法比传统的概率估值方法识别效果有一定的提高;
(3)多特征集成的新词发现方法。目前大多数分词系统仅仅针对于新闻语料进行训练和测试,因而对于新闻语料的处理性能表现突出,但在其它特定专业领域、小说等白话文中的切分性能却大幅下降。大量存在专业术语、缩略语,以及作者生造的词语等等,给目前的分词系统带来了很大的困难,极大的影响了自动分词系统的性能和可移植性。本文提出和实现了一种基于多特征集成的新词发现方法,综合考虑被处理文本中重复字串的上下文统计特征(上下文熵)、内部耦合特征(似然比)、背景语料库对比特征(相关频率比值),以及自动分词系统辅助的边界确认信息等等;提出一种多特征集成和模型自适应训练方法,自动从被抽取文本中选择模型的训练例(包括正例和负例),训练相应的SVM分类器,把多个统计特征统一到一个模型框架下,对候选新词语进行二值分类,克服了传统统计方法中,必须借助于人工标记语料库训练,以决定多特征之间的权重系数和阈值问题,同时也避免了人工标记语料库与被抽取文本之间的差异所带来的训练误差;新词抽取过程在字串PAT-Array数据结构上进行,实验表明,该方法新词发现速度快、省存储,可以作为自动分词系统的有益补充;
(4)基于上下文分布的词语相似性计算方法和数据平滑处理策略。统计方法在自然语言处理的多种应用中取得了令人瞩目的成果,但数据稀疏问题限制了应用系统性能的提高。把统计单位由词提升到词类有助于缓解数据稀疏问题,但是传统的词类体系并不能反映词语在线性邻接(n-gram)特征上的相似关系,而且这种相似关系不能用作分类原则,因为它不满足传递性;传统的基于回退(back-off)和线性插值方法在一定程度上缓解了数据的稀疏,但它的本质是降低阶数,并未从根本上解决问题,反而加重了低概率事件被忽略的副作用。本文提出了一种解决方案:对于每个词,根据其在大规模语料库中的上下文分布特征,建立以该词为核心的相似词集合,用相似词的ngram估计核心词的ngram。本文介绍了相似词集合的确定方法,给出了基于相似词集合的低概率事件的估计方法;考察和分析了汉语词语中的“同形异质”问题,以及汉语词语邻接关系的特点(如:汉语韵律问题等),提出了对单字词和多字词区别对待的观点,即:单字词只与单字词相似,多字词只与多字词相似,同时只对多字词和低频单字词进行相似词语替换;针对于统计方法中所关注的词语线性连接特征和应用目标需求,使用词语在大规模语料库中左右紧邻的bigram分布作为词语的属性特征,并以此基础度量词语之间的相似性;改进了原有IRad距离计算公式,引入了词语分布同一性系数,克服了在IRad距离计算公式中,具有强势接续特征的高频词语和极低频词语的虚假相似问题;使用基于词语分布相似性计算方法改进了计算机辅助校对系统词语接续关系模型,取得了较好的效果。
本文的工作立足于词语处理层面,研究成果可以用于提高目前自动分词系统以及词汇级统计语言模型的精度,从而进一步提高基于词一级中文信息处理应用的性能。