论文部分内容阅读
随着经济社会的飞速发展,汉语也得到了丰富与发展,大量汉语新词不断出现在人们生活中。新词语的出现给汉语分词带来更大的挑战。新词的存在使得汉语分词结果中出现过多的“散串”,在很大程度上影响了分词的准确率。因此,新词发现已经成为汉语自动分词中的一个难点与瓶颈问题。如何识别寻找汉语新词成了一个重要的研究课题。词性作为词汇最重要的属性,也是连接词汇到句法的主要桥梁。因此,词性标注是必须为后续自然语言处理过程提供高质量的中间结果,但新词的出现同样在一定程度上降低了词性标注的性能。目前,许多研究者已提出多种新词发现的方法。但其寻找新词语都是限于领域或限于新词语的词频。本文在分析前人的研究成果基础上,提出一种基于支持向量机的新词发现混合模式,试图综合基于统计的方法和基于规则方法的优点,以吸收了统计方法的快速,保留专家系统的质量。在基于统计的模块中,新词发现过程被看作是一个二类分类问题,已有的新词特征主要考虑新词内部特征信息,文中综合考虑这些特征,并加入上下文特征信息。在统计处理之后,加入了规则过滤,以提高新词发现的准确率。并在此基础之上,进一步对新词语词性标注。根据本文提出的方法,整个系统分为两个部分,实现了新词语的识别及其词性的标注。1.在新词发现的算法方面,支持向量机(Support Vector Machine,SVM)被用来处理分类问题。支持向量机已经成功广泛应用于模式识别和分类问题,在高维数据空间中,其可以找到足以区分各类数据点的最优分割超平面。在SVM的框架下,少量人工规则的引入以弥补统计模型的固有不足,提高处理性能。文章详细介绍了用于汉语新词语识别的基于支持向量机的混合算法,及其主要的工作流程。2.在汉语新词语词性标注方面,文中把这个问题作为一个分类问题,同样采用支持向量机来处理这个问题,综合考虑了候选词的内部构词信息与外部连结信息,最后通过对问题的转换,将一个多类分类问题转换为两类分类问题。最后,对于1998年人民日报一个月的语料的实验表明,新词发现的准确率达到60.81%,召回率为68.94,F值为64.62%。词性标注的准确率达到90%。