论文部分内容阅读
近年来,随着经济社会的快速发展,大量新词出现在人们生活中。在自然语言处理领域,许多研究方向等都离不开新词的自动抽取。作为语言信息处理领域的一项基础技术,新词抽取技术具有巨大的研究价值和实际应用前景。本文提出了一种新颖的新词抽取方法,主要工作如下:1.提出了一个基于领域特殊性和统计语言知识的新词抽取方法。通过观察、分析语料的特点,采用基于领域特殊性的垃圾串过滤方法过滤垃圾串,得到候选新词列表;然后基于统计语言知识(包括词频、内部结合紧密性)对新词进行抽取。实验验证了该方法的有效性。2.新词抽取方法的优化,从两个方面对新词抽取方法进行了优化:优化内部结合紧密性,采用EMI来衡量,替换PMI;引入上下文外部特征,采用左熵和右熵来衡量词语的自由度。并从多方面采用多种方法评估比较该方法的效果,评估不同统计特征的结合以及调整参数。实验结果显示,相比未优化前的方法,新词抽取的效果得到大大提升,准确率最大提升39%,召回率最大提升63%。3.新词抽取方法的应用验证,将抽取的新词应用在分词系统中,实验结果显示,在含有新词的语料上,分词效果提升了10%;另外,新词抽取方法能够应用在英文领域词典的构建上。实验验证了本文方法可扩展性和语言独立性的特点。基于领域特殊性和统计语言知识的新词抽取方法是一种无监督的方法,它不需要训练语料,不需要定义规则,克服了传统方法的缺点。此外,本文方法具有很强的可扩展性和语言独立性,能够抽取大量的新词和领域词语。