论文部分内容阅读
随着计算机设备和网络应用的发展,人们越来越关注汉语的信息化建设。通过对与文本有关的词义识别技术的研究,可以使计算机更能理解一篇文章的内容。因此词义识别技术的进步能促进计算机理解人类语言的快速发展。现今,自然语言技术的研究方法中一种显著的方法是建立在统计学理论之上的研究方法,而这种方法的发展又依赖于词典和语料。词义识别统计学方法受到语料的规模的大小、词汇分布不平衡、资源知识不完备等几个因素的限制,其内在体现是数据稀疏和小概率词汇频繁出现的瓶颈。本文通过讨论分析词义识别方法和知识资源,本文提出一种新的方法以解决现有词义识别的关键问题。在给出相关方法和资源的介绍和分析后,提出基于指示词语义扩展的解决方法。本文根据词位词群的理论依据,将词典资源和网络文本资源整合起来,扩充语料知识,从而大大的提高词义识别的效能并成功的解决数据稀疏和小概率词汇频繁出现这两个突破的关键性问题。本文首先采用指示词方法来实现词义识别系统。指示词的识别方法里,用最为简单的信息增益熵算法来找到指示词。然后结合同义词词林的上下文环境,收集和研究网络上的词汇,在指示词属于同一语义层次上,找到词汇集合。对这样的集合和网络上搜索的文本句子实例,加工成符合要求的新的词汇集合资源。使用半指导的方法和语言学上的不同的词位集合构成词群的补充性的知识对指示词进行语义扩展计算,得到增强作用的指示词。这两个方法共同作用于指示词词义识别技术研究当中,从而达到在较少的时间内获得较优秀的性能。换而言之,本文通过解决数据稀疏和小概率词汇频繁出现的难题,采用对指示词的语义扩展计算,深层次的挖掘出语料知识,并提高在现有有限的语料规模下语料的效能。经实验证明,指示词的语义扩展计算方法确实提高解决数据稀疏和小概率词汇频繁出现的问题,其实验结果的宏平均准确度得到明显提高。