论文部分内容阅读
语义信息在信息处理中起着极为重要的作用,自然语言的语义分析和内容的理解,都离不开语义信息的支持。语义知识库作为语义信息的表现形式已成为自然语言处理领域的不可或缺的一项基础资源。然而当前的大部分语义知识库是由手工构建的,因此其规模,也就是数量级上严重受到时间积累和成本的制约。如果能在保证质量可接受的条件下,无论在时间成本还是金钱成本上,自动构建无疑比手工构建有更大的优越性。本文研究如何自动从可读字典中抽取语义关系。由于一个好的句法分析器难以获得,而单纯的靠基于字符的模板匹配又过于粗糙,难以捕捉复杂的结构信息。因此,本文研究了基于特定特征的统计技术来自动构造识别方法,并用以识别语义关系。本文的研究工作主要如下:第一,提出了如何构造词法信息、句法信息、语义信息、位置信息以及它们的某些组合等的多种特征类型。由于类型的多样性,使用了统一的方式进行表达。为了减少噪声的影响,通过t-测试来识别有效的特征项,进一步,使用t-测试来发现词的配对这种有效的特征类型。第二,为了更好的选择特征,通过引入优先权的方法将人的先验知识结合到统计模型中。并通过信息增量和几率比来挑选特征并构造规则集合,使得规则集合里的每条规则都有高的准确率,在规则集合整体上表现较好的召回率。第三,由于某些因素的固有干绕,难以单纯从某个词是否有某些特征来判断是否有某种语义关系,于是引入了反特征项。对于每一种语义关系类型,都将构造一个由规则集和反特征集组成的识别方法来识别语义关系。第四,当使用了这些识别方法抽取出语义关系实例后,将这些语义关系实例构建成一个概念关系网,使得很多原本没有直接连接起来的词能够间接的连接起来,从而获取更大的价值。最后,为了验证本文所提方法的有效性,通过对实验结果随机挑选样本进行手工的检查。然而,由于个人的手工判断还存在一定的任意性和模糊性,需要进一步的通过一个同义词词典来产生相似词对和非相似词对,并利用路径模式来计算相似度以便进行更客观的间接的评估。本文的研究朝着自动构建概念关系网的目标更进了一步。如果我们通过词典建立了较完备并且准确率较高的概念关系网,那么我们就可以对很多中文自然语言处理应用打下一个很好的基础。