论文部分内容阅读
文本的表征与文本间的语义相似度计算是自然语言处理领域里十分重要的基础性研究课题,它们直接影响着诸如文本自动分类、信息检索、机器翻译、问答系统等多个应用系统的效果。传统的机器学习方法仅仅使用了文本本身所提供的信息来建模和运算,面对复杂多变的网络用语和短文本,仅仅依靠文本自身所提供的信息来理解文本语义信息变得越来越困难。这是因为传统的机器学习方法大多数是基于词袋(Bag of words)模型,即依靠词或短语之间的匹配,面对词汇的多样性、多义性,它就显得无能无力了。此外,随着互联网的发展,人类的语言生活也发生了很大变化,短文本占据了网络用语的大量比例,而这些短文本所能提供的词汇特征信息又非常之少,不利于传统的模型表征。借助于文本以外的知识扩展文本的信息,是解决以上问题的一个主要途径,然而,现有的模型并没有能充分利用外部知识所提供给我们的语义信息。以维基百科为例,大部分模型忽略了不同词条之间的语义联系和用户提供的标注信息,然而,有些时候,这些信息对于理解文本的语义、获取信息的增益非常重要。因此,设计一个更为合理的知识表示模型来更加充分的利用这些信息,可以说是自然语言处理领域一个亟待解决的研究课题。本文从以上问题出发,提出了一个新的知识表示模型,该模型弥补了同类模型的不足之处,既考虑进了知识之间的相互联系,也使用了用户标注的额外信息。概括起来,本文所做的工作主要有以下几点:第一,本文提出了一个新的知识表示模型,在该模型中,每个知识不再被当作语义独立的个体看待,不同的知识根据它们之间的语义相似度被联系到了一起,从宏观角度看,所有知识通过这些连接关系,构成了一张图的形状。以维基百科为例,维基百科中的每一个条目被视为一个概念,它们被当作概念图中的节点。概念之间的语义联系构成了它们之间的边。边的权值表示概念之间的语义相似程度,它的值是根据维基百科概念的正文内容、标题、锚文本、超链接、类别标签等多个信息综合衡量得出的,本文称此结构为概念图。这里需要特别指出,虽然本文使用了维基百科作为外部知识库来建模,但本文所提的模型不仅限于它,该模型同样适用于其它符合条件的外部知识库。第二,本文提出了一种基于概念的文本表征方式。本文在构建的概念图模型上设计了一套文本映射到概念的方法,成功把文本从词频向量空间转换到概念空间,增大了文本特征的粒度,从而解决了同义词等语言现象给传统文本表征方式带来的困扰。此外,本文还提出了利用新的文本表征模型来计算文本的语义相似度的方法。我们首先通过简单的词义相似度比较,将文本映射到一组概念节点上。然后根据节点之间的语义联系,对映射到图中的节点做调整,找出最能代表文本语义的一组节点。最后,通过比较概念向量之间的语义相似度来计算文本之间的语义相似度。第三,为了方便地将本文所提出的概念图模型运用到实际应用中。本文提出了一种针对语料特征的灵活建模方法。首先,对需要处理的语料进行随机采样。然后,采用多种特征抽取的方法抽取出实验语料的特征,并根据这些抽取出的特征,有针对性地选取与实验语料语义接近的一部分概念来构造图模型,从而成功地将概念图的规模控制在合理的大小,提高了计算效率,方便了该模型的使用。我们将所提出的基于概念图的文本表征方法以及文本相似度计算方法应用到了文本分类中,实验采用了国际标准语料集20newsgroup,并和同类型方法做了比较,实验验证了本文提出方法的有效性。