基于维基百科的概念图建模及其应用研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:jyy3196294
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本的表征与文本间的语义相似度计算是自然语言处理领域里十分重要的基础性研究课题,它们直接影响着诸如文本自动分类、信息检索、机器翻译、问答系统等多个应用系统的效果。传统的机器学习方法仅仅使用了文本本身所提供的信息来建模和运算,面对复杂多变的网络用语和短文本,仅仅依靠文本自身所提供的信息来理解文本语义信息变得越来越困难。这是因为传统的机器学习方法大多数是基于词袋(Bag of words)模型,即依靠词或短语之间的匹配,面对词汇的多样性、多义性,它就显得无能无力了。此外,随着互联网的发展,人类的语言生活也发生了很大变化,短文本占据了网络用语的大量比例,而这些短文本所能提供的词汇特征信息又非常之少,不利于传统的模型表征。借助于文本以外的知识扩展文本的信息,是解决以上问题的一个主要途径,然而,现有的模型并没有能充分利用外部知识所提供给我们的语义信息。以维基百科为例,大部分模型忽略了不同词条之间的语义联系和用户提供的标注信息,然而,有些时候,这些信息对于理解文本的语义、获取信息的增益非常重要。因此,设计一个更为合理的知识表示模型来更加充分的利用这些信息,可以说是自然语言处理领域一个亟待解决的研究课题。本文从以上问题出发,提出了一个新的知识表示模型,该模型弥补了同类模型的不足之处,既考虑进了知识之间的相互联系,也使用了用户标注的额外信息。概括起来,本文所做的工作主要有以下几点:第一,本文提出了一个新的知识表示模型,在该模型中,每个知识不再被当作语义独立的个体看待,不同的知识根据它们之间的语义相似度被联系到了一起,从宏观角度看,所有知识通过这些连接关系,构成了一张图的形状。以维基百科为例,维基百科中的每一个条目被视为一个概念,它们被当作概念图中的节点。概念之间的语义联系构成了它们之间的边。边的权值表示概念之间的语义相似程度,它的值是根据维基百科概念的正文内容、标题、锚文本、超链接、类别标签等多个信息综合衡量得出的,本文称此结构为概念图。这里需要特别指出,虽然本文使用了维基百科作为外部知识库来建模,但本文所提的模型不仅限于它,该模型同样适用于其它符合条件的外部知识库。第二,本文提出了一种基于概念的文本表征方式。本文在构建的概念图模型上设计了一套文本映射到概念的方法,成功把文本从词频向量空间转换到概念空间,增大了文本特征的粒度,从而解决了同义词等语言现象给传统文本表征方式带来的困扰。此外,本文还提出了利用新的文本表征模型来计算文本的语义相似度的方法。我们首先通过简单的词义相似度比较,将文本映射到一组概念节点上。然后根据节点之间的语义联系,对映射到图中的节点做调整,找出最能代表文本语义的一组节点。最后,通过比较概念向量之间的语义相似度来计算文本之间的语义相似度。第三,为了方便地将本文所提出的概念图模型运用到实际应用中。本文提出了一种针对语料特征的灵活建模方法。首先,对需要处理的语料进行随机采样。然后,采用多种特征抽取的方法抽取出实验语料的特征,并根据这些抽取出的特征,有针对性地选取与实验语料语义接近的一部分概念来构造图模型,从而成功地将概念图的规模控制在合理的大小,提高了计算效率,方便了该模型的使用。我们将所提出的基于概念图的文本表征方法以及文本相似度计算方法应用到了文本分类中,实验采用了国际标准语料集20newsgroup,并和同类型方法做了比较,实验验证了本文提出方法的有效性。
其他文献
随着计算机技术的发展,软件系统的复杂性越来越高,为了能够适应开放动态的网络环境,融合异构的硬件资源以及满足不断变化的用户需求,要求软件系统能够在运行时自主地感知自身
无线传感器网络(Wireless Sensor Network)即由部署在监测区域内的大量传感器节点利用自组织能力构建而成的通信网络。随着信息社会的发展,数据的获取能力在相关领域中的作用
在这个科技高度发达的现代社会,我们每天都会与很多数据打交道,有些我们可以很容易从中获取信息,但是有些大规模的复杂数据,我们很难直观的获取到数据背后影藏的有效信息。于
随着三维模型精度的不断提高,三维模型的数据量在飞速的增长,这无疑对计算机处理与传输三维模型带来了很大的压力。三维模型的简化和多分辨率建模是处理以上问题的一个有效的途
聚类分析在数据挖掘领域中占有重要的一席之地,主要是用来发现数据对象在空间中的分布结构。根据数据对象间的相似度量,聚类算法将数据对象集合分割成若干个簇,在同一个簇中
现有的结构健康监测系统的特点是低功耗、低速率和不考虑数据传输的实时性。在各种灾异条件(比如海啸、飓风、地震、剧烈撞击等)下,结构设施会在短时间内发生巨大的变化,这时会产
随着信息技术的迅猛发展,图像处理技术在诸如医疗诊断、气象检测、军事侦测等领域发挥着越来越重要的作用。数字图像分割技术作为计算机视觉中的一种基本技术,是数字图像处理
运动模糊图像的恢复是目前数字图像处理领域研究的一个热点问题,有着重要的学术和应用价值。目前很多运动模糊恢复算法的计算量都比较大并且不能保证恢复结果的质量,针对上述问
本文针对现存的危险化学品安全管理中的主要问题,将无线传感器节点和RFID阅读器结合,应用到危险化学品安全监控中。RFID技术能够识别单个化学品的信息,无线传感器节点负责实
作为未来组成骨干网的核心部分,波分复用(WDM)光网络的研究动态受到广泛的关注。虽然WDM网络可以通过波分复用技术极大地提高网络带宽,但是与其上所承载业务需求量的爆炸式增