论文部分内容阅读
随着大数据、人工智能时代的到来,自然语言的网络数据急剧增长,其数据类型多以叙事文本形式存在。我们对需要这些数据进行操作(比如数据集成、数据融合、数据筛选),其中,相似度计算是必不可少的一个环节。本体是一种重要的自然语言处理方法,然而利用传统本体相似度计算方法来计算事件之间的相似度存在很多不足。例如,传统本体很难刻画一个事件类的完整信息,也很难描述事件类的关系。因此,急需一种事件本体的相似度计算方法。事件本体相似度计算是事件的本体集成、本体串联、本体合并等技术的基础,也是事件聚类、事件推荐、事件语义检索等工作的前提。因此,对事件本体相似度计算的研究很有意义。事件本体相似度计算和事件本体结构密不可分,本文以突发事件领域为例来构建相应的事件本体。事件本体中主要有事件类名称、事件类要素、事件类分类关系和事件类非分类关系等信息,利用这些信息来计算事件本体相似度。事件本体相似度应用相当广泛,本文以新闻个性化推荐和异构数据集成讨论事件本体相似度计算的应用。本文的主要研究工作如下:(1)事件本体的构建目前采用传统本体的构建方法来构建事件本体存在很多不足,传统本体只是将事件类看作一个概念,没有把事件(发生地点、参与对象、发生时间等)作为一个有机的整体来考虑,也没有考虑到事件之间的复杂关系(如,因果关系、跟随关系、并发关系等)。本文以突发事件领域为例来构建相应的事件本体。首先,根据国家对突发事件分类标准建立上层事件类。然后,从各种知识获取的方法中得到事件类和事件类之间的非层次关系,建立下层事件类关系。接着,用Protégé完成对事件本体的建模,借助word2vec对事件类进行实例扩充。最后,以一个恐怖袭击事件的作为一个实例进行分析,分析结果表明,事件本体可以清晰的描述事件类、事件类要素以及事件类之间的语义关系,扩展性很强。(2)事件本体的相似度计算采用传统的本体相似计算方法计算事件本体相似度存在很多不足,没有将事件类的要素信息和事件类作为一个统一的整体来考虑,没有考虑事件类之间的非层次结构信息等。本文提出了一种综合的事件本体相似度计算方法。该方法以词语相似度、集合相似度、层次结构相似计算为基础,然后从事件类名称、事件类要素、事件类层次结构和非层次结构讨论事件本体的相似度,最终获得事件本体的综合相似度。实验表明该方法相比传统本体相似度计算方法准确率更高,语义信息更加丰富,更符合人们对事件的认知。(3)事件本体相似度计算在个性化新闻推荐中的应用为了更好的解决传统推荐系统中存在的冷启动、数据稀疏、语义缺乏、推荐精度低等问题,本文把事件本体相似度计算引入推荐系统中。首先,利用新闻语料构建事件本体结构,利用用户浏览过新闻进行要素抽取构建用户兴趣模型。根据事件本体结构来计算新闻事件之间的相似度,根据用户兴趣模型计算用户兴趣相似度、根据新闻事件的语义邻居寻找相关的新闻事件。根据上述三个方面来进行个性化新闻推荐。实验表明此方法比传统的推荐方法准确度、召回率、F-值有大幅提高。(4)事件本体相似度计算在异构数据集成中的应用大数据时代,新闻文本、多媒体源数据处理方式不同、存储方式也不同,这使得数据之间的共享和互操作非常困难。本文把事件本体相似度计算引入异构数据集成中。首先,将异构数据映射成局部事件本体。然后,对局部事件本体中的事件类进行相似度计算,将相似的事件类归为同一类事件关联到全局事件本体的事件类中。用户对异构数据源的访问只需访问全局事件本体即可,而不必关系底层数据的格式。因此,解决了异构数据集成的问题,为异构数据共享和互操作提供了有效解决方法。