论文部分内容阅读
近年来,互联网技术持续快速发展,网络信息呈爆炸式增长,如何在Web信息资源中更好的实现信息和用户之间的有效互动,从而使网络信息的搜索、浏览更加人性化和智能化是当前Web领域面临的一个难题。为了提高对Web信息的处理能力,Web中的实体和实体关系成为关注热点。实体对象能够代表现实世界中的某一特定概念或者实例(如人物、地点、组织机构等),比Web文档具有更小的信息粒度;实体关系则描述了实体之间可能存在的某种关联关系(如朋友关系、雇佣关系、合作关系等)。实体和实体关系在电子商务、社交网络等领域中有广泛应用。在传统的研究中,为了获取实体之间的关系,大都需要构建面向特定关系类型的领域知识。然而,Web文本处于复杂语义环境中,具有非结构化的特点,缺少对结构信息的描述,对其中的实体关系数据构建全面、准确的领域知识是十分困难的。此外,基于Web中实体关系的动态演化、类型多样等特点,需要设计新的实体关系分析框架和方法。针对以上背景,本文将对Web环境下开放式实体关系的查询和分析做深入研究,以提高对Web数据的处理能力,并解决信息子图抽取、动态关系建模、动态关系图模型中相似节点查询和行为角色挖掘等相关问题。论文的贡献点概括如下。本文提出了SSORE(Self-Supervised Open Relation Extraction)方法来抽取Web环境下实体之间的开放式关系,以便为关系的进一步分析做数据储备。SSORE方法是一种自监督的学习方法,首先利用句子的句式结构得到候选关系元组;其次,利用相关约束条件对候选关系元组进行自动标注;最后利用最大熵模型对输入特征进行训练,从而得到关系分类器。基于关系分类器,可以对开放式关系进行过滤,从而提高数据质量。为了方便数据的使用,本文基于特征共现度,对同名实体进行消歧,并将消歧后的实体关系存储为图结构,称为关系图。对于给定若干关注对象,为了从关系图中发现它们之间的关联关系,本文研究了信息子图查询问题并提出了SISP(Searching Informative Subgraph based on PSO)处理框架。该框架首先通过图的结构信息,给出了目标信息子图的评价函数,进而将子图的查询问题转化为多目标优化问题。借鉴粒子群优化的相关理论,通过子图初始化、子图适应度计算和子图更新等三个步骤实现了目标子图的快速抽取。实验结果证明,本文提出的SISP信息子图抽取框架比已有方法有更高的计算精度和处理效率。实际应用中的关系数据是不断变化的,因此,由关系数据构成的关系图具有明显的动态演化特性。为了研究动态关系图中关系的演化规律以及相关查询和挖掘问题,本文首先利用滑动窗口将动态关系图表示为一组快照,且每一个快照表达了特定时间点上的静态关系结构。利用这些静态快照,本文从全局属性和演化属性两个角度给出了动态关系图中节点之间的相似性度量方法。基于节点间不同的相似性度量函数,本文提出了动态关系图中的top-k查询处理技术。实验结果证明,关系的动态图结构更符合现实情况,且基于动态关系图的top-k查询结果更能满足用户的查询需求。在动态关系图模型中,节点在不同时刻可能具有不同的行为,这些变化的行为反映了节点的角色信息。利用节点行为,本文提出了BOM(Behavior Role Mining)框架,以解决动态图模型中节点的角色挖掘问题。BOM框架首先利用马尔可夫随机场模型(MRF)对节点的行为进行建模,通过外在行为和潜在状态之间的依赖关系表示行为的演化过程;其次,利用节点的历史行为数据,基于EM算法,对节点的潜在状态进行预测和量化;最后,基于每个节点的潜在状态,利用聚类算法对节点进行聚类,得到的每一个簇代表一类角色。实验结果证明,本文提出的方法精确有效,能够满足用户的实际需求。