论文部分内容阅读
本体作为知识图谱的上层结构,在知识推理、知识问答等方面有着广泛的应用。快速准确地构建本体是完成上述应用任务的前提,而本体重用则是构建本体过程中最常用的技术手段之一。相比于直接构建新的本体,重用已有本体不仅能加快本体构造的速度,提升本体的准确性,还能减小本体构建的成本。然而,知识数据量的指数增长造成了本体规模的不断膨胀,使得人类对本体的理解变得愈加困难,因而阻碍了本体的重用。在此背景下,本体摘要技术应运而生,它是生成原本体缩略版本的一种方式,对快速理解大规模本体、促进本体重用有着重要的意义。根据目的分为面向用户和面向任务两类。鉴于面向用户的方法研究成果多、应用范围广,本文研究面向用户的本体摘要方法。现有用户导向的本体摘要方法包含本体映射和摘要抽取两个步骤。在本体映射阶段,算法将本体文件映射为复杂网络,从而利用复杂网络中的各项参数对本体网络结构进行初步研究;在摘要抽取阶段,算法利用本体网络的结构特性和本体中的语义信息,对本体中的概念和关系进行重要性评估,从而选取重要概念和连接重要概念的路径。现有摘要算法虽然取得了一定进展,但仍存在以下不足:1)现有方法在将本体映射到复杂网络的过程中,往往仅保留本体中的显式结构信息,而关系约束作为关系的一种属性,不应被忽视。2)本体中存在的冗余关系对本体结构分析和摘要抽取有负面影响,而现有本体摘要方法在摘要前没有去除本体中的冗余。3)现有本体摘要方法对本体中的语义信息利用不足,使本体摘要的准确率受限。本文针对上述问题展开研究,具体研究内容及成果概括如下:(1)提出了一种保留本体中关系约束的本体映射方法。将本体中的概念和实体看作节点,概念和实体之间的关系看作边,构造一个有向图。在转化过程中,首先去除本体中与结构无关的信息,然后对本体中的匿名节点进行归并,从而更精简地表示本体中的关系约束。将算法在不同规模的本体中进行定性定量分析,结果表明,本文提出的映射方法有助于本体结构特性的分析和直观展示。(2)提出了一种基于超节点理论的本体关系消冗算法。算法将(1)中映射后的本体网络作为输入数据。首先,将相互等价的节点转化为超节点,将本体网络转化为有向无环图,进而消除单一类属关系之间的冗余;然后还原等价节点,通过向量扫描检测消除等价关系与类属关系之间的冗余;最后将超节点进行还原,输出消冗后的网络。将算法应用于真实本体网络和人工合成网络,结果表明,所提算法能够有效检测并消除本体中的冗余关系。(3)提出了一种融合语义信息的本体摘要算法。算法将(2)中消冗后的本体网络作为输入数据。首先,利用本体中概念标签蕴含的语义信息,将概念转化为向量,并融合结构信息计算向量间的距离;然后利用聚类的思想选取概念节点中的中心节点作为重要概念;最后,根据本体中概念与关系的特性,选取连接重要概念的路径,形成原本体对应的摘要本体。将算法应用于真实本体,并分别从输出重要概念和输出子本体的角度进行评估,结果表明,本文所提算法的准确性较其他对比算法更好。