论文部分内容阅读
随着大数据时代的到来,Internet上的知识数量呈现指数级增长,其内容变得更加丰富、形式更加多样,如何将这些知识进行快速地、准确地组织和管理成为计算机相关领域的研究热点。本体(Ontology)作为解决语义层次上Web信息共享和交换的基础,自提出以来就引起了国内外学者的广泛关注。因此,本体的相关研究具有重要意义,其研究的主要内容包括本体构建、本体映射以及本体应用等。针对当前手工构建本体耗时费力、难以动态更新等诸多瓶颈问题,本文重点对自动或者半自动构建本体即本体学习进行研究,主要研究内容包括本体概念抽取、概念关系抽取等方面,其中概念关系主要分为分类关系(上下位关系)和非分类关系。针对本体学习的相关研究,本文工作主要包括以下几个方面:(1)本体概念作为本体的基石,决定了本体构建的质量。对于本体概念抽取的研究方法:首先,分析了目前一些常用的本体概念抽取方法,领域一致度与领域相关度相结合的方法以及CCM与TFIDF相结合的方法;然后;针对TFIDF方法未考虑到概念在语料集中分布的情况,提出了一种CCM与TFIDFE相结合的概念抽取方法;最后,将上述这些方法做出对比分析,验证了本文所提出方法的有效性。(2)上下位关系作为本体的基本骨架,能够将本体概念进行层次化划分。结合改进的K-Means聚类算法,提出一种分类关系抽取方法:首先,构建领域概念的空间向量模型VSM;然后,为减少单一采用余弦距离计算概念间相似度引起的误差,本文利用欧几里德距离与余弦距离相加权的方式计算概念间的相似度;最后,采用改进的K-Means算法进行概念聚类,并引入Sil指标函数作为确定最优簇类数K的方法。实验结果表明,采用该方法可以取得较好的聚类效果。(3)非分类关系作为本体的主要枝干,使得本体更加完备。对于非分类关系抽取的研究方法:首先,采用关联规则方法抽取共现的概念对;然后,根据概念、动词共振性原理,采用VF*ICF方法获取与概念共现的领域动词,并将其作为关系标签;最后,结合对数似然比方法LLR计算上述抽取的概念对与关系标签的相关性,进而获取非分类关系。结合上述研究方法,本文提出了一种本体学习框架,并实现了基于文本的本体学习原型系统。该原型系统实现了对本体概念、分类关系、非分类关系的抽取,并将抽取的领域本体持久化到数据库中。