论文部分内容阅读
本体是一种用来描述概念以及概念之间关系的模型。本体技术在计算机的许多领域得到了广泛的应用,如知识工程,数字图书馆,软件复用,信息检索和web上异构信息的处理,语义web等。本体构建的好坏,直接影响这些应用过程。因此,如何方便,快速构建本体是当今研究的热点问题。
从目前本体构建的现状来看,领域本体的构建很大程度上依赖于手工,半自动化与自动化构建领域本体的方法远远没有达到成熟的应用。由于手工方法存在工程复杂,专家依赖性强,本体构建速度慢等缺陷,这极大的限制了本体的发展。随着本体应用面的扩展和辅助资源的增加,出现了一些与人工智能领域相结合的利用辅助资源来半自动化或自动化构建本体的方法,其使用的核心技术就是本体学习--利用知识发现技术从数据源中获取知识,从而实现本体的半自动化或自动化建模。
本体学习技术是当今研究的热点,它的主要目标是从web文档中自动获取领域术语及其相互关系,采用信息抽取技术来确定概念对之间的语义关系,在获取的概念及其相互关系的基础上构建本体。本体学习的任务包括概念的获取、概念间关系(包括分类关系和非分类关系)的获取和公理的获取。
本文将统计自然语言处理和文本挖掘等相关技术应用到领域本体的构建过程中,进行了领域本体的半自动化构建的研究。本文提出的领域本体半自动化建模方法通过从大量中文的领域文献中自动提取领域概念以及领域概念间关系实现。
通过对领域相关语料文本进行分词处理,词语的组合搭配处理提取候选合成词语,接着对候选合成词语进行互信息以及上下文依赖分析判断候选合成词语是否完整的合成词语,最后对合成词语以及领域常用词语进行领域相关度分析获得候选领域概念。得到的候选领域概念需要人工校验挑出领域概念。
利用从领域语料文本中提取的领域概念,设计了提取领域概念间关系的相关算法。考虑领域概念间的关系有分类关系以及非分类关系。分类关系是指概念之间的层次关系,本文从词形与词义两个方面着手设计提取分类关系的方法。从词形上看,具有分类关系的合成词语往往具有相同的后缀,采用广义后缀树方法提取了这部分分类关系;从词义上看,具有分类关系的词语往往可以使用在相似的上下文环境中,采用对词空间向量聚类的方法提取这部分的分类关系。非分类关系种类繁多,本文采用基于关联规则挖掘获取相关概念对的方法获取非分类关系,需要人工编辑相关概念对之间的非分类关系。
本文的研究丰富了本体的理论和应用研究,一定程度上加速了本体的构建,但仍然有许多不足,后续要进行的工作还有很多。