基于中文文本的本体学习关键技术研究

来源 :西安邮电大学 西安邮电学院 | 被引量 : 3次 | 上传用户:yanjiawei2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,Internet上的知识数量呈现指数级增长,其内容变得更加丰富、形式更加多样,如何将这些知识进行快速地、准确地组织和管理成为计算机相关领域的研究热点。本体(Ontology)作为解决语义层次上Web信息共享和交换的基础,自提出以来就引起了国内外学者的广泛关注。因此,本体的相关研究具有重要意义,其研究的主要内容包括本体构建、本体映射以及本体应用等。针对当前手工构建本体耗时费力、难以动态更新等诸多瓶颈问题,本文重点对自动或者半自动构建本体即本体学习进行研究,主要研究内容包括本体概念抽取、概念关系抽取等方面,其中概念关系主要分为分类关系(上下位关系)和非分类关系。针对本体学习的相关研究,本文工作主要包括以下几个方面:(1)本体概念作为本体的基石,决定了本体构建的质量。对于本体概念抽取的研究方法:首先,分析了目前一些常用的本体概念抽取方法,领域一致度与领域相关度相结合的方法以及CCM与TFIDF相结合的方法;然后;针对TFIDF方法未考虑到概念在语料集中分布的情况,提出了一种CCM与TFIDFE相结合的概念抽取方法;最后,将上述这些方法做出对比分析,验证了本文所提出方法的有效性。(2)上下位关系作为本体的基本骨架,能够将本体概念进行层次化划分。结合改进的K-Means聚类算法,提出一种分类关系抽取方法:首先,构建领域概念的空间向量模型VSM;然后,为减少单一采用余弦距离计算概念间相似度引起的误差,本文利用欧几里德距离与余弦距离相加权的方式计算概念间的相似度;最后,采用改进的K-Means算法进行概念聚类,并引入Sil指标函数作为确定最优簇类数K的方法。实验结果表明,采用该方法可以取得较好的聚类效果。(3)非分类关系作为本体的主要枝干,使得本体更加完备。对于非分类关系抽取的研究方法:首先,采用关联规则方法抽取共现的概念对;然后,根据概念、动词共振性原理,采用VF*ICF方法获取与概念共现的领域动词,并将其作为关系标签;最后,结合对数似然比方法LLR计算上述抽取的概念对与关系标签的相关性,进而获取非分类关系。结合上述研究方法,本文提出了一种本体学习框架,并实现了基于文本的本体学习原型系统。该原型系统实现了对本体概念、分类关系、非分类关系的抽取,并将抽取的领域本体持久化到数据库中。
其他文献
平面上几何物体序列遍历问题是计算几何学研究领域的核心问题,它不仅涉及可视性识别、最短路径计算、算法设计与优化等基础理论问题,而且也是机器人运动规划、无人机控制等一
XML(eXtensible Markup Language,可扩展标记语言)为网络传输提供了一种便捷有效的数据格式,它是一种自描述的标记语言,能提供统一的数据说明方式,可以描述任意数据逻辑关系
随着3G时代的来临,手机智能卡完成的功能越来越多,已不再局限于简单的用户认证功能,各种增值业务如社保、公交地铁、汽车加油费用结算等贴近人们现实生活的应用也慢慢添加到
作为数字媒体的重要组成部分,数字音频越来越受到人们的重视。并且,伴随着嵌入式技术的迅猛发展,数字音频技术在嵌入式系统中的应用成为了当今的研究热点。嵌入式系统配置灵
策略生成是决策科学的难点,在现时的智能科学中还没有明确地解决矛盾问题,一般只是在既定策略中进行比较和选优,很少研究策略的形成及开拓决策策略集的问题。随着可拓学的不
当前,几乎所有的入侵检测系统采用的免疫模型都是基于传统的“自我和非我”(SNS)理论。该理论认为机体免疫系统对自身的抗原不产生免疫应答,而对外来的“非我”抗原产生免疫
传统的纸笔测验(Paper and Pencil Test, PPT)对于所有被试施测的是同样的试题,是“千人一卷”的测验,但是由于不同被试的能力水平差异较大,为了使试卷能够测出占总体大多数的中等
核磁共振成像(Magnetic Resonance Imaging, MRI)技术以其无创伤,软组织分辨率高,成像数据丰富等特点,已广泛应用于医学图像的获取,并在临床医学诊断上也起到越来越重要的作
色彩迁移是指将一幅参考图像的颜色特征传递给另一幅目标图像,使目标图像具有与参考图像相似的色彩。它是当前计算机视觉、虚拟现实与可视化等领域的一个新兴的技术,具有广阔
随着“互联网+”理念的涌现,加速了互联网等相关行业的发展,也带动了传统的行业和更多的企业以及个人加入到互联网中来,从而在互联网中产生了大量的信息。为了企业或用户更好