结合编辑距离和Google距离的语义标注方法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:shuo19871108
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web已经成为人类获取信息和得到服务主要方式之一,Internet技术的高速发展使它成为了一个庞大的知识库,但同时也带来了许多问题。首先,Web规模的膨胀使得整个Web上的有用信息无法得到有效的利用,人们在这海量的信息中获取“知识”的难度增大;其次,在当前Web中计算机的主要作用是显示信息,很少参与到信息的处理中,使得许多智能应用无法在Web上实现。语义Web便是在这种需求背景下产生的,旨在使Web文档具有机器可理解的语义,使不同平台中的数据得到共享和重用,便于人机之间进行交流和合作。这样,Web巨大的潜能才能得到充分发挥。这种机器可理解的语义信息,就是通过语义标注技术产生并添加到Web资源中的。语义标注是利用本体知识对网页中的概念或概念实例进行描述的。通过语义标注的作用, Web中的资源具有了语义,因此语义标注是实现语义Web的基础。本文首先介绍了语义Web相关知识背景,包括语义Web的起源、体系结构、本体知识等,阐述了语义标注的含义、它与本体之间的相互作用,以及在语义Web发展过程中的重要地位。然后,对当前存在的一些典型的语义标注系统进行深入分析和比较。针对这些标注系统的不足和缺陷,引入了语法和语义分析的思想,提出了一种结合编辑距离和Google距离的语义标注方法。该方法在领域本体的指导下,充分考虑了Web资源与本体在语法上的形似度和语义上的相关度,从这两方面综合度量两者之间的关联程度,从而用本体知识对资源进行有效的标注。其中,对标注结果还进行了分类处理:与本体关联程度高但在本体中尚无定义的实例,将其标注结果反馈到本体库中,对本体库进行扩充;与本体关联程度低的实例则反馈到词汇过滤表中,用于辅助对文档的预处理过程,这两个过程都是循环反馈的。其次,在对传统标注工具分析时发现这些工具几乎都无法直接标注word文档,为此,对word文档的特点分析后,将本文方法改进后直接标注word文档。最后,为了验证本文提出的语义标注方法的有效性,在葡萄酒领域设计和实现了语义标注实验。在实验中,分别针对Web文档和word文档进行了相应的测试。结果表明,本文提出的方法切实可行,标注性能良好,对领域文档的表达方式没有特别要求,并支持对word文档的语义标注,弥补了传统标注工具几乎无法直接标注以word文档表示的资源的不足之处。
其他文献
多关系数据挖掘是近年来快速发展的重要的数据挖掘领域之一。对于多关系的数据挖掘研究,如何高效地挖掘以及如何提高算法的可扩展性,一直是大家研究的重点。与传统的数据挖掘
组合测试是一种科学有效地软件测试方法,它能在保证软件质量的前提下,以较少的测试用例检测待测软件系统中各个变量以及它们之间的相互作用对系统产生的影响,实践证明其具有
随着社会交通运输的快速发展,越来越多的长途客货运驾驶员忙碌在工作岗位,因疲劳驾驶出现的事故频繁发生。因此,疲劳驾驶检测的相关研究意义重大。其中基于计算机视觉的检测
舵机最早出现在航模设计中,在航空模型中,飞行器的各种飞行姿态是通过调节发动机和各个控制舵机来实现的。而随着航空技术的发展,航空装备越来越复杂,对舵机的可靠性和控制要
近年来我国人民的消费出现快捷多样的特征,民众对时鲜果蔬、水产乳品等生鲜产品的需求逐年增加。采用全程低温运输以保证食品质量的冷链物流(cold chain)悄然兴起。但数据表
虚拟植物是指利用虚拟现实环境对植物的生长过程进行模拟的技术。虚拟植物是一个综合性研究课题,涉及到应用数学,计算机科学,农林学,生态学等学科理论,是当前的一个研究热点
指代消解是自然语言处理的重点和难点之一,在信息抽取,文本摘要等应用中都涉及到指代消解问题。待消解项识别是指代消解的一个子任务,是制约指代消解性能的关键要素之一,也是
随着网络的快速发展,网络资源和信息也呈爆炸性增长。对于这些海量的信息,越来越多的人都愿意通过使用搜索引擎从网络上查找自己需要的信息。但是基于关键词匹配的传统检索系
网络安全问题日益严峻,已有的传统方法已经不再能够满足日益增长的网络安全问题的需要,单CPU双总线安全计算机体系结构(简称sCPU-dBUS)从改变计算机体系结构的角度来保障计算
Web服务和语义Web是WWW发展的两个重要趋势,两者具有很好的互补性,这两种技术的结合产生了另一个新兴的研究课题——语义Web服务。语义Web服务指的是用语义Web标记语言来描述