基于本体演化的Deep Web数据抽取与注释

来源 :吉林大学 | 被引量 : 0次 | 上传用户:yxjdyn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
根据Web的信息存放和分布状况等特征可将Web划分成“表层网络”(Surface Web)和“深度网络”(Deep Web)两大类。Surface Web指的是使用超链接的方法将图片、文件等资源连接起,并通过点击这些超链接来读取的网页。不同于表层网络,Deep Web的信息都存储在后台数据库,仅提供给用户一个查询接口,通过用户提交的查询条件,自动生成包含查询结果记录的网页。传统的搜索引擎主要是依靠超链接进行爬取,因此是无法检索到Deep Web站点包含的丰富信息。同时,抽取和集成Deep Web站点中的信息可运用于多种应用,例如为多个电子商务网站提供产品信息的比价购物服务,便于商家了解行情,并且实惠于消费者。有利于互联网中的门户网站提供更加专业和个性化的信息搜索服务。因此,对于Deep Web站点的资源进行数据抽取和集成,不仅可以产生可观的经济效益,而且可以提高传统搜索引擎的查全率和查准率。本体可看作一种特殊类型的共享词典,具有自定义的结构化的特征,适用于计算机系统中描述特定领域之中概念以及概念之间的关系,使用本体进行数据抽取和注释可以摆脱传统方法对于网页结构本身的依赖,因此,本文提出了一种基于本体演化的数据抽取和数据注释方法。本文具体的研究工作主要在四个方面:(1)根据Deep Web查询结果页面的数据的结构化特征,本文设计了一个较简单的七元组本体属性模型,可以很好的描述领域本体中的属性以及属性关系。在构造本体中不仅考虑了查询接口的信息,而且还加入了查询结果中的实例信息,从而可构造出更加丰富的本体。本体中的属性信息是查询接口页面中的查询属性和查询结果页面中的实例信息的合集。(2)对于查询结果页面的数据抽取操作分为数据记录区域的识别、数据记录分割、数据记录的对齐三个阶段。基于“网页中包含有多个数据记录,通常包含有大量本体信息的数据记录可能是包含查询结果记录的数据区域”这一观察,本文提出了最大相关度子树算法用于识别查询结果数据区域,同时基于多个网页的视觉观察,设计了一系列的启发式规则用于数据的分割处理。采用了部分树对齐算法来对齐同一数据源中产生的多个数据记录。该算法的主要思想是构造一棵递增的种子树来对齐多棵树。我们可以把一条数据记录看作一棵子树,一个数据记录区域包含几个数据记录,将具有几棵子树,最终构造出包含结点数目最多的种子树,该种子树可对齐同一数据源中的所有子树。(3)对于查询结果页面中的数据注释操作,首先研究了重复数据记录识别的算法,从而避免不必要的注释操作,该方法综合了基于距离函数方法和基于机器学习方法的优点。由于本体具有较好的语义信息,因此,本文提出用本体对抽取出的数据进行注释。对于数据抽取出的标签-值对的实例信息,按照标签项可分为了两种情况处理:当标签项不为空时,对本体和标签-值对进行映射,并为该实例标注一个合适的标签;当标签项为空时,基于“在Deep Web查询接口中,选取越合理的查询条件,Deep Web后台服务器将会返回尽可能多的查询结果信息。”这一观察,本文提出“查询条件重置”的方法,利用Deep Web查询结果返回的数据记录的个数来判断如何注释该实例。同时,提出了基于KBFS的K-beam搜索算法用于数据实例的注释预测,该方法不仅具有基于最大信息熵模型的预测模型的预测能力,而且还具有KBFS搜索算法探寻最优路径的优点。(4)为了避免静态本体的知识表达有限性,本文提出了一种动态演化的本体用于数据抽取和注释。将演化过程分为:捕捉变化信息、变化信息的表示、语义的变化、本体演变的执行这四个阶段,并且制定了本体进行演化的三个基本规则,从而保证演化后的本体具有更丰富的信息,同时不存在语义冲突的问题。本文虽然对Deep Web网页数据的抽取和注释进行了深入的研究,但其中某些关键技术仍然不是很成熟,还有一些后续的工作需要做,例如创建一个本体演化的性能评估标准,从而避免本体信息的过度膨胀。因此,我们还有许多工作需要进一步的改善和创新。
其他文献
目前我国大学生学位论文质量评审标准普遍存在相对简单模糊、主观性大等问题,为此文中探索构建了一种新的包含“学位论文质量评审目的、基于问题导向的评审指标体系、评审教师
设计理念1.《全日制义务教育语文课程标准》要求一二年级学生“能正确工整地书写汉字,并有一定的速度”。因此,本篇课文教学的一个很重要目标就是识字、写字。2.在语文教学中注重
校企联合导师制能较好地解决当前工程专业教育中存在的缺乏对学生个性差异的关注问题,并实现学生理论知识与实践能力紧密结合。同济大学地质工程专业自2012级本科生开始开展校
对长三角地区体育用品产业集群现状、点及其具备的优势进行分析;论证体育用品企业主要围绕同一产品或紧密相关产品从事产品开发、和销售等经营活动;分析以产业布局专业化、产
本文对环北经济圈内的海南省和五个主要城市的三次产业结构进行了对比分析,意在找出钦州与其他四个城市和海南省的产业梯度差和承接产业转移的优势和不足,并提出了要加快体制和
目的:探讨双极人工股骨头假体置换在治疗高龄股骨转子间粉碎性骨折的临床应用。方法:选用双极人工股骨头置换治疗70岁以上股骨转子间粉碎性骨折32例,男14例,女19例,年龄72~85岁
目的探讨直肠癌患者术后疼痛程度与血清补体C3、C4水平的变化趋势及两者相关性。方法选择择期行直肠癌根治术患者100例,视觉模拟量表(VAS)评分测量患者术前12h及术后4、8、12
自我效能感是Bandura社会认知理论中的核心概念,护理学生的一般自我效能感成为近年众多学者关注热点。研究显示农村学生的一般自我效能感低于城市学生。讨论式教学是在欧美大
<正>自发性脑出血(intracerebral haemorrhage,ICH)约占所有急性卒中的15%[1],其治疗对于全世界来说都是一个重大的公共健康负担。早期血肿扩大在ICH患者中占有显著比例[2],
对室内使用空气净化器时所普遍关心的空气净化器能承受的大气污染及室内能达到的浓度水平等问题进行了探讨,给出了简明的计算方法。认为室内正常发尘量远小于缝隙渗入的尘量,