Deep Web数据集成关键问题研究

被引量 : 0次 | 上传用户:snoopyfeile123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术日新月异的发展,Web已经成为一个巨大的信息源,拥有着海量数据。这些数据具有重要的价值,目前许多应用领域,如市场情报分析等迫切需要利用这些数据进行分析挖掘,从中获取有用知识,最大程度的进行辅助决策。但是,Web数据具有大规模、异构性、自治性、分布式等特点,这使得Web数据的分析挖掘变得尤为困难,当务之急是要对其进行集成,为分析挖掘提供高质量数据。根据Web中所蕴含信息的“深度”,可以将Web分为Surface Web和Deep Web。Deep Web数据在数量和质量上远远超过了Surface Web,具有更高的应用价值。因此,如何进行Deep Web数据集成,以便于更有效的分析挖掘,具有重要的现实意义和广阔的应用前景。现在对Deep Web的研究主要侧重于面向查询的Deep Web数据集成,这种集成方式获取的数据量有限,适用于用户即时查询需求,但是难以胜任以分析挖掘为目标的应用。本文致力于面向分析的Deep Web数据集成研究,目标在于最大限度地获取Deep Web页面,运用抽取与消重技术得到结构化良好、高质量的数据,为进一步的分析挖掘提供数据支持。面向分析的DeepWeb数据集成存在以下问题有待解决:(1)由于分析挖掘需要大量的数据,而这些数据在Deep Web中来自于领域内多个Web数据库动态产生的Deep Web页面,因此,需要自动地最大限度地获取这些页面;(2)由于分析挖掘需要结构化良好的、语义丰富的数据,而这些数据存在于复杂的、半结构化的DeepWeb页面中,因此,需要从页面中准确地进行结构化数据的抽取,并进行语义理解;(3)由于分析挖掘需要统一的高质量数据,而这些数据重复存在于同一领域多个Web数据库中,因此,需要进行多个Web数据库之间的重复记录检测。本文以面向分析的Deep Web数据集成为目标,针对其中存在的关键问题展开研究,主要工作与贡献概括如下:1.提出一种基于扩展证据理论的Deep Web查询接口匹配方法,有效解决了同一领域内不同Web数据库爬取时的查询接口语义理解问题。同一领域内存在大量的Web数据库,这些Web数据库的查询接口模式之间具有异构性,导致在爬取不同Web数据库时难以通过统一的方式识别出需要投放查询词的接口属性,影响Deep Web页面的获取。针对这一问题,本文提出一种基于扩展证据理论的Deep Web查询接口匹配方法,通过构建待爬取Web数据库查询接口与其对应的领域查询接口之间的匹配关系,理解该查询接口属性的语义信息。该方法充分利用了查询接口的多种特征,构建不同匹配器,通过动态预测每个匹配器的可信度扩展现有的证据理论,进行多个匹配器结果的组合,提高组合的适应能力;通过top-k全局最优策略和树结构启发式规则进行匹配决策,得到最终的匹配关系,利用该匹配关系理解待爬取Web数据库查询接口。实验结果表明,该方法具有较高的匹配准确率,有效克服了现有查询接口匹配方法适应能力差导致匹配准确率较低的不足。2.提出一种基于查询词采新率模型的Web数据库爬取方法,有效解决了Deep Web页面的大规模获取问题。以分析挖掘为目标的应用需要大量的Deep Web数据,这些数据来自领域内多个Web数据库动态生成的Deep Web页面,但是Web数据库特有的查询接口访问方式,使得传统的搜索引擎爬虫无法爬取其中的内容。针对这一问题,本文提出一种基于查询词采新率模型的Web数据库爬取方法。该方法通过对Web数据库进行采样,利用采样数据,选择多种特征自动构建训练样本,避免样本的手工标注;利用多元线性回归方法,通过训练样本构建查询词采新率模型,借助该模型迭代选择查询词进行查询提交,从而实现对Web数据库的爬取。实验结果表明,利用该方法爬取Web数据库具有较高的覆盖率,有效地克服了现有Web数据库爬取方法采用启发式规则选取查询词的单一化和经验化的不足,学习得到的查询词采新率模型可以有效应用于同一领域其它Web数据库的爬取。3.提出一种基于层次聚类的Deep Web数据抽取方法,有效解决了DeepWeb页面中结构化数据的自动抽取问题。Deep Web页面以半结构化形式存在,难以对其中的结构化数据进行自动化处理。针对这一问题,本文提出一种基于层次聚类的Deep Web数据抽取方法。该方法通过利用查询结果列表页面的信息来辅助识别Deep Web页面中的内容块,确定数据抽取的区域:通过综合利用多个Deep Web页面的结构和内容特征,对这些页面中同一内容块中的内容结点特征向量进行层次聚类,从而实现Web数据记录的抽取。实验结果表明,该方法具有较高的抽取准确率,有效克服了现有大部分方法仅利用页面自身结构信息导致抽取准确率较低的不足。4.提出一种基于约束条件随机场的Deep Web数据语义标注方法,有效解决了Deep Web数据语义缺失以及多个Web站点数据记录之间的模式异构问题。对于抽取后的Web数据记录,如果单独依赖Deep Web页面中现有的语义标签进行标注,则无法处理语义标签缺失情况,而且不同站点通常使用不同语义标签,造成不同站点Web数据记录之间模式上的异构。针对以上问题,本文提出一种基于约束条件随机场的Deep Web数据语义标注方法。该方法利用已有的Web数据库信息构建可信约束,利用Web数据记录中数据元素之间的逻辑关系构建逻辑约束,将两类约束引入传统的条件随机场模型,构建约束条件随机场模型,采用整数线性规划推理方法,利用领域Web数据库模式的全局属性标签集为Web数据记录中的每个数据元素赋予对应的语义标签,从而实现对Deep Web数据的语义标注,同时也实现多个Web站点数据记录之间的模式统一。实验结果表明,该方法具有较高的语义标注准确率,有效地克服了传统条件随机场无法综合利用已有的Web数据库信息和Web数据元素之间逻辑关系导致标注准确率较低的不足。5.提出一种基于无监督学习的重复记录检测方法,有效解决了Deep Web中大规模重复记录检测的问题。同一领域内Web数据库数量多且数据冗余度高,难以为分析挖掘提供高质量数据。针对这一问题,本文提出一种基于无监督学习的重复记录检测方法。该方法通过利用聚类集成方法自动选择初始训练样本,提高训练样本的准确性;通过利用支持向量机迭代分类方法,构建分类模型,提高了模型的分类准确率;通过利用扩展证据理论集成多个分类模型结果,构建领域重复记录检测模型,从而实现同一领域内大量Web数据库之间的重复记录检测。实验结果表明,该方法具有较高的重复记录检测准确率,得到的领域重复记录检测模型在所属领域具有较好的性能,有效克服了传统方法难以进行大规模重复记录检测的不足。
其他文献
随着我国经济的不断发展,各个企业在发展过程中越来越重视对广告的制作。一部优秀的广告,不仅可以展现出企业艺术上的能力,还能为产品迎来更多的消费者,让消费者在了解产品的
水是人们赖以生存的必需品,但是目前我国纯净水安全问题日益突显,特别是桶装纯净水,市场抽检合格率低,主要表现在纯净水中微生物数量超标,它在一定程度上威胁到消费者的身体
应收账款是一种基于合同而产生的权利,在法律上为一种可期待的信用,其实质内容是请求特定人为一定给付的行为。应收账款质押就是利用此向银行等机构寻求质押担保贷款方式。应
“数字城市”核心技术之一是地理信息系统(Geographic Information Systems)。GIS是城市空间信息表达和管理的主要工具手段。随着三维GIS技术的迅速发展,GIS各系统之间的协同
有机无机肥配合施用是我国施肥制度的主要特色之一,其在培肥地力、促进养分循环和再利用以及可持续农业发展中的地位和作用已得到普遍的证实和肯定。本论文以水稻-油菜轮作和
文章对音乐听觉类型及形成过程、听觉培养的最佳时机、音乐听觉培养方式、音乐听觉与专业要求、试听决定力进行分析阐述,提出音乐听觉的发展是早期音乐教育的必修课之一,良好
文章就影视广告作品在摄影方面的技巧性知识展开讨论,从影视广告在构图、光线角度以及色彩方面的技巧进行阐述,着重探讨影视广告作品摄影技巧的运用。
阅读教学是高中英语教学的主线,也是制约高考英语成绩的瓶颈。《新课程标准》对高中学生的阅读能力的要求和阅读量都做了详尽的规定;阅读理解部分在全卷150分高考英语试卷中占
HPLC-FLD法同时测定食用油和食品中的PG、NDGA、BHA、TBHQ和OG五种抗氧化剂.
静止图像压缩标准JPEG2000在压缩性能上相较于以往的算法有很大的提高,同时,JPEG2000又有许多新的特性。但是,JPEG2000的运算复杂度,使得JPEG2000的硬件实现变得非常的困难,