Deep Web数据抽取及精炼方法研究

被引量 : 4次 | 上传用户:lijws
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着万维网的迅速发展,Web已成为最大的百科全书式的信息库。日益发展的信息技术和大规模数据集成的趋势迫切的需要高质量的数据做支撑,从中获取有用知识。与Surface Web相比,Deep Web数据资源具有领域覆盖广泛、信息量大、信息质量好、主题性强等特点,能够为科学研究及集成应用提供良好的分析数据集。但是Deep Web数据亦是异构的、自治的并独立更新,使得集成结果冗余度高、准确度差、数据离散,因此需要对这些粗糙数据进行精炼清洗。本文致力于提高集成数据的质量,针对Deep Web数据的抽取及精炼等问题提出基于Markov逻辑网的数据记录抽取方法、基于实体主题模型的数据概念抽取方法、基于主动迁移学习的重复记录检测及精炼方法和基于时态数据评估可信度的真值精炼方法,主要工作和贡献概括为以下4个方面:(1)针对目前数据集成中多源Deep Web数据抽取方法适应性差、对多类型数据抽取效率低的问题,提出了一种全新的基于Markov逻辑网的通用数据记录抽取模型。该模型首先构建视觉树对数据区域进行划分,实现对多数据区域非连续型数据的抽取。然后利用多级页面分类模型定位不同层次的实体及属性,完成对嵌套型属性和详细属性的准确抽取。最后构建基于Markov逻辑网的数据抽取模型,对视觉树的数据节点进行推理,同时完成对各属性的语义标注,该模型能够容忍实体属性的不完整性和矛盾性。(2)数据的价值在于其表达的概念,因此从数据记录中抽取概念可增强计算机自动处理和理解数据的能力。针对Deep Web数据组成结构的特殊性,提出了基于实体主题分布的Deep Web数据记录概念抽取模型。该模型充分考虑到数据记录属性中通常包含多个实体的事实,将每条数据记录中的单词映射为多个实体-主题对的概率分布集合。并利用提交查询得到的数据记录集合的具有相似主题的事实,论证数据记录的概念不仅由其独有的主题决定,还可能由其它记录共享的全局主题决定。通过对此模型推导和学习,实现对数据记录的主题概念抽取。(3)由于Deep Web具有自治性、动态性等特点,导致抽取到的数据具有很高的重复率。针对粗糙数据集合中的大量冗余数据,提出了基于主动迁移学习的多数据源重复记录检测方法,实现对数据的精炼。该方法首先主动选择对所有数据源最有帮助的样本进行标注,以避免标注样本抽样的不平衡,再利用迁移学习估算各数据源的分类器特征向量参数,最终同步训练出多个灵活度高的分类器,达到以极低的标注成本获得相对满意的精确度及召回率的目的。(4) Deep Web数据更新速度快,且数据源之间的拷贝现象时有发生。针对多源数据集合中的错误数据,提出了一种利用时态数据评估数据源可信度的真值精炼策略,实现进一步的数据精炼。该方法首先根据时间特征对数据属性进行分类,并利用时间约束性原则对数据预检分析,再定义时间弱化系数计算数据与聚类的相似度从而判定各属性值的正确率,进而估算每个数据源来源的可信度,并以此可信度矩阵识别每个聚类最冲突的数据记录,最终通过迭代更新消除所有的错误属性值,实现真值的聚类。
其他文献
乌鲁木齐县乡村旅游还处于发展的初级阶段,旅游目的地在旅游产品、旅游质量上都出现了一系列问题,出于解决这些问题,就要对产品优化和创新提出要求,才能使旅游目的地实现持续发展
建设服务型政府随着社会主义市场经济的建立,已成为我国政府的改革目标。中共十六届四中全会通过的《中共中央关于加强党的执政能力建设的决定》中提出:“坚持最广泛最充分地调
进学校、进课堂、进学生头脑,是高校党史教育的重要理念。从当下高校的党史教育实践分析,进学生头脑是党史教育的短板问题,影响了党史教育的实际效果。本文分析了高校党史教
研究目的:对初治、单药使用替比夫定治疗HBeAg阳性的慢性乙型肝炎患者的疗效进行观察,观察不同基线年龄、性别、HBsAg、HBeAg、ALT、HBVDNA水平的患者治疗后血清学、生化学与
当今社会,人才资源是第一资源,要实现国家的兴旺发达与民族的伟大复兴,必须依靠千百万各层次、各类型的专业人才。随着综合国力的提高以及教育水平的提升,我国加大实施了人才培养
医患关系和谐度分析,旨在引导社会正视医患矛盾的驱动价值和破坏性。在汲取知识极为迅捷的网络环境前提下,以医院、医务人员、患者及其家属之间的和谐共赢为目标,从医院人力
合并财务报表是企业财务工作的重点。本文以当前的国有投资公司作为案例进行分析,来揭示目前投资公司的重组方式下带来的合并报表问题,笔者通过对公司存在问题的分析,从报表
随着人民生活水平的提升,车辆的普及度也越来越高,交通管理的压力变大,近年来车牌识别已经成为一个研究热点之一车牌识别技术在市内道路交通监管高速路超速监测停车场收费管理和
目的:探讨Ikaros的3种亚型对人卵巢癌SKOV3细胞增殖的影响。方法:利用逆转录病毒转染人卵巢癌SKOV3细胞,分别表达Ikaros的3种亚型(IK1、IK2和IK6);采用CCK-8法分析表达不同亚
<正>话题作文、命题作文、新材料作文等可容纳的东西比较多,不少考生感到有话可说,于是就把自己想到的一股脑儿都塞进去,"话题成了一个筐,什么都往里面装",结果造成内容松散