论文部分内容阅读
随着万维网的迅速发展,Web已成为最大的百科全书式的信息库。日益发展的信息技术和大规模数据集成的趋势迫切的需要高质量的数据做支撑,从中获取有用知识。与Surface Web相比,Deep Web数据资源具有领域覆盖广泛、信息量大、信息质量好、主题性强等特点,能够为科学研究及集成应用提供良好的分析数据集。但是Deep Web数据亦是异构的、自治的并独立更新,使得集成结果冗余度高、准确度差、数据离散,因此需要对这些粗糙数据进行精炼清洗。本文致力于提高集成数据的质量,针对Deep Web数据的抽取及精炼等问题提出基于Markov逻辑网的数据记录抽取方法、基于实体主题模型的数据概念抽取方法、基于主动迁移学习的重复记录检测及精炼方法和基于时态数据评估可信度的真值精炼方法,主要工作和贡献概括为以下4个方面:(1)针对目前数据集成中多源Deep Web数据抽取方法适应性差、对多类型数据抽取效率低的问题,提出了一种全新的基于Markov逻辑网的通用数据记录抽取模型。该模型首先构建视觉树对数据区域进行划分,实现对多数据区域非连续型数据的抽取。然后利用多级页面分类模型定位不同层次的实体及属性,完成对嵌套型属性和详细属性的准确抽取。最后构建基于Markov逻辑网的数据抽取模型,对视觉树的数据节点进行推理,同时完成对各属性的语义标注,该模型能够容忍实体属性的不完整性和矛盾性。(2)数据的价值在于其表达的概念,因此从数据记录中抽取概念可增强计算机自动处理和理解数据的能力。针对Deep Web数据组成结构的特殊性,提出了基于实体主题分布的Deep Web数据记录概念抽取模型。该模型充分考虑到数据记录属性中通常包含多个实体的事实,将每条数据记录中的单词映射为多个实体-主题对的概率分布集合。并利用提交查询得到的数据记录集合的具有相似主题的事实,论证数据记录的概念不仅由其独有的主题决定,还可能由其它记录共享的全局主题决定。通过对此模型推导和学习,实现对数据记录的主题概念抽取。(3)由于Deep Web具有自治性、动态性等特点,导致抽取到的数据具有很高的重复率。针对粗糙数据集合中的大量冗余数据,提出了基于主动迁移学习的多数据源重复记录检测方法,实现对数据的精炼。该方法首先主动选择对所有数据源最有帮助的样本进行标注,以避免标注样本抽样的不平衡,再利用迁移学习估算各数据源的分类器特征向量参数,最终同步训练出多个灵活度高的分类器,达到以极低的标注成本获得相对满意的精确度及召回率的目的。(4) Deep Web数据更新速度快,且数据源之间的拷贝现象时有发生。针对多源数据集合中的错误数据,提出了一种利用时态数据评估数据源可信度的真值精炼策略,实现进一步的数据精炼。该方法首先根据时间特征对数据属性进行分类,并利用时间约束性原则对数据预检分析,再定义时间弱化系数计算数据与聚类的相似度从而判定各属性值的正确率,进而估算每个数据源来源的可信度,并以此可信度矩阵识别每个聚类最冲突的数据记录,最终通过迭代更新消除所有的错误属性值,实现真值的聚类。