多源环境下实体一致性建模与真值发现

来源 :武汉大学 | 被引量 : 2次 | 上传用户:tgxmsc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据规模的爆炸式增长和计算资源的大范围普及,社会各领域都致力于挖掘数据中的商业价值。作为数据分析和利用的基础,数据质量的高低直接影响商业决策的有效性。然而,更大的数据量、更广泛的数据类型、更多的数据获取方式意味着数据质量参差不齐,数据源中的劣质数据,将直接导致知识和决策的错误。实体数据的不一致使得数据源对实体对象提供的描述信息冲突混乱,是影响数据质量的重要原因。因此,要进一步提高数据质量,必须首先确保实体的一致性和数据的正确性。目前,众多学者针对数据清洗、数据可用性、数据源独立性、数据融合等课题展开研究,并在传统数据库和结构化数据对象领域取得了丰富的学术成果。然而,Web复杂环境下数据的跨域、异构、规模庞大等特点,使得传统的计算方法在可移植性和可扩展性等方面表现不足,是现阶段研究的瓶颈。针对上述问题,本文以提高数据质量、对用户决策提供智能支持为研究目标,以多个数据源中的异构实体为研究对象,首先基于对象相似度度量和特征关联性分析,研究了跨源实体同一性的识别和判定问题。其次,基于已识别的同一实体,推演并计算实体各属性的真值概率分布。最后,基于数据源中实体的一致性程度和对象属性值的正确性程度,构建数据质量的自动评估标准,建立面向大规模全样本数据源的统一评估计算框架。本文的主要研究工作和贡献包括:1.提出了多源环境下异构实体的同一性判定模型多源异构环境下识别实体同一性和保持实体数据一致性是数据清洗和知识融合的研究基础。由于多源数据的异构、跨域、不一致等复杂特征,直接使用传统数据库中结构化数据的不一致处理方法会使计算效率和准确率严重下降。针对这一问题,本文提出了一种基于对象相似度度量和特征关联分析的联合迭代实体识别方法IBJI(Iterative-Based Joint Identification),实现了高精度、自适应的实体同一性度量。具体来说,首先建立异构特征的非线性相似度度量模型和多维权重参数优化方法,准确一致地度量对象之间的相似度;然后针对由训练集的有限性及异构数据特征的多样性引起的特征项缺失问题,建立优化的迭代模型,进行对象关系优化、训练集自动扩充,同时对特征进行关联分析,以求解数据中未知特征的权重和参数,最终实现多源异构复杂数据的联合实体识别。在同构和异构两种不种类型的真实数据集上进行的实验表明,在不同的数据维度和数据集规模条件下,本文方法在准确性和适应性方面均优于聚类基准方法、ABS实体识别方法和基于关系的实体识别方法。2.构建了 Web环境下多源异构实体数据的真值发现模型Web环境下,多个数据源对同一实体属性的描述往往不尽相同,甚至互相冲突,极大影响了用户决策。目前,真值发现是解决这一问题的主要手段。现有的方法多采用基于启发式的投票迭代法,统计得票最高的数据作为结果真值。然而,投票法往往忽视了迭代收敛性问题,计算效率普遍不高。针对实体特征的复杂性、数据类型的多样性和冲突分布的无序性,本文提出了一种基于复合高斯模型的多目标约束真值发现方法MCGCM(Multi-Objective Constraint Approach Based on Gaussian Compound Model),构造一个针对非独立的不同对象的不同特征的联合概率分布模型,通过分析数据源权重和高斯分布期望的关联关系、多数据源下数据值的聚类特征与真值的概率分布、对象多属性的真值交互特性,统一定义多数据源多属性特征环境下的真值发现问题。同时,提出改进的EM迭代方法求解该问题,提高现有算法的迭代收敛速度。实验结果表明,本文方法在天气预报数据集、航班数据集、电子商务数据集上都有良好的计算准确性。3.设计了异构Web数据源质量评估模型数据源排序是用户进行Web信息选择的关键,现有的数据源排序多依赖于人工评分和主流搜索引擎的竞价排名,具有强烈的主观倾向性。本文提出一种客观、智能的排序方法,能够对同领域同类型的Web数据源质量进行自动、统一的计算、评分和排序。结合多源环境下异构实体的同一性判定,根据数据源对实体数据真实度的贡献,本文形式化定义了数据源评估的14条标准,对各质量值进行正向和负向的极差标准化。同时,基于核密度估计和高斯核函数,求解全样本分布数据各质量标准的评估值。然后,提出基于标准度量的全数据质量评估方法CDQA(Complete Dataset Quality Assessment),将互联网数据源质量评估转换成为多属性决策分析问题,计算主客观综合权重,并依据多目标规划确定权值,用以求解各Web平台的综合数据质量。在电子商务数据集中对算法的性能进行测试,实验结果表明,将专家训练和评价分析作为真实集的情况下,与已有的模型相比,本文的方法具有较好的准确度。
其他文献
在美国,对畜牧养殖业滥用抗生素问题的关注由来已久,目前已经积累了较为丰富的研究成果。这些成果主要呈现出两方面的特点:第一,从科学认知,到风险评估,再到人文反思,美国人
<正>俄语中一个主语带若干谓语的句子至今还论述得不多。这类句子在分类学上也未取得一致的看法〔1—92〕。传统的语法教科书对此类问题通常是避而不谈的,至多不过在句子的同
深圳特区报讯(记者 余海蓉 通讯员 深卫信)日前,深圳市委卫生工委通报了2017年第二季度全市医疗行业公众满意度的第三方监测结果,第二季度深圳全市医疗服务综合满意度评分比上一
报纸
提出了一种基于协作过程的反思性学习方式,并且通过一个实际案例说明了基于协作过程的反思性学习的特点和实施过程。研究表明,基于协作过程的反思能够改变学生对于协作的态度,加
死亡是文学的永恒主题,在当代中国,很少有作家像迟子建这样如此执着于死亡叙事。她用东北边地特有的地域情结书写生命的意义,在她笔下,死亡不再以残忍悲痛之感示人,而是以一
方差分析中的多重比较方法华中农业大学植保系(430070)张国安对植保研究和试验结果,例如对几种农药药效试验结果进行方差分析,经F测验表明,存在着显著或极显著的差异,这是说明了一个整体概
采用双丝气体保护焊对40mm厚7A52铝合金板进行焊接工艺试验,研究了坡口形式和参数等对接头质量的影响,确定了最佳的双丝气体保护焊工艺及参数.焊缝缺陷、硬度、组织分析和力
选用3个氮高效水稻品种(武运粳7号、南光和4007)和1个氮低效水稻品种(Elio),在田间试验条件下研究了7个施氮水平(0、60、120、180、240、300和360kg&#183;hm^-2)下水稻的产量及产量
目的了解2009-2014年河南省卫生资源的配置及其利用情况,对新医改以来河南省卫生资源配置的公平性和利用效率进行横向以及纵向的评价,从而为优化卫生资源配置提供科学的参考