论文部分内容阅读
重复数据的出现会给数据质量带来极大的困扰,严重影响着数据处理和分析的效率,如何对重复数据进行清理是数据处理研究的重要问题。然而,随着数据的急剧增长,数据源的多样性,同名、多词一义等歧义实体的出现,关联数据的大量涌现给现有的重复数据清理方法带来了挑战。现有的重复数据清理方法存在着检测结果不全面,对歧义实体的检测精确度不高,检测时间花费长,计算复杂性高等问题。因此,重复数据的清理研究需从重复数据检测结果的全面、准确、高效等方面展开。这三个方面在一定程度上相互制约,一味追求高的查全率会影响查准率,一味追求高效也会对查全查准产生影响。如何使这三个方面达到一个平衡点,是重复数据检测研究的重点。基于语义关联的重复数据清理,是通过数据之间的语义关系来检测数据之间的重复性、区分模糊信息、过滤掉不相干的数据,解决去重问题中大规模数据比较带来检测效率问题。针对数据源的多样性、数据记录之间的差异对重复数据检测的查全的影响,提出一种基于长度过滤动态权值的数据比较方法。该方法首先针对重复数据检测的两两数据对的比较的计算量大的问题,在数据对比较前,根据数据对的长度差,过滤掉不可能是重复数据的数据对。减少参加数据比对的数据对的个数,以提高检测的效率。然后针对不同数据源之间数据记录的差异影响检测的查全问题,动态的为记录各属性赋权值,减少记录之间因属性缺省对相似度计算的影响,提高重复检测查全率。最后对现有的检测方法对查全的问题进行了改进,提出一种基于动态滑动窗口的数据比较策略。该策略以动态的滑动窗口来控制数据与其它数据比较,进一步提高重复数据的查全率。该方法平均查全率,查全率和查准率调合平均值,均高于现有的检测方法,在提高查全率的同时,没有降低检测的查准率。针对重名、多词一义等歧义实体给重复数据检测带来的影响,提高重复数据清理的准确性的问题,提出一种基于语义关联的实体识别方法。该方法跳出实体数据本身的比较,通过分析实体之间不同类别的语义关联与其作用,并利用实体之间的两种类别的语义关联—相似语义关联和关联语义关联,将歧义实体进行聚类和合并处理,以达到消除实体歧义模糊问题的目的。针对数据量的急剧增加影响重复数据检测效率的问题,为了更进一步的提高在大规模异构数据整合中而产生的重复数据的检测的效率,提出一种“最可能重复”的数据集划分思想,该思想将最可能是重复的数据划分在一个部分里,以减小重复数据检测的范围。基于此思想结合数据的语义链网络提出一种基于语义关联的数据清理策略。该策略利用数据之间的语义链关系的分析和推理,将最可能是重复数据的数据聚类在同一部分中,以达到减小数据比较次数和提高检测精度,提高检测效率的目的。该方法在提高检测效率的同时,查全查准率的调合平均值高于现有的重复数据检测方法。提高效率的同时,没有对检测的查全查准率带来影响。随着语义网技术的发展,关联图数据的大量出现也带来了新的挑战。针对关联数据中存在的重复数据清理的问题,提出一种K-半径子图比较方法。该方法针对关联数据间的错综复杂的关系,提出一种关联层次图模型。该模型可以将关联数据之间复杂的关系在简单图中进行清楚的表达,并可以在关联数据中进行无缝转换。并在此模型上,通过对相似节点的“语义上下文”信息的比较,来对数据是否为重复进行判定。从而避免关联图数据中的数据的歧义模糊问题,以提高关联图数据中数据检测的效率。