论文部分内容阅读
随着信息技术的不断发展,数据在不断涌现,并呈现异构、自治等特点,企业如何高效、正确的分析数据成为当前重要的课题。在数据的时效方面,要求数据更新的频率越来越快,传统的数据集成方法一般是每天、每周甚至每个月更新一次,这远远满足不了现在的需求;在数据的质量方面,尽管有大量的可用数据,但数据的质量一直是个困扰的难点,很多企业为了更准确的制定决策,花费大量的人力物力来提高他们的数据质量,但依然收效甚微。异构数据的整合技术和数据质量应该无缝的协同工作,数据整合过程是一个持续的过程,数据质量也是一样。目前在构建数据整合系统中面临的最大困难是如何解决数据的实时更新和数据准确度问题。针对数据实时更新问题,本文在传统ETL过程的基础上,利用适配器、实时线程等技术来判断时间戳,建立实时的数据装载模式。一旦原数据进行了更新,便实时的将数据装载到数据中心。针对数据的质量问题,本文提出一种数据逆向清理的方法,它利用数据整合过程中构建的数据来源树,在逆向清理时快速的查找原始数据的位置,并对原始数据进行反向清洗、匹配和修改,使原始数据的质量得到提高,为平台提供高质量的数据基础。此外,在数据的质量评估方面,本文在贝叶斯网络、PC算法的基础上提出一种数据准确度评估方法—DAA方法,该方法通过对数据集构建网络,利用PC算法消除独立节点的边,再计算网络的平均度数的方法,能实现对两个数据集的准确度对比判断。本文对两个已知的贝叶斯网络运用DAA方法,并比较网络的度数得分来验证该方法的有效性。该方法的提出对人工智能和知识发现具有一定的研究意义。最后,对基于逆向清理的异构数据整合模型,在本地搜索服务项目中进行实际运用。本文设计并实现了商家数据整合系统的原型,并利用系统原型对数据整合过程和逆向清理过程进行实验验证,通过实地验证比较了原始数据整合前后和逆向清理前后的数据准确度。实验结果表明,实验证明整合后的数据准确度明显高于原始数据,提高平均值达到14.8%;且逆向清理后,原始数据的准确度平均提高了5.15%。实验结果充分说明了数据整合过程和逆向清理过程的有效性。