基于DBSCAN算法的相似重复记录检测方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:xiyufeike
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,决策人员在进行决策分析时对各方面信息和数据的依赖性越来越强,于是在数据库的基础上产生了满足决策分析所需要的数据环境—数据仓库。在构建数据仓库的过程中,其数据源是以异构形态分布的,这就使得导入数据仓库的数据存在问题,致使应用于数据仓库前端的决策支持系统的分析结果受到影响,从而影响决策支持系统的服务的质量。因此,企业数据质量管理正在获得越来越多的关注,数据清洗也正在成为数据仓库和数据挖掘乃至网络数据处理的一个重要课题,而相似重复记录的检测是完成数据清洗的关键。本文首先对数据清洗的知识进行了全面阐述,介绍了数据清洗的概念、意义和国内外研究现状,并对数据清洗技术的原理、方法、评价标准以及基本流程进行了分析和总结。在此基础上,论文详细讨论了相似重复记录检测所用到的相关知识和基本算法,对字段匹配和记录的相似性进行了深入的研究,并针对各步中存在的问题进行了改进,相似重复记录检测过程中,应用DBSCAN聚类算法对数据集中的记录进行聚类,DBSCAN具有聚类快,抗噪声能力强,能够发现任意形状簇的优势,但在对记录中的字符型变量转换为空间中的向量坐标时,用到了字符的ASCII码,这样就会把本来不重复的记录归为一类,而且该聚类的特点,是根据区域的连通性来逐渐聚类,所以也会把一些记录区别比较大的记录也聚在同一个类中,在这种情形下采用pair-wise比较算法对聚类之后的每个类中的记录进行一次记录比较,以便更加准确的发现相似重复记录。用DBSCAN聚类算法和pair-wise算法(称为改进的算法)对一个大的数据集进行测试,结果表明准确率有了一定的提高。在本文的结尾,对所做的工作进行了总结,并提出了下一步的研究重点。
其他文献
随着Web服务技术的日益成熟,越来越多的稳定易用的Web服务共享在网络上。Web服务也越来越多的应用于商业和企业中。在经济全球化发展的影响下,现代商业和企业中对信息共享,协同
本研究从理论上对医学生职业素质综合评价问题作了科学性思考,提出了发展性的评价观及其应遵循的六个“统一”的原则。 本研究通过查阅相关资料、抽样调查、统计分析等方法
随着网络技术的迅速发展和J2EE平台的广泛应用,基于B/S的多层Web体系结构逐渐发展成为Web应用开发的主流。但仍然存在程序可重用程度低、维护工作繁琐等不足,因此,如何组织应用程
计算机技术的快速发展将人类社会带入了信息化时代,随着计算机网络技术和通信技术的相互融合,出现了以这两项技术为基础的一个全新的领域---计算机支持的协同工作(Computer S
遥感技术在环境监测、国土资源勘探、军事侦察以及考古等许多领域中发挥着越来越重要作用。而航空遥感以其特有的机动灵活和反应快速的特性,在应对各种突发事件以及各种灾害的
分布式文件系统自上世纪70年代出现以来,经过30多年的发展,已经逐渐趋向成熟,在数据处理、信息服务、商业系统、教育科研等各个领域都有广泛的应用。分布式并行文件系统(DPFS
近年来,随着计算机技术的飞速发展,嵌入式系统的应用越来越广泛。随着对嵌入式系统的要求越来越高,嵌入式系统的图形用户界面(Graphic USer Interface)对于嵌入式系统来说就
近几年来,基于角色的访问控制RBAC(Role-Base Access Control)作为访问控制的一个领域得到了迅速发展。其基本思想是通过角色来实现用户与权限之间的逻辑隔离,从而简化对访问
在大数据时代,数据流编程语言相对传统的面向对象的编程语言有着明显的优势,但是在任务调度优化的过程中,要得到负载均衡的划分结果并非易事。特别是在多媒体领域,数据流程序
网络编码(NC)自问世以来便受到广大学者的青睐。通过改变传统网络中路由的存储—转发模式,把编码的观念加入到中继节点中。采用这种策略,我们能够实现网络容量最大的目的。由于