数据清洗算法的研究与应用

被引量 : 0次 | 上传用户:btlovers
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,组织的管理人员进行决策分析时对数据的依赖性越来越强。于是在数据库的基础上产生了能够满足决策分析所需要的数据环境—数据仓库。但是在构建数据仓库的过程中,从异构的数据源中导入的数据中存在各种质量问题,使得应用于数据仓库前端的决策支持系统产生错误的分析结果,影响信息服务的质量。所以必须对其进行数据清洗来提高其质量。数据清洗正在成为数据仓库和数据挖掘领域,乃至网络数据处理的一个重要课题。 本文首先对数据清洗的知识进行了全面和详细的描述,介绍了数据清洗的概念、意义和国内外研究与应用的现状。对数据清洗技术的原理、方法、评价标准以及基本流程进行了分析和总结。其中重点对属性清洗及重复记录清洗所用到的技术和各种算法进行了深入的研究,并提出了相应的改进算法。 在属性清洗中,简单介绍了属性清洗的基本知识和方法,重点研究了如何应用统计分析和人工智能的技术自动检测数据集中属性值的错误,并给出了在数据集上的实验结果及结论。 在重复记录清洗中,首先介绍了重复记录清洗的相关知识和基本流程,然后分别就流程中各个步骤所涉及的关键算法进行了深入的研究,并针对各步中算法的缺陷进行了改进。主要包括:① 预处理步骤中,改进的排序关键字对数据集排序的方法;② 重复记录检测步骤中,针对中文字段值的特点提出的基于编辑距离的字段匹配算法和缩写发现算法;提出了利用有效权值和长度过滤的优化算法进行记录匹配,减少重复记录的检测时间,提高算法的效率;③ 在数据库级上对重复记录进行聚类的步骤中,针对传统的SNM方法的两个缺陷提出了改进的SNM算法,实验结果表明,改进的SNM算法要优于传统的算法。 最后,为解决构建青岛市港务局数据仓库的过程中遇到的数据质量和数据清洗问题,结合前面进行的研究工作设计了一个实验性的数据清洗工具。设计该工具的目的是对这些数据进行数据清洗,同时对本文中提出的改进的算法的有效性进行检验和验证。结果表明改进的算法有较好的效果,基本上能达到实际应用的要求。 在本文的结尾,对所做的工作进行了总结,并对未来数据清洗技术的研究方向进行了展望。
其他文献
支气管哮喘(bronchial asthma)简称哮喘,是以嗜酸性粒细胞浸润为主、多种炎症细胞介导的慢性变态反应性炎症疾病。哮喘是一种最为常见、多发的变态反应性疾病,目前全球患者近3
目的:为了观察中药复方颈腰痛Ⅰ号对神经根型颈椎病模型大鼠血浆中6—酮—前列腺素F1α6-Keto-PGF1α含量的影响,从而了解颈腰痛Ⅰ号对神经根型颈椎病的治疗机理。方法:将40
石墨烯的导电、导热以及机械性能优异,是制备先进金属基纳米复合材料理想的增强相。本文总结了近年来关于石墨烯增强金属基纳米复合材料研究的最新进展,内容包括该材料的制备
目的:从对气道重构的干预作用的角度探讨穴位敷贴治疗支气管哮喘的机理,为临床上防治哮喘提供新的思路和线索。方法:结合以往研究的经验和文献记载的方法进行造模:选择豚鼠作
随着IP 网络的迅速发展,网络规模日益扩大,复杂程度不断提高,承载的业务也越来越多样,从而发生故障的概率也越来越高。如果网络出现故障或运行状态不佳,会导致运营效率的下降
根据三向压电式加速度传感器的力学模型,本文推导出其工作方程式及传递函数。在分析其加速度频响特性的基础上,对X、Y、Z三向特性作了实验。本文的分析和实验结果对这种传感
信用风险评估方法研究是国内外金融理论研究的热点,本文以信息经济学原理为指导,以计量经济学为主要手段,针对国内银行信用风险管理中存在诸多问题及风险量化研究的严重不足,
本文介绍了社会融资规模概念的提出及内涵,利用中国人民银行编制并发布的社会融资规模数据,着重分析了中国社会融资规模的特征及社会融资规模与主要经济指标的相关性。发现中
<正>纸质图书作为传统的阅读方式已经延续上千年了,但是近十几年来,由于电脑尤其是互联网和网民人数的迅猛发展,不断分流纸质图书的消费者群体,以纸质图书作为曾经几乎是唯一
市场经济的竞争在根本上是企业的竞争,但企业的竞争在一定程度上是其管理者之间的竞争。现代企业中,如何建立有效的激励约束机制调动管理者的积极性,是企业改革中的一个重要