基于Memcached的数据清洗系统设计与实现

来源 :厦门大学 | 被引量 : 0次 | 上传用户：zhangdeting

【摘要】

：

目前数据格式错误、不同来源的数据使用不同的标识等,脏数据大量存在,例如:字母拼写错误、打印格式不一致、数据值不合法、数据空值、简写大写不规范、同一实体的多种表示(重

【作者】

：

邱锋兴

【出处】

：

厦门大学

【发表日期】

：

2004年期

【关键词】

：

内存数据库 Memcached 数据清洗

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目前数据格式错误、不同来源的数据使用不同的标识等,脏数据大量存在,例如:字母拼写错误、打印格式不一致、数据值不合法、数据空值、简写大写不规范、同一实体的多种表示(重复)、引用完整性不统一等;对海量的数据进行清洗处理的时候需性能比较高的专业服务器,对于个人数据分析人员或企业都会增加额外的硬件开支。但是目前其实有大量的计算机节点(个人PC机或专用服务器)都处于性能过剩状态。在数据挖掘和分析的过程中会搜集到大量的未分类、未格式转换及未清洗的数据文件,这些数据中蕴含着丰富的关联关系可以挖掘,但是想从海量的数据中挖掘出有价值的数据就需要进行分类、标识、格式转换和清洗,如果是人工参与完成,费时又费力,最后清洗出来的数据的质量不高;这样的话就需要将这些工作标准化、自动化。但是对于海量的数据文件的清洗工作,处理机器的性能会要求比较高,每次清洗的数据的规模都不一样的,如果一次增加了一批性能好的处理机器的话,就有可能会资源的浪费。本系统将数据清洗系统设计成数据载入模块、数据清洗规则模块、数据处理模块、数据分析模块,使用内存数据库Memcached作为中间缓存服务器,使得每个模块都能够独立运行,使用Memcached进行数据交换。通过使用Memcached分布式缓存服务器作为这个系统所有模块的中间数据的交换队列,由于Memcached高性能特性这个系统将平常办公的PC或现成可用的服务器联接起来形成一个大规模的数据分类和清洗的系统,通过最大限度的整合现有的硬件资源和网络资源来并行分类和清洗大规模的数据。在进行数据挖掘的前期通过此系统可以生成标识好、结构化的数据,为后期的数据挖掘和分析工作的完整性和可靠性提供了比较好的前提条件。

其他文献

结肠癌患者平均血小板容积变化及其临床意义

目的分析结肠癌患者平均血小板容积（MPV）升高的临床意义.方法选择2014年9月-2016年9月在武汉市汉阳医院及武汉大学人民医院消化内科首次诊断为结肠癌患者146例作为研究对象,

期刊

结肠癌血小板计数平均血小板容积诊断价值Colon cancerMean platelet volumeDiagnostic value

从“九窍不和,皆属胃病”论治中风后吞咽困难

梳理了"九窃不和,皆属胃病"理论的发展脉络,认为"九窍不和,皆属胃病"理论渊源可上溯到《黄帝内经》,经叶桂、吴鞠通将此理论完善。咽喉亦属中医九窍中的口窍,结合"九窍不和,

期刊

中风吞咽困难脾胃九窍不和

印度高等职业教育治理的经验与启示研究

党的十八届三中全会正式提出“推进国家治理体系和治理能力现代化”。在国家政治体制改革的大背景下,高等职业教育作为国家公共事业、现代职业教育体系和人力资源开发的重要

学位

印度高等职业教育治理多元主体责权平衡

基于Memcached的数据清洗系统设计与实现

其他学术论文