论文部分内容阅读
目前数据格式错误、不同来源的数据使用不同的标识等,脏数据大量存在,例如:字母拼写错误、打印格式不一致、数据值不合法、数据空值、简写大写不规范、同一实体的多种表示(重复)、引用完整性不统一等;对海量的数据进行清洗处理的时候需性能比较高的专业服务器,对于个人数据分析人员或企业都会增加额外的硬件开支。但是目前其实有大量的计算机节点(个人PC机或专用服务器)都处于性能过剩状态。在数据挖掘和分析的过程中会搜集到大量的未分类、未格式转换及未清洗的数据文件,这些数据中蕴含着丰富的关联关系可以挖掘,但是想从海量的数据中挖掘出有价值的数据就需要进行分类、标识、格式转换和清洗,如果是人工参与完成,费时又费力,最后清洗出来的数据的质量不高;这样的话就需要将这些工作标准化、自动化。但是对于海量的数据文件的清洗工作,处理机器的性能会要求比较高,每次清洗的数据的规模都不一样的,如果一次增加了一批性能好的处理机器的话,就有可能会资源的浪费。本系统将数据清洗系统设计成数据载入模块、数据清洗规则模块、数据处理模块、数据分析模块,使用内存数据库Memcached作为中间缓存服务器,使得每个模块都能够独立运行,使用Memcached进行数据交换。通过使用Memcached分布式缓存服务器作为这个系统所有模块的中间数据的交换队列,由于Memcached高性能特性这个系统将平常办公的PC或现成可用的服务器联接起来形成一个大规模的数据分类和清洗的系统,通过最大限度的整合现有的硬件资源和网络资源来并行分类和清洗大规模的数据。在进行数据挖掘的前期通过此系统可以生成标识好、结构化的数据,为后期的数据挖掘和分析工作的完整性和可靠性提供了比较好的前提条件。