大数据下数据预处理方法研究

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:imlym
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代下,数据类型和组织模式多样化、关联关系繁杂、质量良莠不齐等内在的复杂性使得数据的感知、表达、理解和计算等多个环节面临着巨大的挑战。数据预处理是数据分析、挖掘前一个非常重要的数据准备工作。一方面它可以保证挖掘数据的正确性和有效性,另一方面通过对数据格式和内容的调整,使数据更符合挖掘的需要。文中分析了预处理过程中的主要任务,总结了目前针对各类"脏数据"的几种常用的处理方法,重点阐述了数据在清洗、集成、变换和归约过程中的常用算法。通过各种预处理方法,清除冗余数据,纠正错误数据,完善残缺数据,甄选出必需的数据进行集成,使得数据信息精练化、数据格式一致化和数据存储集中化。在最精确、最可靠的最小数据集合上进行数据挖掘,大大减少了系统挖掘的开销,提高了知识发现的准确性、有效性和实用性。
其他文献
在3m×2m结冰风洞中,为实时监视风洞配套设备和试验部件防除冰状态,在风洞不同部段、三个试验段配套了电力线摄像监视系统和大屏幕显示系统。针对试验段摄像机处于低温、高湿
目的:探讨CXCR4特异性非肽类受体拮抗剂AMD3100对胃癌细胞增殖和侵袭能力的影响及其可能的分子机制。方法:Western blot方法检测不同转移潜能胃癌细胞系中CXCR4蛋白的表达水
在内蒙古河套地区硫酸钠盐渍化土壤布置田间试验,研究种植草木樨和施用脱硫石膏(30 t·hm-2)对盐渍化土壤的改良作用与效果。结果表明:春季灌溉洗盐大幅度降低土体土壤p H值
水泥生产过程中不仅产生大量烟尘、粉尘,还生成二氧化硫、氮氧化物、氟化物、二氧化碳、一氧化碳等有害气体而污染大气。本文对现有水泥行业废气治理设备的应用与创新应用进
IgG4相关性疾病(IgG4-RD)是一种与IgG4密切相关的系统性自身免疫性疾病。该疾病可累及多个系统,临床表现无特异性,主要表现为单个或多个器官弥漫性肿大,相关检查主要包括血清学