论文部分内容阅读
目前统计分析面临的数据大多不再是预先设定的样本数据,而是杂乱、不规范的大规模的海量数据,所以统计分析之前进行数据预处理是非常必要的.采用数据挖掘技术,对存在空缺值、噪声数据等不规范的数据集进行清理,对海量数据进行维规约和自动产生概念分层处理,以缩小数据集的规模.经过预处理的数据集能更好地适应原有统计方法,并提高了统计质量.