论文部分内容阅读
随着计算机技术的不断发展,出现了大量的海量数据。为了降低处理海量数据所消耗的时间和存储海量数据需要的空间,对海量数据进行数据分析前,需要先对其进行数据约简。数据约简效果的好坏直接关系着后续的数据分析的正确与否。因此,探索行之有效的数据约简效果评价方法,对海量数据处理有着重要的理论意义和现实意义。考虑到数据集中实例的变化和特征的变化会影响数据集的分类效果,综合了类半径、类间距和类实例数对分类精度的影响,分别给出了二分类数据集和多分类数据集的新宏观F1值计算公式,提出了一种基于分类的数据约简效果评价方法。该类方法适用于分类明显的数据集。从基于实例选择的数据约简的两个方面:数据编辑和数据压缩入手,分析了数据约简对相似性的影响。通过对数据集间的距离、数据集的分位数和数据集中实例的频数分布等三个统计特征的分析,提出了三种基于相似性的数据约简效果评价方法,分别是基于马氏距离、基于QQPlot图和基于统计直方图的方法。该类方法具有普适性,适用于任何数据集。论述了基于特征选择和基于实例选择的数据约简对约简前后数据集的自相关性产生的影响,分析了度量空间自相关性的Moran’s I统计量,提出了一种基于自相关性的数据约简效果评价方法。该类方法适用于空间自相关性比较高的空间数据集。通过对基于特征选择和基于实例选择的数据约简效果评价方法的研究,取得了若干研究成果,对提高海量数据的处理效率具有积极意义。