论文部分内容阅读
最小代价属性选择是数据挖掘的重要问题之一,问题的优化目标是得到总代价最小的属性子集。在实际数据的获取过程中,测量误差是不可避免的。基于测量误差,目前已有一些相关的最小代价属性选择方法。但这些方法存在效率上的问题,特别是对大规模数据集。为解决这一关键问题,提出一种基于误差数据的最小代价属性选择分治算法。该算法将数据集按列拆分为若干个互不相交的子数据集,实现对各子数据集的求解,分而治之。对于不同规模的数据集,其子数据集的大小及总个数并非固定不变,而是根据各数据集的规模自适应设定的。该算法通过拆分数据集来降低问