论文部分内容阅读
近年来,随着信息时代的发展,数据量急剧增长。而与此同时,劣质数据已经大量存在于各种类型的数据库中。由于劣质数据对数据挖掘算法结果的影响,数据质量问题受到了广泛的关注。数据质量和结果准确性之间的关系可以应用到选择适当的算法中,并能够决定该数据需要清洗的份额大小。然而,目前很少有研究着眼于挖掘这一关系。因此,本课题对缺失值、不一致值和冲突值在分类、聚类和回归算法中的影响进行实验比较和评估。基于实验发现,为算法的选择和数据清洗提供参考意见。在获得了不同类型的劣质数据对不同算法的具体影响之后,本课题着眼于对劣质数据的清洗。目前,在数据清洗领域中已经有了许多的研究成果。其中,众包数据清洗是一个新兴的方法,该方法能够清洗一些自动的方法很难清洗的值。然而,众包的时间和金钱代价很高。因此,需要减少众包清洗的代价,并保证其准确性。为了达到这一优化目标,本课题提出了知识库优化的众包数据清洗框架COSSET+。该框架结合了基于知识库的过滤器和众包清洗的优点。由于众包值的个数会影响COSSET+的代价,本课题需要选择一部分劣质数据送到众包平台清洗。本课题证明了众包值选择算法是NP难问题,并为该问题设计并实现了一个近似算法。最后,通过大量实验验证了COSSET+框架的准确率和效率。然而,由于数据清洗的代价昂贵,许多用户要求将数据清洗代价控制在有限的代价以内。因此,如何按照用户的需求选择性清洗数据成为了一个亟待解决的问题。为了解决这一问题,本课题以代价敏感决策树为例,提出了三种按需清洗算法,即基于分裂属性收益的分步按需清洗算法、基于分裂属性收益和清洗代价的一次性按需清洗算法和基于分裂属性收益和清洗代价的分步按需清洗算法。本课题通过实验验证了所提出算法的有效性。