劣质数据按需清洗的关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jin1067061730
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着信息时代的发展,数据量急剧增长。而与此同时,劣质数据已经大量存在于各种类型的数据库中。由于劣质数据对数据挖掘算法结果的影响,数据质量问题受到了广泛的关注。数据质量和结果准确性之间的关系可以应用到选择适当的算法中,并能够决定该数据需要清洗的份额大小。然而,目前很少有研究着眼于挖掘这一关系。因此,本课题对缺失值、不一致值和冲突值在分类、聚类和回归算法中的影响进行实验比较和评估。基于实验发现,为算法的选择和数据清洗提供参考意见。在获得了不同类型的劣质数据对不同算法的具体影响之后,本课题着眼于对劣质数据的清洗。目前,在数据清洗领域中已经有了许多的研究成果。其中,众包数据清洗是一个新兴的方法,该方法能够清洗一些自动的方法很难清洗的值。然而,众包的时间和金钱代价很高。因此,需要减少众包清洗的代价,并保证其准确性。为了达到这一优化目标,本课题提出了知识库优化的众包数据清洗框架COSSET+。该框架结合了基于知识库的过滤器和众包清洗的优点。由于众包值的个数会影响COSSET+的代价,本课题需要选择一部分劣质数据送到众包平台清洗。本课题证明了众包值选择算法是NP难问题,并为该问题设计并实现了一个近似算法。最后,通过大量实验验证了COSSET+框架的准确率和效率。然而,由于数据清洗的代价昂贵,许多用户要求将数据清洗代价控制在有限的代价以内。因此,如何按照用户的需求选择性清洗数据成为了一个亟待解决的问题。为了解决这一问题,本课题以代价敏感决策树为例,提出了三种按需清洗算法,即基于分裂属性收益的分步按需清洗算法、基于分裂属性收益和清洗代价的一次性按需清洗算法和基于分裂属性收益和清洗代价的分步按需清洗算法。本课题通过实验验证了所提出算法的有效性。
其他文献
变电所综合自动化系统内部各个子系统都为低电平的弱电系统,它们工作在电磁干扰极其严重的环境中,很容易造成不能正常工作。从分析电力系统中电磁干扰的来源、传输途径入手,对应
按照中石化和油田实施“走出去”发展战略的要求,近年来,胜建集团加快了开拓海外市场的步伐。国际工程部作为胜建集团海外市场开发的主力军,从成立之日起,就把力强国际化人才队伍
工程造价控制是建设工程管理的重要组成部分,它贯穿于工程建设项目的全过程。对决策阶段、设计阶段、招投标阶段、施工阶段和竣工结算阶段5个阶段的工程遣价控制重点进行论述
随着电力信息化的加速发展,电力用户对业务系统数据质量有了更为深刻的认识,低下的数据质量甚至导致业务无法正常开展。.盘熹岔绍.了几种适合电力业务系统的典型数据质量检测方法
市政排水管道建设工程虽然施工工艺相对不太复杂,但由于项目大多在市区施工,环境复杂,既有的地下管线及电缆情况不明,在确保既有工程安全的前提下,还要考虑地上交通等因素的影响,导
本文就投资项目后评价应遵循的原则和评价内容进行了阐述,文中归纳了7种具有代表性的投资项目后评价方法,对如何利用这些指标进行综合评价进行了探讨。
煤矿统计工作是对煤矿实行科学管理的基础性工作和重要工作,是监督整个煤矿各项活动的重要手段和常用手段,是煤矿管理人员制定计划和决策的主要铱据。
绿色高效开采是煤炭开采的发展方向,对提高煤炭采出率、保护生态环境和实现煤矿可持续发展都具有十分重要的意义。本文分析我国矿井绿色高效开采方法的发展现状,对科学采矿具有