基于主动学习的数据清洗研究与实现

来源 :东华大学 | 被引量 : 0次 | 上传用户:ttt11121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今大数据时代背景下,数据质量直接影响相关任务的有效性。数据质量专家估计,错误的数据可能会使企业损失其系统执行预算总额的10%到20%,并且一个项目的执行可能需要花费40%到50%的项目预算在数据清洗中。数据清洗是一个耗时,耗力和繁琐的过程。数据质量的好坏直接影响企业决策和科研结果的正确性和有效性,因此,研究者提出了多种数据清理的方法,以便(半)自动地识别错误,并在可能的情况下纠正它们。
  在过去几年里,出现了大量基于完整性约束、统计或机器学习的数据清理方法。尽管它们具有适用性和通用性,但它们无法确保修改数据的正确性。为了提高这些方法的准确性,常用的方法有引入表格主数据和领域专家等。然而这些方法需要的资源是稀缺的,通常也很昂贵。本文在机器学习的数据清洗方法基础上,引入领域专家,将机器判定不确定的数据交与人清洗,在高效的清洗过程中,尽量减少人力资源的消耗,并使数据质量进一步的提升,且修改数据的正确性有一定的保证。
  本文使用主动学习技术,综合机器学习的高效性和人检查数据的可靠性,使得数据清洗过程高效且具有一定可靠性。同时,为了减少机器学习不可靠的修改建议,降低人检查数据的消耗,以及降低正确数据被修改错误的风险,本文在尽可能少修改数据的前提下,综合机器学习概率分类特性(本文采用朴素贝叶斯分类器),引入确定度指标实现以上目标。此外,本文还引入了确定度增益指标,用于评估机器学习预测值与原始数据的分歧程度,以此判定哪条数据优先交与人检查和清洗。将分歧大的数据清洗后反馈给机器学习预测模型,使其不断学习未掌握的概率分布,提升预测的准确度,以此达到降低人参与度的目的。本文还在多个属性可能存在脏数据的背景下,完成多属性清洗模型的建模。
  本文在理论基础上,使用Python语言、基于Flask框架编写了数据清洗系统:基于主动学习的数据清洗系统( The Active Learning Based Data Cleaning System,简称ADC)。ADC系统具有界面简洁,功能清晰,操作便利等优点。
  实验结果表明,本文方法可以方便快捷地完成数据清洗任务,最终使数据质量有明显提升,且清洗过程中人的参与度不高。另外,本文还从多角度验证了本方法的有效性,同时在使用相同数据的情况下与使用机器学习的相关数据清洗研究对比,验证本方法是更有效的。
其他文献
计算机辅助设计软件的应用大大的缩短了汽车前照灯设计的周期并且降低了成本.在汽车前照灯CAD设计系统中一个非常重要的模块就是光型模拟系统,它能够直观并且细节化地显示所设计的前照灯的光型分布.光型模拟系统包括多种显示方法,比如等照度曲线,仿真模拟等等.该文将对仿真模拟前照灯的光型分布做出探讨.该文首先介绍了道路照明的发展历史和汽车前照灯的配光标准以及配光显示.然后,在介绍了汽车前照灯的CAD设计流程之
学位
频率和波达方(Direction.of-Arrival,DOA)是反映辐射源特征的两大重要参数,对这两种参数的精确估计在电子侦察、目标定位等方面有着广泛的应用。传统的信号参数估计方法都是基于奈奎斯特采样框架。互质采样是近几年来出现的一种新的稀疏采样理论,主要包含时域的互质采样和空域的互质阵列,互质采样技术可以有效地降低系统对射频前端硬件的要求和后续的数据运算量,因此受到国内外的广泛关注。时域互质采
学位
短波技术至今已取得了长足的发展,随着电子与通信技术的不断推陈出新,传统的短波系统正在向高速化、宽带化转变。现今短波通信带宽最高已扩展至24kHz,宽带短波通信正逐渐成为短波领域研究的热点。  本文深入研究最新颁发的美军标MIL-STD-188-110C,并将其与较早的美军标MIL-STD-188-110B进行了比较,研究其改进的部分。在此基础上,研究了MIL-STD-188-110c波形在宽带条件
学位
水下传感器网络是由具有声学通信与计算能力的传感器节点构成的网络系统,其是开展海洋数据监测处理的重要技术手段。相对常见的海洋通信系统,水下传感器网络具有基础设施简单、节点体积微小和设备成本低廉等优势,在海洋数据采集、环境监控、资源勘测、地震与海啸监控、海洋军事科学、辅助导航、水下机器人和AUV控制等方面具备广阔的应用前景。传统的水下传感器网络极大的依赖硬件基础架构,存在应用和服务受限,管控和维护困难
对称密码是密码科学的重点研究内容,被广泛应用于数字签名、电子支付等领域。近年来,随着无线技术的不断发展,物联网正在逐步深入到人们生活的各个领域中,但由于计算处理设备容量有限,传统的密码算法不能有效地保证其中的数据安全。轻量级对称密码正是因此应运而生,它通过改变算法中所使用的一些组件来保证数据安全,具有分组长度短、结构简单、资源消耗少等特点。然而,在实际应用中,轻量级对称密码算法的硬件载体可能会受到
随着科技和文化的发展,服装已不再是过去保暖的工具,它更是展现自我的方式。如今面对海量的服装数据,传统的服装推荐虽能达到良好的推荐效果,但由于过分依赖用户历史行为数据而经常出现冷启动和数据稀疏问题,同时因为忽略上下文环境,导致推荐结果达不到用户特定场景下的需求。因此,对服装个性化推荐的研究变得十分有意义。  知识图谱的本质是语义网络,它揭示了世间万物之间的关系。而服装本身自带了诸多属性和知识,但目前
学位
随着光伏发电提供的电量在世界总电量中的比重逐年增加,光伏发电在日常生活中所占的地位也越来越重要,这就要求光伏发电系统有更高的可靠性和安全性,同时,也对光伏发电系统中的主要电力设备——光伏逆变器的可靠性提出了更高的要求,一旦光伏逆变器发生故障而没有及时的诊断出来并将以处理,将会造成不可避免的重大损失。因而及时的故障诊断和定位是一个亟待解决的问题。基于对大量的运维数据的分析,可以发现实际运营中产生的光
糖尿病是一种常见的慢性病,据世卫组织发布的2016年公报统计,中国共有约1.1亿糖尿病患者和近4亿糖尿病前期人群。除了患者人数众多,糖尿病还是一种难以根治的终身性代谢性疾病,且其并发症很可能威胁到患者生命,所以需要尽早预防和及时控制。在糖尿病的临床治疗过程中,每名患者都需要不定期地多次去医院进行诊疗,治疗周期长、治愈较困难,导致了糖尿病专科领域的医生数量与患者数量严重失衡,因此,如果能够对糖尿病临
电子病历记录了患者在检查与治疗疾病过程中产生的重要临床数据,包含大量的医疗知识,通过挖掘和利用这些知识对于医疗健康事业的发展有重要作用。但是,目前大部分电子病历都以非结构化的文本形式存储,一是难以从这些杂乱、冗余及高复杂的文本数据直接获取规范并有价值的数据;二是无法直接应用人工智能算法去进一步挖掘分析。因此,电子病历的结构化问题成为人工智能时代研究的热点,在医疗领域中最重要的工作主要集中在实体识别
学位
在信息科技技术快速发展带动下,社交网络也在以前所未有的规模进行发展,对于社交网络使用的用户数量也在与日俱增。大量的用户信息给予了社交网络分析极大地便利,研究者对社交网络数据进行分析可以得到很多有用的信息。用户在使用社交网络技术的过程中,被动或者主动的将自己的个人隐私或与其他用户之间的关系等各种敏感信息公之于众。这些敏感信息的泄露对于用户造成很大的麻烦甚至是经济上的损失。因此对于社交网络中用户的隐私
学位