面向噪声数据的组合分类及主动学习算法研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:jwqpl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据挖掘的实际应用当中,作为数据挖掘对象的源数据通常都是带有噪声的。人为的错误、测量设备的误差、数据收集过程的漏洞都是导致噪声的原因。传统的做法是在应用数据挖掘算法之前,对源数据进行去噪等数据预处理工作。但是这些工作繁琐、耗时且难以保证正确性,对数据挖掘的实际效率造成了不可忽视的影响。所以,通过改进数据挖掘算法以适应噪声数据,从而减轻或免去庞大的数据预处理工作,成为了当今数据挖掘界在理论研究方面的热点。   近些年来,在不确定性数据(噪声数据)处理的方向上已经出现了不少有意义的研究。大致上来说,数据的不确定性可以分为两大类:第一类是关注数据存在的不确定性;第二类是关注属性取值的不确定性。本文研究的是第二类不确定性数据,具体来说就是当前观测到的数据是由原始数据真值加上一个以概率密度分布表示的噪声所组成的,而且噪声的概率密度分布是已知的,但是原始数据真值的概率密度分布并不可知。针对这一类问题,本文总共提出了四个新算法:NoiseEnsemble、ActKnn、ActSVM、ActSVM_HD。NoiseEnsemble算法借鉴了组合分类算法的思想,目的在于分散噪声对分类器的影响,即每次在带噪声的训练集中随机抽样训练子分类器,最后通过投票决定测试数据的标签。ActKnn、ActSVM和ActSVM_HD算法都属于主动学习算法在噪声数据上的应用,只是各自在挑选用于主动学习的关键点时的方法有所不同:ActKnn算法用到了K近邻算法来识别带噪声训练集中的边界点并对其进行去噪还原;ActSVM算法则应用支持向量机原理找出带噪声训练集中的支持向量并进行去噪还原;而ActSVM_HD算法是对ActSVM算法的改进,就是只挑选距离分类超平面近的支持向量作去噪还原。   在实验方面,本文首先将NoiseEnsemble、ActKnn、ActSVM、ActSVM_HD这四个算法放在同一实验环境下进行对比,发现ActKnn、ActSVM、ActSVM_HD这三个应用了主动学习思想的算法获得了较好的分类精度,而ActSVM_HD)算法更是以较小的主动学习代价提高了可观的分类精度。然后本文对NoiseEnsemble算法进行了详细的实验分析以研究其算法特性,包括了对其组合规模、采样率、概率分布、在无噪声数据集上的表现等在不同参数设置下的观察分析。最后,本文还将ActKnn、ActSVM、ActSVM_HD这三个主动学习算法与随机主动学习算法的实验效果作比较,证明了ActKnn、ActSVM、ActSVM_HD算法所挑选出来进行主动学习的数据点都是有效的。  
其他文献
有界模型检测是寻找系统错误的一种符号化模型检测技术。它使用可满足性问题求解器求解模型检测问题,避免了其他模型检测技术面临的状态空间爆炸问题,然而它的计算时间复杂度是
如今,社交媒体在人们日常生活中扮演着越来越重要的角色。人们通过社交媒体发布各种各样的信息,参与对社会事件的讨论与交流。庞大的用户群之间的信息传播产生了海量的文本数
P2P,是peer-to-peer的缩写,或称为对等联网。它使人们可以直接连接到其他用户的计算机上交换文件,而不需像过去那样连接到服务器上进行浏览和下载。P2P发展过程中,结构化P2P
由于受各种因素的影响,采集到的指纹图像往往是一幅含多种噪声的灰度图像,图像中可能出现纹线粘连、纹线断裂或者对比度不均匀等情形。在这种情况下很难从图像中正确分离出指
随着人类基因组计划的完成,生命科学领域也进入了后基因时代。而基因和蛋白质也成为生命科学研究的重点之一。过去,生物科学家们关注的是单一的基因或蛋白质。现在,尤其是将
网格是构建在Internet上的一组新兴技术,其目标是在动态变化的、广域分布的异构虚拟组织间实现资源协同共享。在网格系统中,任务调度是其重要的组成部分,它根据任务信息采用
随着全球网络化、信息化的发展,信息检索技术在处理网上爆炸性增长的信息资源时显得尤为重要。但传统的信息检索技术主要是基于字符串匹配的关键字检索技术,对语义匹配的支持
SaaS(software as a service,软件即服务)模式是一种新型的软件服务模式,它的出现为企业信息化的发展注入了新的力量。目前我国部分企业信息化难以推进,有一个主要原因就是软硬件
信息感知、数据收集与处理是实现物理世界、计算世界和人类社会三元世界连通的纽带,将为计算机网络的持续发展注入新的燃料。随着物联网技术在经济社会各领域应用的拓展深化
电动机优化设计的最优解与许多因素有关,如模型的建立、优化变量的选取、其某些参量的确定等,最重要的是优化方法。传统的优化策略大多基于梯度计算,对函数的连续性、导数的存在