数据流集成分类器算法研究

被引量 : 0次 | 上传用户:panjintao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展与应用,人们每天可以收集到大量高速、动态和连续到达的信息,如传感器网络数据、电话记录、金融数据和商业交易数据等。传统静态数据集作为信息的载体已无法有效表达该类信息,因此,数据流作为一种新的数据类型被提出并广泛应用于上述领域。数据流作为一种连续到达的、潜在无限输入的数据有序序列,与传统静态数据集相比,具有以下几个特征:(1)数据高速到达;(2)数据规模宏大;(3)数据流是有序数据;(4)数据流具有动态变化性;(5)数据流往往伴随高维特性。上述特征使数据流无法被传统数据挖掘分类算法有效处理,因此对数据流挖掘算法的研究成为数据挖掘领域的热点之一。本文聚焦于数据流集成分类问题,围绕个体分类器生成与结论融合两个方面,对噪音数据流、高速数据流以及类标签不完整数据流的集成分类问题展开研究,主要研究工作如下:首先,针对利用噪音数据流训练集成分类器,集成分类器的分类准确率受噪音数据影响严重的问题,提出一种交叉验证容噪数据流集成分类器算法。交叉验证容噪分类算法是一种典型的噪音消除算法,可以在建立分类模型之前有效去除数据集中的噪音数据,使分类模型的分类准确率明显提高。由于目前并没有学者对其有效性进行理论证明,因此本文通过有噪音数据集的样本复杂度理论,对其有效性进行了严格的理论推导,并根据推导结果提出了一种新的交叉验证容噪分类算法,应用在数据流环境里,进一步提高了集成分类模型对噪音数据流的分类能力。其次,针对高速数据流数据到达速度远远超过处理器的处理能力,处理器无法利用全部数据训练个体分类器的问题,提出一种基于偏倚抽样的高速数据流集成分类器算法。抽样技术可以有效缩减待处理的数据规模,减少集成分类器的训练和更新时间,由于不同的抽样策略产生的训练数据集,建立集成分类器,其分类准确率具有明显区别。因此本文通过集成分类器期望错误的偏差方差分解,计算各个待抽样数据的期望错误贡献度,并通过集成分类器分类性能的几何分析,说明抽取期望错误贡献度大的数据作为训练数据更新集成分类器模型,可以有效提高集成分类器的分类准确率,并依此提出了基于偏倚抽样的高速数据流集成分类器算法。再次,针对数据流中数据类标签难以全部获得的问题,提出一种基于聚类假设的半监督数据流集成分类器算法。传统半监督分类算法虽然能够解决类标签不完整数据集的分类问题,但如何将其引入数据流环境,利用数据流特性提高半监督分类算法的分类准确率仍是一个有待解决的问题。本文通过基于聚类假设的半监督分类算法分类误差分析,表明在训练个体分类器时增加有标签数据集的规模可以有效减少分类算法的分类误差,并利用此结论,提出了基于聚类假设的半监督数据流集成分类器算法。最后,针对选择性集成分类算法训练一旦结束,被选择的个体分类器组合就以确定,无法针对具体数据进行动态调整的问题,提出一种两阶段数据流选择性集成分类器算法。本文首先通过分析说明,选择性集成分类算法获得的个体分类器集合,虽然在整体数据集上具有最优的分类性能,但对某具体数据分类时,并不一定是最优的个体分类器组合。因此,利用支持向量数据描述算法,动态自适应选择数据分类时的个体分类器集合,可以有效避免上述情况的发生,提高选择性集成分类器的分类性能。
其他文献
通过分析判断矩阵与其导出矩阵的关系 ,提出一种检验判断矩阵一致性的统计检验方法 ;当判断矩阵的一致性较差时 ,基于偏差矩阵中绝对值大的元素对判断矩阵一致性的影响 ,每次
介绍XML扩展型标记语言技术的发展与应用情况,全文有三部分内容:XML基本技术、XML发展动态和XML应用。
<正>从"名片管理工具"到"名片社交平台"的跃升,名片全能王似乎只有一步之遥。如果从"名片管理"到"名片社交"的路能够走通的话,那么"名片全能王"无疑走出了一条有"中国特色"的
目的探讨硝呋太尔制霉素阴道软胶囊(朗依)联合乳酸菌阴道胶囊治疗妊娠期阴道炎。方法分别将30例妊娠期阴道炎患者作为观察组和对照组,观察组联合应用硝呋太尔制霉素阴道软胶
语音合成芯片MSP50X3X的结构、原理、特性及压缩算法。通过以89C51、MSP50P34组成的低成本超大容量电子语音说明书的开发,详细介绍了开发这类超大容量语音合成系统的所需环境
西方文明虽有崇尚战争、赞美胜利的倾向,但这并不影响其传统武德文化放射注重战争正义和军人德性的光芒。西方传统武德文化的“正义必胜”战略思想、以“爱国主义”为核心的
评述了国内外近几十年来结构台风灾害风险评估的主要研究成果,包括台风危险性分析、承灾体研究、结构易损性评估、损失估算、减灾措施评估、风险评估的动态性、不确定性分析
目的探讨基线腹内压(IAP)水平与危重患者早期肠内营养(EEN)耐受性之间的关系,并确定其评价EEN耐受性的早期预警值。方法采用前瞻性研究方法,监测在ICU住院时间大于7 d并接受E
针对海空环境的特点,在提取海天线前进行有效的背景抑制和目标增强处理。在直线拟合法的基础上提出了一种剔除粗大点的改进方法,并利用Matlab对该方法进行了仿真试验。试验结
研究如何在数控镗铣中心上通过铣削方法达到屏蔽主泵大尺寸螺纹孔的起始部位去除不全螺纹部分的加工要求.通过研究确定要加工的第一个全扣位置、加工起始点所在的加工区域、