论文部分内容阅读
随着信息技术的不断发展与应用,人们每天可以收集到大量高速、动态和连续到达的信息,如传感器网络数据、电话记录、金融数据和商业交易数据等。传统静态数据集作为信息的载体已无法有效表达该类信息,因此,数据流作为一种新的数据类型被提出并广泛应用于上述领域。数据流作为一种连续到达的、潜在无限输入的数据有序序列,与传统静态数据集相比,具有以下几个特征:(1)数据高速到达;(2)数据规模宏大;(3)数据流是有序数据;(4)数据流具有动态变化性;(5)数据流往往伴随高维特性。上述特征使数据流无法被传统数据挖掘分类算法有效处理,因此对数据流挖掘算法的研究成为数据挖掘领域的热点之一。本文聚焦于数据流集成分类问题,围绕个体分类器生成与结论融合两个方面,对噪音数据流、高速数据流以及类标签不完整数据流的集成分类问题展开研究,主要研究工作如下:首先,针对利用噪音数据流训练集成分类器,集成分类器的分类准确率受噪音数据影响严重的问题,提出一种交叉验证容噪数据流集成分类器算法。交叉验证容噪分类算法是一种典型的噪音消除算法,可以在建立分类模型之前有效去除数据集中的噪音数据,使分类模型的分类准确率明显提高。由于目前并没有学者对其有效性进行理论证明,因此本文通过有噪音数据集的样本复杂度理论,对其有效性进行了严格的理论推导,并根据推导结果提出了一种新的交叉验证容噪分类算法,应用在数据流环境里,进一步提高了集成分类模型对噪音数据流的分类能力。其次,针对高速数据流数据到达速度远远超过处理器的处理能力,处理器无法利用全部数据训练个体分类器的问题,提出一种基于偏倚抽样的高速数据流集成分类器算法。抽样技术可以有效缩减待处理的数据规模,减少集成分类器的训练和更新时间,由于不同的抽样策略产生的训练数据集,建立集成分类器,其分类准确率具有明显区别。因此本文通过集成分类器期望错误的偏差方差分解,计算各个待抽样数据的期望错误贡献度,并通过集成分类器分类性能的几何分析,说明抽取期望错误贡献度大的数据作为训练数据更新集成分类器模型,可以有效提高集成分类器的分类准确率,并依此提出了基于偏倚抽样的高速数据流集成分类器算法。再次,针对数据流中数据类标签难以全部获得的问题,提出一种基于聚类假设的半监督数据流集成分类器算法。传统半监督分类算法虽然能够解决类标签不完整数据集的分类问题,但如何将其引入数据流环境,利用数据流特性提高半监督分类算法的分类准确率仍是一个有待解决的问题。本文通过基于聚类假设的半监督分类算法分类误差分析,表明在训练个体分类器时增加有标签数据集的规模可以有效减少分类算法的分类误差,并利用此结论,提出了基于聚类假设的半监督数据流集成分类器算法。最后,针对选择性集成分类算法训练一旦结束,被选择的个体分类器组合就以确定,无法针对具体数据进行动态调整的问题,提出一种两阶段数据流选择性集成分类器算法。本文首先通过分析说明,选择性集成分类算法获得的个体分类器集合,虽然在整体数据集上具有最优的分类性能,但对某具体数据分类时,并不一定是最优的个体分类器组合。因此,利用支持向量数据描述算法,动态自适应选择数据分类时的个体分类器集合,可以有效避免上述情况的发生,提高选择性集成分类器的分类性能。