论文部分内容阅读
在当今数字时代,海量流式数据正在各种实际应用场景中不断的自动生成。由于数据流具有无限长度及演化的特性,使得学习算法必须在有限的时间内进行处理,因此如何开发高效的数据流学习算法一直是机器学习面临的挑战。为此,大量概念漂移的数据流学习算法在过去十年中相继提出。然而现有数据流挖掘仍面临一些新的问题和挑战。首先是数据的概念演化(即新类问题)。传统分类器往往聚焦固定的类别,而在实际场景中,新的类别可能会随时间推移而增加。其次是数据标签的稀少性问题。传统的数据流挖掘往往采用监督学习框架。然而数据流的样本标注将需要大量的时间和资源,现实场景往往仅能提供少量标签实例。因此如何设计一种可靠的半监督学习算法是面临的另一个挑战。另外,数据流中的另一个挑战就是数据的高维问题,它可能会严重影响学习算法的性能。
针对这些问题,本文提出了一些新的数据流学习算法,其重要的贡献如下:
1.针对概念演化问题,本文提出了一种新的数据流分类算法用于检测和学习新类。新提出的算法能够同时处理概念漂移和概念演化问题,同时能够处理数据流中的复杂的类分布,在噪声数据中有效区分概念漂移和演化。在人工和真实数据中表明新提出的方法与前沿方法相比,具有很好的分类和新类检测能力。
2.针对数据流上的标签稀少问题,本文提出了一种新的在线可靠性半监督学习算法。研究通过引入微簇的概念来进行数据流分类和半监督学习。采用k-最近邻分类器的集成来提高分类的鲁棒性。该研究以在线方式进行,可以在低计算资源的环境中处理实时到达的流式数据。实验结果表明,该算法即使在标记数据较少的情况下仍具有很好的分类性能。
3.针对数据流中数据的高维性及标签稀缺性问题,本文提出了一种新的半监督的流数据学习方法。为解决维数的诅咒问题,本文采用了降噪自动编码器将高维特征空间转换为精简,紧凑,信息量更大的低维特征表示。然后使用聚类进行标签标注来减少对真实类标签的依赖。另外,采用基于同步的动态聚类技术,将流数据压缩到动态微簇中以进一步进行分类。采用基于分歧的学习方法来应对概念漂移。实验结果表明,与许多最新算法相比,新提出的算法具有更好的性能。
针对这些问题,本文提出了一些新的数据流学习算法,其重要的贡献如下:
1.针对概念演化问题,本文提出了一种新的数据流分类算法用于检测和学习新类。新提出的算法能够同时处理概念漂移和概念演化问题,同时能够处理数据流中的复杂的类分布,在噪声数据中有效区分概念漂移和演化。在人工和真实数据中表明新提出的方法与前沿方法相比,具有很好的分类和新类检测能力。
2.针对数据流上的标签稀少问题,本文提出了一种新的在线可靠性半监督学习算法。研究通过引入微簇的概念来进行数据流分类和半监督学习。采用k-最近邻分类器的集成来提高分类的鲁棒性。该研究以在线方式进行,可以在低计算资源的环境中处理实时到达的流式数据。实验结果表明,该算法即使在标记数据较少的情况下仍具有很好的分类性能。
3.针对数据流中数据的高维性及标签稀缺性问题,本文提出了一种新的半监督的流数据学习方法。为解决维数的诅咒问题,本文采用了降噪自动编码器将高维特征空间转换为精简,紧凑,信息量更大的低维特征表示。然后使用聚类进行标签标注来减少对真实类标签的依赖。另外,采用基于同步的动态聚类技术,将流数据压缩到动态微簇中以进一步进行分类。采用基于分歧的学习方法来应对概念漂移。实验结果表明,与许多最新算法相比,新提出的算法具有更好的性能。