Learning on Evolving Data Streams

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:zy198187
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今数字时代,海量流式数据正在各种实际应用场景中不断的自动生成。由于数据流具有无限长度及演化的特性,使得学习算法必须在有限的时间内进行处理,因此如何开发高效的数据流学习算法一直是机器学习面临的挑战。为此,大量概念漂移的数据流学习算法在过去十年中相继提出。然而现有数据流挖掘仍面临一些新的问题和挑战。首先是数据的概念演化(即新类问题)。传统分类器往往聚焦固定的类别,而在实际场景中,新的类别可能会随时间推移而增加。其次是数据标签的稀少性问题。传统的数据流挖掘往往采用监督学习框架。然而数据流的样本标注将需要大量的时间和资源,现实场景往往仅能提供少量标签实例。因此如何设计一种可靠的半监督学习算法是面临的另一个挑战。另外,数据流中的另一个挑战就是数据的高维问题,它可能会严重影响学习算法的性能。
  针对这些问题,本文提出了一些新的数据流学习算法,其重要的贡献如下:
  1.针对概念演化问题,本文提出了一种新的数据流分类算法用于检测和学习新类。新提出的算法能够同时处理概念漂移和概念演化问题,同时能够处理数据流中的复杂的类分布,在噪声数据中有效区分概念漂移和演化。在人工和真实数据中表明新提出的方法与前沿方法相比,具有很好的分类和新类检测能力。
  2.针对数据流上的标签稀少问题,本文提出了一种新的在线可靠性半监督学习算法。研究通过引入微簇的概念来进行数据流分类和半监督学习。采用k-最近邻分类器的集成来提高分类的鲁棒性。该研究以在线方式进行,可以在低计算资源的环境中处理实时到达的流式数据。实验结果表明,该算法即使在标记数据较少的情况下仍具有很好的分类性能。
  3.针对数据流中数据的高维性及标签稀缺性问题,本文提出了一种新的半监督的流数据学习方法。为解决维数的诅咒问题,本文采用了降噪自动编码器将高维特征空间转换为精简,紧凑,信息量更大的低维特征表示。然后使用聚类进行标签标注来减少对真实类标签的依赖。另外,采用基于同步的动态聚类技术,将流数据压缩到动态微簇中以进一步进行分类。采用基于分歧的学习方法来应对概念漂移。实验结果表明,与许多最新算法相比,新提出的算法具有更好的性能。
其他文献
学位
学位
学位
学位
学位
学位
学位
学位
为了避免智能驾驶车辆在道路行驶过程中与其他人工驾驶车辆发生碰撞,需要预测人工驾驶车辆未来一段时间的行驶轨迹,以便智能车辆做出合理的决策规划,提高行驶安全性和乘坐舒适性。但目前预测车辆运动轨迹的方法大多停留在基于模型和基于数据驱动的理论研究阶段,存在预测时长短、处理场景单一、实时性和稳定性不好等缺点,无法投入实用。因此,本文设计了一种基于LSTM的车道序列预测算法并开发了一种实时动态车辆未来轨迹预测