论文部分内容阅读
随着信息采集和数据处理技术的深入推进,流数据已成为数据挖掘领域的一种重要存在形式,其最大的特点就是带有时间标记,因此也称作时间序列数据。由于流数据的动态多变特性,其所蕴含的概念分布会随着时间或环境变化而发生改变,如:数据源的分布变化可能导致隐含的概念知识与原始数据不同,即发生概念漂移;数据源产生机制变化可能导致数据中有新的模式类别出现,即发生概念演化。针对非稳态环境下流数据存在的不同概念变化问题,设计有效的流数据概念漂移及演化检测方法,有助于深入研究概念漂移及演化的本质特征,对于流数据的深入分析挖掘具有重要意义。本文针对概念漂移及概念演化的检测问题开展研究,具体研究内容包括两个方面:(1)针对流数据中同时存在的由样本分布稳定变化引起的真实概念漂移和由样本噪声及随机波动引起的伪概念漂移,提出一种基于在线性能测试的真伪概念漂移检测方法。该方法主要包括通过监测分类性能捕获有效波动位点、通过分组交叉测试提取一致波动位点和通过漂移位点的后续参考位点进行真伪性判定三个核心模块。该方法采用分组交叉测试对流数据的测试性能分布波动进行分析,消除了流数据中存在的正常随机波动导致的伪概念漂移对真实概念漂移检测的影响,提高概念漂移检测的精准性;其次,结合漂移位点后续参考位点的测试性能变化情况,对概念漂移位点做进一步区分,有效识别噪声引起的伪概念漂移与分布变化引起的真实概念漂移。该方法不仅可以准确检测存在的概念漂移位点,同时还能有效区分噪声及样本随机波动引起的伪概念漂移。(2)针对流数据中由于模式类别变化而导致的概念演化问题,提出一种基于完全随机森林的概念演化检测方法。该方法主要包括在线异常检测、模式类别标记以及学习器更新三个步骤。该方法首先基于完全随机森林构建异常样本检测器,利用检测器区分已知类样本与异常类样本;然后将K-近邻策略融入到模式类别标记过程,计算异常样本与已知模式类别以及新模式类的相似度,以进一步确定异常样本属于新颖类或已知异常类;最后根据模式类别分析结果进行学习器更新,提高了新模式类别的检测准确率。该方法的研究成果不仅能及时准确地检测流数据中存在的新颖模式类别,而且能够确保模型检测到更多新类样本。本文的研究工作为流数据中存在的概念漂移及概念演化的定位、分析、建模及挖掘提供了有效路径,提高了流数据中数据分布及标签类别改变时的模型适应能力,可为非稳态环境下的流数据分析挖掘提供精准指导和模型保障。