论文部分内容阅读
实际应用领域产生了大量的数据流,例如:电子商务交易记录、网络搜索请求、电信通话记录等,这些数据流中隐含着丰富的有价值的知识亟待挖掘。然而,由于数据流具有的快速性、无限性、连续性、多变性等特征,尤其是现实数据流中存在的概念漂移及其大量类标签缺失的问题,使得已有的分类方法面临巨大的挑战。因此,开展数据流环境下的概念漂移检测与分类方法研究具有重要的研究与应用价值。针对数据流分类任务中的概念漂移与类标签缺失等问题,本文开展了以下研究工作:(1)研究面向数据流环境的实时、低耗、抗噪的形式化描述模型;(2)基于构建的形式化描述模型,研究有效的概念漂移检测机制;(3)研究类标签缺失数据流(即不完全标记数据流)环境下的概念漂移检测与分类算法。主要研究内容如下:(1)不同于传统的静态数据,数据流具有快速、多变、无限、连续等新型数据特征,使得经典的数据挖掘分类模型如:决策树、神经网络、支持向量机等面临分类精度、时空性能等方面的挑战。为此,本文提出面向数据流环境的变体随机决策树(Variants of Random Decision Trees)的形式化描述模型,同时,基于此模型设计了ERDT (Ensembling Random Decision Trees)系列算法。与经典算法相比,该系列算法能快速适应数据流环境,提高分类精度与时空效率;(2)针对数据流中不同类型的概念漂移以及噪音在概念漂移检测中的影响,提出基于变体随机决策树模型的双阈值概念漂移检测方法,该方法能有效地从噪音数据中检测出不同类型的概念漂移,而基于此形成的数据流概念漂移检测与分类算法——ERDTC系列算法及其改进算法CDRDT在分类精度、时空开销方面比已有同类概念漂移数据流分类算法具有显著优势;(3)针对实际应用数据流中类标签大量缺失的问题,提出不完全标记数据流中概念漂移检测与分类算法——SuN算法。该算法采用增量式决策树模型将训练示例对应到叶子节点,进而在叶子节点采用聚类方法(如:k-Modes)生成聚类簇,最后利用带标签示例的信息标记无标签示例。同时,为适应数据流中的概念漂移现象,提出基于聚类簇差异度量的概念漂移检测方法。大量实验表明:与经典的数据流概念漂移检测与分类方法以及半监督学习分类方法相比,SuN算法在保证分类精度与标记无标签示例正确率的同时,能够适应数据流中的概念漂移,尤其是突变式与抽样变化的概念漂移;(4)进一步针对不完全标记数据流中重现概念漂移问题,提出面向连续属性数据流处理的重现概念漂移检测与分类算法——REDLLA算法。该算法采用k-Means在增量式构建决策树的叶子节点标记无标签示例;在此基础上,提出基于聚类簇差异度量的概念漂移检测的改进机制,即采用存储历史概念簇的机制,同时更新概念漂移的检测条件。实验表明:REDLLA算法能快速地适应重现概念漂移,同时,在分类精度、时间消耗等方面比同类的数据流分类算法具有显著优势;(5)以实际应用领域Yahoo网络购物数据与电厂电价调度数据为应用数据源,实验验证了所设计的数据流形式化描述模型、数据流概念漂移检测与分类方法(包括CDRDT、 SUN与REDLLA算法)在实际数据流分类问题处理的有效性。