论文部分内容阅读
数据挖掘是知识发现的一种重要工具,它的目的是发现隐含在大量数据中有价值的模式信息。异常检测在数据挖掘的四大任务中占据着非常重要的地位,与预测模型、聚类分析和关联分析相比,它显得更有价值,更能体现数据挖掘的初衷。例如,一万个正常的记录很可能只覆盖一条规则,而十个异常很可能就意味着十条不同的规则。异常检测在多个领域中具有广泛的应用,如信用卡欺诈检测、药物研究、医疗分析、消费者行为分析、气象预报、网络入侵检测等。在信息产业高速发展的今天,随着业务规模的不断扩大和服务内容的不断更新,迫切需要企业采用分布式解决方案,用于管理复杂的异构环境,实现不同硬件设备、软件系统、网络环境及数据库系统之间的协同工作,这也给研究者和工程人员提出了新的挑战。在分布式环境下,异常检测需要考虑的主要问题是:如何利用最少传输提供最大的信息共享,同时要保证异常检测的准确性和各方数据的隐私性。为解决此问题,本文从数据挖掘的角度,针对分布式异常检测技术进行了创新性和探索性研究。主要研究内容为:1.从异常检测的定义出发,针对现有基于数据挖掘的各种异常检测方法进行了详细描述,并分析其各自优缺点和目前国内外相关技术的研究现状。2.通过对比集中式异常检测和分布式异常检测的不同,并结合集成学习方法,提出一套分布式异常检测框架。应用此框架,分别针对有监督学习和无监督学习的异常检测方法进行了研究,实验结果表明提出的分布式检测框架能够获得和集中式检测相当甚至更好的检测效果,同时能够保证各方数据的隐私性。3.研究分布式环境下数据流上的异常检测,同时提出一种响应式的概念漂移检测模型,能够准确的进行概念漂移数据流上的异常检测。4.研究分布式环境下高维数据的无监督异常检测,针对高维科学数据提出一种自适应谱聚类方法,并在分子动力学数值模拟科学数据上进行了实验,得到了很好的检测效果。5.研究分布式异常检测中的隐私保护问题,并针对支持向量机分类器提出了一种隐私保护支持向量机。通过实验证明,提出的方法能够保证数据的隐私性,同时能够达到和原支持向量机相当的检测效果。研究基于个性化隐私保护的数据挖掘问题,并提出一种基于数据扰动的个性化隐私保护方法用于分布式异常检测。