基于半监督学习的异常检测方法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:werr2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
异常检测旨在研究如何发现数据中不符合预期正常行为的模式和对象。通过对不同领域中异常模式或对象的分析和研究,有助于深入理解该领域的正常行为,及时发现其中的异常行为和模式,具有重要的研究意义和广泛的应用价值。在实际应用中,由于人工标注样本标签的代价高昂或难度较大,使得人们需要处理的对象数据往往是只有少量独立类标签或约束信息的半监督数据形式。为此,基于半监督学习的数据挖掘方法受到越来越多的关注。如何利用好数据中的少量监督信息,成为半监督学习中模型构建的关键。根据数据的产生形式,可以将异常检测方法分为面向静态数据和面向动态数据两大类。在面向静态数据的异常检测方法研究中,针对实际应用场景中不可避免的会产生异常或噪声数据的问题,如何设计并实现能够有效区分异常和正常样本的半监督鲁棒聚类方法是一个非常值得研究的问题。此外,在动态数据场景下,现有流数据异常检测方法往往有一个隐含的假设,即已知类的强内聚性(类内距离小)或待检测的异常类(新类)同训练数据中已知类的显著分离性(类间距离大)。然而,在实际流数据应用场景下,这种假设并不总是成立且新类检测通常充满困难和挑战。因此,本文针对上述问题,开展了静态数据上的半监督鲁棒聚类方法研究和动态流数据上的半监督困难新类检测方法研究。本文的主要工作包括以下内容:(1)针对实际应用中不可避免会存在异常和噪声数据的问题,本文提出了一个新的面向静态数据的半监督鲁棒聚类方法(RSSC)。该算法受数据扭曲思想和谱聚类的启发,利用监督信息与正则化拉普拉斯矩阵相结合的方式构造目标函数,将原始半监督数据集映射到新空间中,获得标准坐标系下的新数据。在新数据空间中,同一簇中的样本相互靠近,不同簇中的样本相互分离,异常形成异常簇,从而实现不同数据的有效区分。在16个真实数据集上同7个最新的对比算法的对比实验验证了RSSC的有效性。显著性分析展示了RSSC的平均序值为1.06,优于其他算法。此外,鲁棒性分析表明,当异常比从10%增加到100%时,即在异常数据比例较大的数据集上,RSSC仍然能够获得优异的聚类性能。(2)针对大多数现有数据流上的新类检测算法的隐含前提:已知类之间的强内聚性或者特征空间中新类和已知类之间的显著分离性,在实际应用场景中并不总是流数据固有特征的问题,本文提出了一个新的半监督流数据中困难新类检测框架(SSLDN)。SSLDN框架主要由三个部分组成:有效的新类检测器SSLDN-Forest、基于近邻信息的已知类分类器SSLDN-LL和高效的更新模型SSLDN-U组成。在8个数据集上同5个最新的对比算法的实验充分验证了SSLDN能够高效处理半监督流数据中新类和已知类之间不同程度分离场景下的新类检测问题。在进行长数据流模拟时,针对不同大小的数据,SSLDN的评价指标比其他算法好。在时间运行方面,SSLDN所用的时间与其他算法相比较短,表明SSLDN能够快速对流数据做出判断。
其他文献
目的 总结慢性阻塞性肺疾病(COPD)患者雾化吸入装置规范应用的最佳证据,为患者能够正确、有效使用吸入装置提供指导,为长期开展雾化吸入实践提供循证依据。方法 计算机检索国际指南图书馆(GIN)官网、新西兰指南工作组、欧洲呼吸协会、加拿大安大略注册护士协会(RNAO)官网、英国胸科协会(BTS)、中国指南网、英国国家临床医学研究所指南库(NICE)、JBI、Cochrane Library、BMJ、
期刊
DNA结合蛋白(DBPs)和RNA结合蛋白(RBPs)在基因调控和基因表达中起着至关重要的作用,包括转录和选择性剪接。此外,大量研究表明一些蛋白与人类的疾病相关。因此,准确识别出与DNA/RNA结合的蛋白具有重要意义。由于DBPs和RBPs在生物上具有相似的功能结构,传统方法需要人工提取特征以及需要耗费很大的成本和时间,无法满足目前大规模基因组数据进行测试的需求。因此,如何有效地识别出核酸绑定蛋白
学位
当前推荐算法中数据种类丰富且表示复杂,传统的推荐算法中使用的数据分析模型和方法,对精度提升效果不理想。缺乏统一的框架对复杂数据进行建模,即便是对同一类数据,数据中蕴含的信息也无法进行分类建模。因此针对以上问题,本文提出对信息进行分类,刻画数据中蕴含的各种信息,将数据中的有效信息挖掘出来,对信息进行相应的归类和建模。本文将用户和项目的交互数据蕴含的信息按照是否可以线性获取分为显式反馈信息和隐式反馈信
学位
融资市场集资预测一直是金融领域的一个热点研究课题,如融资市场中众筹活动的集资表现预测和众筹活动集资周期的预测。融资市场类别多种多样,如教育融资和创业融资等,很多科研人员针对特定融资市场做了相关集资预测研究。在教育类融资市场中,传统的算法更多的是利用历史数据和经验方法,这些传统的实证分析方法不能有效利用到现实生活中的社交关系和融资信息,很难精确地挖掘融资市场中众筹活动的融资能力。所以本文提出基于深度
学位
人手的姿势复杂多变,极小的手势形变就包含了丰富的信息,并且同一个人做出同一种手势,动作也不尽相同,这些都加大了手势检测的难度。手势识别是人机交互的关键技术,并且在很多的领域都有重要的应用。近年来基于深度学习的手势检测与识别技术发展迅猛,但是由于手势检测与识别容易受到光线变化和手势阴影等影响,因此面临着巨大的挑战。本文针对手势检测和识别任务的问题和挑战展开了如下研究:(1)为了解决传统方法难以应对手
学位
在车载网络系统中,信息传播离不开车辆与基础设施之间的交互。然而,交互过程常常受到恶意第三方的破坏,严重时可能威胁到驾驶者的生命安全,因此保护车辆相关信息以实现安全、高效的交互非常重要。信任机构通常在车载网络中扮演关键角色,需要与多个车辆进行交互。当信任机构向多辆车发送相同的消息时,需要与每辆车协商并发送不同的密文,存在冗余加密问题。尤其是在传输大量消息时,冗余加密问题会更加严重。同时,由于冗余操作
学位
随着科技的发展,人们获取和存储照片、视频的成本变得越来越低,而照片与视频中的人脸信息往往是人们关注的重点之一。因此,探索一种有效且高效地处理海量人脸信息的算法模型具有十分重要的研究价值和意义。人脸聚类是一种挖掘未标记人脸数据的方法。然而,由于人脸数据的规模非常庞大且特征分布十分复杂,导致一些传统聚类分析算法在处理这些真实人脸数据时表现较差。最近的研究通过使用图卷积网络(GCNs,Graph Con
学位
显著目标检测是计算机视觉领域中的一个重要研究课题,旨在研究人类视觉注意机制,利用算法模拟注意机制来检测图像中的显著目标。显著目标检测不仅推动了机器学习和人工智能等领域的理论研究,也成为很多工程应用如无人驾驶、人机交互中重要的解决方案。然而在一些特殊场景下,如前景和背景相似、复杂场景等,从可见光图像中准确地分割出显著目标非常困难,因此当下很多研究者将其他模态的信息引入显著目标检测任务,即多模态显著目
学位
随着越来越多的移动设备走进人们的生活,其产生的数据每年都在急剧地增长。数据聚合作为互联网中处理数据并进行决策性计算一项重要的技术,其通过云服务器对用户数据进行收集和分析,从而做出智能决策。然而,数据的收集可能涉及到用户隐私的问题。虽然目前已提出不少隐私保护数据聚合方案,但大多数方案采用了公钥同态密码机制,此类方案不仅计算成本高,而且资源开销也大。此外,由于移动设备质量的差异,不同用户提供的数据存在
学位
逻辑回归是机器学习中一种基本的二分类方法,在各种现实场景中有着广泛的应用。实践中,为了获得更好的分类效果,通常需要从多个来源收集大量样本来进行模型训练。这不可避免地导致训练样本中所包含的个人隐私信息的泄漏。针对这个问题,越来越多的研究开始致力于设计能够实现隐私保护的逻辑回归训练方案。目前,一些工作给出了适用于不同数据集分布场景的方案,使用这些方案可以在一定程度上保护训练过程中用户数据的隐私性。然而
学位