基于孤立森林的感知数据异常检测方法研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:yusheng05
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着云计算和物联网等技术的不断发展,传感器作为物联网感知层信息采集的关键设备采集并存储了大量感知数据。对感知数据进行数据挖掘,提取出有价值的信息,能够更好的感知现实世界,并及时采取适当行动和有效措施。检测各种应用场景中的异常值是数据挖掘中最关键的基本任务之一,因此,异常检测技术受到国内外学术界广泛关注。感知数据具有数据量大、特征维度高和特征关联性复杂等特点,现有感知数据异常检测算法未能有效应对上述特点带来的挑战,导致异常检测效率和准确率还较低。本文尝试从多角度解决异常检测中存在的问题,主要针对原始数据集中特征维度高、异常数据稀疏和边界模糊的问题,优化设计检测模型中的剪枝降维和采样训练阶段:减少算法计算量,提高基分类器检测能力和多样性;针对异常检测模型中未考虑数据分布和局部异常检测能力较差的问题,优化设计检测模型中的局部异常因子定义和邻域考虑范围,兼顾模型准确率和模型检测速度。本文的主要研究内容概括如下:(1)针对异常数据稀疏与边界模糊的问题,提出了基于箱型图采样的孤立森林异常检测模型(Box Sample Isolation Forest,BS-i Forest)。BS-i Forest模型首先使用箱型图(Box Plot)对随机采样的子样本集进行初步检测,将存在异常值概率更大的集合用于训练基分类器,解决了异常数据稀疏问题。然后,BS-i Forest模型计算基分类器分类能力和相似性得到适应度,根据适应度从中选取较优的基分类器组成森林,提高了孤立森林稳定性。最后,BS-i Forest模型对处于边界模糊区域的样本利用相似度较高的一部分样本进行联合判断,解决了单一判断阈值存在的边界模糊问题。(2)针对维度灾难问题,提出了基于混合局部偏差系数的孤立森林异常检测模型(Hybrid Local Deviation Coefficient Isolation Forest,HLDC-i Forest)。HLDC-i Forest模型首先利用每个数据点的特征值计算稀疏度描述其数据分布,并利用最小描述长度来划分稀疏稠密区域,对稠密区域中的无关数据和特征进行删除,解决了大数据集计算复杂度高的问题。然后,使用孤立森林(Isolation Forest,i Forest)中的数据隔离机制提取异常候选集。最后,重新定义异常得分计算方式,综合考虑邻域和反向邻域对象,解决了孤立森林局部异常检测能力差的问题。(3)分别设计实现了异常检测模型BS-i Forest和HLDC-i Forest。为了验证BS-i Forest模型和HLDC-i Forest模型的异常检测性能,在三个实际场景下由传感器感知的数据形成的数据集和Smtp数据集上进行了实验。相比其他i Forest模型,AUC分别提升了3.62%、1.8%、0.39%和3.44%,实验结果表明BS-i Forest模型和HLDC-i Forest模型能有效提高异常检测能力。
其他文献
地震中,近断层区域是地震能量集中释放的区域,因此在该区域的土木工程破坏往往也比较严重,是抗震设防应该重点关注的区域,然而近年来的实际震害、地震动记录分析都表明近断层区域的地震有区别于远场记录的显著特征,方向性效应、滑冲效应、竖向效应等陆续被揭示。这些近断层地震特性决定了依据常规地震动进行的抗震分析难以全面反映结构在实际地震中的近断层地震响应。国内外当前的多数研究希望通过调整抗震设计参数和设计谱来反
主要针对无人集群在环境复杂、空间狭小的城市进行作战的难点,通过无人集群系统模型构建、决策与协同控制算法研究、数字仿真系统设计,完成复杂城市作战环境下集群自组织行为数学模型构建,基于强化学习的无人机搜索/攻击行为控制方法设计研究,在回路仿真系统构建硬件,形成具有自主知识产权的创新型研究成果,为无人集群系统的实战化运用提供基础理论、设计方法与关键技术支撑。
为验证在高寒环境下能够安全运行,民用飞机需开展整机级高寒专项试验。总结了民用飞机高寒专项试验地点的环境条件,包括国内机场气象分析、国外机场气象分析、气候实验室环境条件,针对气候实验室及海拉尔东山机场论证了试验窗口期选取建议,梳理了试验期间环境温度测量、机上数据读取、系统参数测量相关测量内容及注意事项,并对民用飞机在气候实验室和海拉尔东山机场的冷浸透前检查、冷浸透期间检查、冷浸透后检查和海拉尔东山机
荀子有云:“足国之道,节用裕民,而善臧其余。”“过紧日子”已经成为行政事业单位预算管理的基本遵循。本文结合预算持续压减的严峻形势,深入分析研判“过紧日子”对财务预算管理工作的影响,探索深化预算管理的工作思路,提出进一步加强行政事业单位预算管理的有效措施。
航空发动机旋转件的冰脱落会对进气系统造成不能接受的机械损伤,因此需要对旋转脱冰现象进行研究。脱冰研究主要分为两部分:冰风洞实验室的旋转脱冰试验和基于有限元软件的仿真计算。通过试验得到了不同工况下冰脱落时的冰型、结冰质量和密度等相关数据。通过仿真计算得到附着在固体表面冰的应力分布情况。试验结果显示,在较低温度下形成的霜冰相比于较高温度下形成的明冰更难发生冰脱落现象。仿真结果显示,霜冰内聚力呈现小于剪
党的十九届六中全会指出,高质量发展是建设社会主义现代化国家的必由之路。会计事务所应当顺应时代潮流,以事务所高质量发展为目标,实现注册会计师行业的可持续发展。基于此,本文从事务所高质量发展的内涵出发,分析目前会计事务所的现状和实现高质量发展面临的难题,进而尝试性提出推进会计事务所高质量发展的措施。
随着武器装备复杂性的不断增加,供配电系统的可靠性和稳定性要求与日俱增。为了对供配电系统运行调试过程中产生的大量动态数据进行存储、管理和应用分析,实现供配电系统的全面监测和故障前有效干预,针对系统运行过程中产生的大量时序数据,基于InfluxDB时序数据库,提出了供配电系统的动态数据建模。模型包括数据采集、数据存储、数据管理、数据智能分析等4部分,该模型具备高效的数据存储、读取、管理和分析能力,可实
在《白雪乌鸦》中,作家迟子建通过史实的穿插勾画东北鼠疫中的离合悲欢,死亡叙事使得小人物的生命被无限放大,又使历史的沉重在日常书写中被消解。在生与死的对立、压抑与释放的情感冲突中,作家温情地倾注伦理审判的光辉。凡此种种,共同给予小说灾难书写独特的静穆之美。
为了研究热气防冰传感器的测温特性,对一种航空发动机热气防冰传感器开展了冰风洞试验研究,获得了传感器测温特性随来流总温、热气流量、热气温度及水滴参数的变化结果。试验结果表明,热气参数对传感器的测温特性影响较大,随着热气温度和流量的升高,传感器测量偏差度增大;传感器使用环境受航空发动机工作状态的影响,在一定条件内,传感器测量偏差度在合理范围内波动;热气防冰传感器在过冷水滴结冰环境下存在结冰现象,结冰会