集成单类分类算法及其应用研究

来源 :西安电子科技大学 | 被引量 : 5次 | 上传用户:rockykimi81
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
单类分类算法是机器学习中一种特殊的分类算法,在仅有正类训练样本的情况下构造描述模型,将正类与未知的负类区分。单类分类算法在二十余年的研究中取得了长足进步,并且在异常检测、目标识别、图像分类等各种应用问题中取得了良好的应用效果。与此同时,集成学习经随机森林和Boosting等代表性算法的推进,已成为机器学习研究领域最重要的元方法。将单类分类算法与集成学习方法结合,在单类分类算法性能提升、理论完善和解决实际问题等方面具有重要意义。本论文围绕模块集成的集成单类分类算法、同训练集的集成单类分类算法以及用于多分类的集成单类分类算法等三种集成方式进行了深入研究,并取得了以下研究成果。1.在模块集成的集成单类分类算法方面,设计了一种自动挖掘训练数据集局部密度特征的集成单类分类算法DBM-EOC(Density Based Modular Ensemble One-class Classifier),该算法以局部密度的样本距离度量指标为基础,构成树形结构并分别使用多个基单类分类器描述不同局部区域,最终形成稳定的单类描述模型。DBM-EOC算法对正类分布中可能包含的多簇聚类分布、多密度分布、不规则形状分布和噪声样本等复杂特性有较传统单类分类算法更好的描述能力。2.在基于聚类的集成单类分类算法方面,在深入分析现有基于聚类的集成单类分类方法存在的聚类簇个数难以确定,以及计算复杂度高这两个问题的基础上,首先以聚类稳定性分析为核心设计了集成单类分类算法ECS-SVDD(Ensemble Clustering based Stable Support Vector Data Description)。聚类稳定性分析的过程能够有效确定训练样本集中包含的聚类簇个数,根据聚类稳定性分析的结果构成SVDD基单类分类模型的最大体积集集成。实验结果说明ECS-SVDD较基单类分类算法性能较优。进一步针对此类算法通常较高的计算复杂度,同时以降低对聚类簇个数确定步骤依赖为目标,设计了快速结构化集成单类分类算法FS-EOCC(Fast Structural Ensemble One-Class Classifier)。FS-EOCC使用样本个数和基单类分类器的计算复杂度预先计算聚类簇个数,虽然该聚类簇个数通常大于真实值,但FS-EOCC的两轮聚类流程有效避免了过多聚类簇导致的描述区域空隙。FS-EOCC在聚类簇确定阶段采用的近似方法有效降低了基于聚类的集成单类分类算法的计算复杂度,使其与非集成单类分类算法的复杂度处于在同一数量级。3.在经典的同训练集集成单类分类算法研究方面,提出了序列集成的单类分类算法OCCBoost(One-Class Classification Boosting)。序列集成单类分类算法的难点主要在于如何确保序列集成的迭代过程能够在理论上提升集成模型的性能,以及在缺乏负类训练样本时如何精确评估基分类模型。OCCBoost算法将单类分类模型视为后验概率估计、排序和后处理的结合,引入针对排序学习的RankBoost框架增强单类分类模型的后验概率估计和排序过程。与此同时,OCCBoost使用了一种在单一特征维度上生成人工负类样本的算法,以及对应的单一维度基分类器,解决了无真实负类样本训练时评估模型的难题。OCCBoost虽然需要较多的迭代次数才能取得较理想的性能,但基分类器本身计算复杂度与非集成单类分类算法在同一数量级。4.在集成单类分类算法的后处理研究方面,将选择性集成这一集成模型后处理方法引入集成单类分类算法中,提出了PHD-EOC(Pruned Hybrid Diverse Ensemble One-class Classifier)算法。首先证明了集成算法对单类分类器的有效性,但基分类器集合的选择决定了集成分类器的最终性能。在此基础上,分析了集成单类分类器的多样性问题,并提出了混合多样性基分类器生成方法,构成具有足够多样性的基单类分类器集合。之后通过分析和拆分损失函数得到了一种针对集成单类分类算法的选择性集成算法。实验结果说明PHD-EOC算法能够在集成单类分类器的多样性和性能之间取得良好的平衡。5.机器学习算法的价值在于解决实际问题,因此本论文针对计算机安全领域重要的恶意程序行为检测问题,提出了一种基于集成单类分类的恶意程序检测算法FENOC(Framework based on ENsemble One-Class Classification)。在数据收集步骤,FENOC使用静态反汇编分析和动态沙盒分析两种方法收集完整的行为语义信息。在特征提取步骤,FENOC使用了多种语义层次上的特征提取方法,包括本论文提出的双层行为抽象算法BLBA(Bi-Layer Behavior Abstraction),能够在尽量保持语义信息的前提下将API函数序列嵌入向量空间。在机器学习步骤,FENOC使用一对单类分类模型构成的代价敏感分类器CosTOC(Cost-sensitive Twin One-class Classifier)作为基分类器,并使用随机子空间集成和基于聚类的集成方法进一步增强。实验结果说明FENOC构建的恶意程序检测模型能够取得比传统机器学习方法明显更低的误检率,并且保持相当的恶意程序检测率。尤其在训练数据集存在类别不平衡,以及恶意程序误检代价更高时效果较好。
其他文献
功能性消化不良(Funtional dyspepsia,FD)是消化内科临床诊疗中最常见的功能性胃肠病之一。罗马Ⅲ标准将FD定义为:在缺乏能解释症状的器质性、系统性或代谢性疾病证据的情况
在桥梁施工中,预应力技术是一种比较常用的技术,可以有效提升公路桥梁的稳定性和可靠性,延长其使用寿命,在桥梁维护和加固中更是发挥着非常重要的作用。做好预应力施工的有效
目的探讨沙库巴曲缬沙坦钠治疗心力衰竭伴2型糖尿病的临床效果。方法回顾性分析89例心力衰竭伴2型糖尿病患者的临床资料,根据治疗方法将其分为A组(44例,常规治疗)和B组(45例,
目的研究乳腺癌毛刺征与生物学指标ER、PR、C-erbB-2表达的相关性。方法回顾性分析我院2016年7月至2018年3月经病理证实的158例原发性乳腺癌患者的临床资料,术前均行乳腺X线
目的探讨野战内科疾病的调查研究方法,促进本学科的建设与发展。方法创建野战内科疾病调查的基本方法和资料收集方法,包括伤(病)员症状自评方法、病历、医嘱和护理记录表等。结果
应用型本科高校建设质量标准直接关系到应用型高校的改革方向和应用型技术技能型人才培养的质量。根据科学性、导向性、可操作性、系统性的原则,设计应用型本科高校建设质量
编者按:自主招生报名通过后,一般要进行笔考和面考,本刊邀请知名专家,讲解笔考、面考应对策略,展示分析笔考、面考试题,以供大家学习和训练,希望能为你的自主招生助上一臂之力哟!  一、面试的内容  1.对个人基本情况的考查:  主考官一般会根据考生在申报表或个人介绍中呈现的个人信息(如家庭、兴趣、特长、潜力、获奖情况、社会实践等)来出题。  2.对所参加面试的主办方的了解程度:  学校的历史、校训、专
分数阶微积分作为传统微积分在其微分或积分阶次上的一个延伸与推广,在对相当一部分复杂系统的建模上有着更准确、更简洁的优势。随着人们对被控系统建模精度、控制性能要求
有关圆的相关问题是不少学生的拦路虎,没有思路,无法下笔,对于已知条件不能进行有机整合转换,成为学生的突出问题.事实上,与圆相关的问题大都可以转化为四边形和三角形问题,
2014年6—9月,在河南省商丘市民权县布置田间小区试验,研究了施用含锌尿素对夏玉米产量及其构成要素、氮素累积量、氮肥利用率、籽粒锌含量及累积量的影响。结果表明,与施用