论文部分内容阅读
随着信息技术的发展,计算机已经成为人们日常生活中重要的一部分,娱乐休闲、商务办公乃至国民生产,都与计算机技术息息相关。然而,伴随其应用的广泛性,计算机安全威胁也无处不在,对我们日常的计算机使用造成了极大的困扰和危害。虽然目前广泛使用的病毒查杀软件已经为我们提供了一定的安全保障,但是由于不可预知的新型恶意代码层出不穷且传播迅速,造成了传统的检测技术具有一定的滞后性,使得计算机安全问题存在着长期的隐患。本文基于机器学习方法对恶意代码检测技术进行研究,针对传统检测技术对未知类型恶意代码的检测能力的薄弱之处,重点应用单类分类方法进行检测,全文主要工作从以下几个方面展开:(1)基于TF-IDF和LSI的特征表示方法本文以特征项在样本中出现的频率分布构成机器学习过程的知识结构,为规避原始数据集中冗余信息和噪声给学习带来的影响,使用词频-逆文档频率(TF-IDF)方法对原始数据进行量化表示,形成加权样本特征矩阵;最后,使用隐语义索引(LSI)方法进行特征重构,以加强特征的表示能力并减少计算消耗。(2)单类分类方法应用于恶意代码检测相对于正常代码样本,恶意代码样本往往难以获得,使用两类分类方法进行检测时极易出现数据不平衡问题,并由于样本知识所限对未知类型恶意代码的检测能力偏弱。单类分类方法以正常代码样本作为正例进行训练学习,可将异常类样本(包含已知类型恶意代码及未知类型恶意代码)全部拒绝于正常之外。实验表明,单类分类方法应用于恶意代码检测可获得良好的检测性能。(3)提出单类直推式支持向量机方法为有效利用大量未标号样本信息,本文将直推式学习机制引入到恶意代码检测中,以提高学习器的性能。针对恶意代码检测中异常样本相对较少的数据不平衡问题,对两分类直推式支持向量机进行适应性改造,提出了单类直推式支持向量机方法——OCTSVM。OCTSVM利用未标号样本对训练集进行自适应调整,使其分布更加准确化,从而提高其检测能力。(4)不平衡问题研究由于恶意代码样本的稀缺性以及大量无标记样本的存在,不平衡问题广泛存在于恶意代码检测中。不平衡问题使得分类器偏向于样本数较多的一类,影响分类效果及性能评估。单类直推式向量机通过对样本的自适应调整,提高了对不平衡问题的适应能力。而使用对不平衡免疫的AUC指标对分类方法进行度量,可获得比准确率方法更为可靠的性能评估。