论文部分内容阅读
随着计算机和互联网技术的快速发展与广泛应用,计算机系统的安全受到严重的挑战,基于特征码检测法的计算机病毒检测技术,虽然能够有效地检测出已知各类病毒,但是对于新出现的病毒却无能为力,未知恶意代码的检测技术可以发现未知的恶意代码,有效地改善查杀总是落后于新病毒产生这一现状。本文在分析了基于字符串的贝叶斯方法和基于N-Gram的贝叶斯方法之后,发现朴素贝叶斯方法假设属性独立带来了检测精度降低的问题,为了解决这个问题,放弃条件独立性假设,在朴素贝叶斯的基础上增加属性间可能存在的依赖关系,用最短描述长度(MDL)度量贝叶斯网的构造,并实际应用压缩算法来解决问题。本文在MDL原则的指导下,提出了一种基于压缩算法的未知恶意代码检测技术,首先,忽略未知恶意代码结构将其看成字符串流,依据事先确定的阈值限制所抽取的最长模式,以实现处理效率和性能间的折衷;其次,将所抽取的模式按照其类别建立符合其统计特性的相应压缩字典,即正常代码和恶意代码字典;最后,通过判断利用正常代码和恶意代码字典对待测文件进行压缩得到不同的压缩率,依据最短描述原则将其归类为能取得最好压缩率的类别,从而达到检测未知恶意代码的目的。
本文的主要内容包括以下几点:
研究了常用的未知恶意代码检测技术及框架,包括特征提取与分类算法。分析了各种方法的原理及优缺点,并对基于字符串和N—Gram的贝叶斯检测方法进行实验,通过得到的结果分析相应算法存在的缺陷。
基于最短描述长度原则的指导下,提出了一种基于压缩算法的未知恶意代码检测方法,通过实验验证了本方法的性能,并同传统方法进行了对比,结果显示本方法确实能够有效地检测未知恶意代码,最后对实验结果进行了详细地分析。