论文部分内容阅读
近年来,垃圾邮件的泛滥严重影响了人们的网络交流和生活,其中图像型垃圾邮件在整个垃圾邮件中所占比重日趋加大。为遏止图像型垃圾邮件的泛滥,研究人员提出了基于不同特征集合的图像型垃圾邮件检测算法,但这些算法在时间效率和精度上无法兼顾。本文对图像型垃圾邮件特征作了全面的分析,提出了一种应用于图像型垃圾邮件的特征选择算法——R-ReliefF算法,用以优化图像特征集合,提高过滤算法性能。在此基础之上,本文对一种新型图像型垃圾邮件——多帧图像型垃圾邮件的过滤算法作了深入探讨。最后,通过分析现有图像型垃圾邮件过滤系统的优缺点,结合本文提出的R-ReliefF算法以及多帧图像型垃圾邮件过滤算法,总结出了一种多层次的图像型垃圾邮件过滤系统。本文首先对图像型垃圾邮件过滤技术的现状作了概述。包括图像型垃圾邮件检测的难点、主流的图像型垃圾邮件识别算法、以及算法的性能评价标准。目前图像型垃圾邮件识别算法并未取得理想的过滤效果。本文认为原因主要在于:①图像型垃圾邮件的特征集合未优化。②新型图像型垃圾邮件的出现使得现有的过滤系统失去效用。因此在对图像分类之前应首先筛选出识别效果更好的图像型垃圾邮件特征集合。本文提取出目前图像型垃圾邮件过滤算法常用的图像型垃圾邮件特征,形成原始特征集合。集合中特征个数和种类较多,难免含有无关和冗余特征,影响过滤算法性能。本文基于经典的ReliefF特征选择算法,提出一种适合于图像型垃圾邮件的特征选择算法——R-ReliefF算法,其中包括图像特征数据预处理、特征和类别信息的无关度计算、特征之间冗余度计算以及RMerits特征子集评价,最后选择出识别度较好且容易提取的特征子集作为识别图像型垃圾邮件的依据。实验显示,R-ReliefF算法可以有效地优化特征集合,提高训练和分类时的速度和精度。本文将R-ReliefF算法应用在识别新型的图像型垃圾邮件——多帧图像型垃圾邮件上。首先提取多帧图像型垃圾邮件图像特征,包括帧间特征以及每帧图像的特征,形成多帧图像型垃圾邮件特征集合。然后利用R-ReliefF算法对特征集合进行对比和筛选,最后得出识别效果较好的特征子集,并结合支持向量机分类算法得出分类结果。虽然多帧图像型垃圾邮件比普通的单帧图像型垃圾邮件包含更多的干扰元素,但实验结果显示,本文提出的过滤算法可以识别接近90%的多帧图像型垃圾邮件。最后,本文提出了一种基于R-ReliefF算法的多层次图像型垃圾邮件过滤系统。本系统采用本文提出的R-ReliefF算法,首先对单帧图像型垃圾邮件的各种特征进行筛选,得出文件属性、颜色以及文本特征三大类区分度较高的特征集合;其次利用这三类特征集合,形成三个单帧图像型垃圾邮件过滤子模块。然后对这三个过滤子模块的识别结果进行投票计算,得出最终的识别结果,并可对投票错误的子模块进行学习。最后结合传统过滤算法和多帧图像型垃圾邮件过滤算法形成多层次的图像型垃圾邮件过滤系统。实验结果显示,本系统对传统单帧图像型垃圾邮件的过滤精度大于97%,对多帧图像型垃圾邮件过滤精度大于90%,且实时性较高,是一个实用性比较高的图像型垃圾邮件过滤系统。