论文部分内容阅读
电子邮件用户面临的一个令人头疼的常见安全问题就是每天会接收到大量垃圾邮件。目前,大多数电子邮件系统中的传统对策是简单的过滤机制,即根据用户定义的一些关键字来阻止或隔离不需要的电子邮件。针对传统的垃圾邮件过滤技术的精确率和召回率比较低以及过滤不稳定等问题,改进了树突状细胞算法(Dendritic cell algorithm,DCA)并应用于垃圾邮件过滤,改进后的算法在召回率、精确率和误报率等性能方面比较优异。树突状细胞算法多用于检测网络入侵和网络异常,在这方面已经取得了不错的效果。由于入侵检测、垃圾邮件过滤和免疫系统之间的相似性,研究人员设计了经典树突状细胞算法,并应用于垃圾邮件过滤,取得了初步的研究成果。但经典树突状细胞算法存在一定的缺陷,例如树突细胞算法中有着过多的参数且信号处理公式中权值是经验数值或随机值,其信号定义也有不足,而这些问题导致了邮件过滤的精确率和召回率不稳定。为了提高树突状细胞算法过滤垃圾邮件的精确率和召回率,对树突状细胞算法进行了以下几点改进:(1)因为传统树突状细胞算法的大部分信号和参数需要人为定义,且实验表明过多的参数和信号定义是对算法性能没有提升作用的,所以将传统树突状细胞算法的4类输入信号精简为2类输入信号,通过定义新的参数将传统树突状细胞算法所产生的3类输出信号精简为2类输出信号。(2)对于信号处理公式中权值是经验数值或者是随机生成这一问题,引入动态优化算法对权值参数进行了优化,并加以实验测试。实验结果表明,改进后的算法提高了垃圾邮件过滤的精确率和召回率,降低了误报率,且该算法相对于其他算法更稳定。(3)以改进的树突状细胞算法为核心提出了一种多策略过滤模型,该模型是将贝叶斯算法、逻辑回归算法和改进的树突状细胞算法集成在一起经过某种策略所形成的过滤模型。该模型优化了实验结果,提高了稳定性,但是该模型降低了算法的运行速度。(4)将提出的多策略过滤模型用于设计企业的垃圾邮件过滤系统并进行测试,测试结果表明设计的邮件过滤系统能够有效过滤垃圾邮件。以UCI Spam Base数据集为实验数据集,对改进的树突状细胞算法(Improved Dendritic Cell Algorithm,IDCA)和提出的多策略过滤模型进行了测试。实验表明改进后的算法在精确率、召回率和误报率等方面优于经典的树突状细胞算法,改进的树突状细胞算法在提高垃圾邮件检测率、降低误报率和提高稳定性等方面都有显著改善,其中召回率和精确率分别达到了0.95和0.90以上,且误报率也比较稳定。