论文部分内容阅读
随着科学技术的快速发展和互联网时代的到来,电子邮件以其方便、快捷、低成本的特点成为人们工作、生活不可缺少的通讯工具。但是电子邮件的快速发展也让某些不法商人看到其中的巨大利益,垃圾邮件随之出现并且日益泛滥。垃圾邮件在互联网上的传播不仅浪费互联网资源,而且成为有害信息和恶意软件传播的重要途径。由于数量庞大的垃圾邮件对个人和企业的利益都造成了严重危害,反垃圾邮件的相关技术和政策随之出现。在早期的反垃圾邮件技术中,研究者们提出了基于黑白名单的过滤技术、基于关键字的过滤技术、基于自定义规则的过滤技术等。这些方法能在一定程度上遏制垃圾邮件的传播,但是由于本身规则固定、且需要大量人工维护,目前都只是作为辅助手段。针对这些反垃圾邮件技术的缺点,研究者们提出了基于概率统计和机器学习的过滤技术,如贝叶斯分类技术。研究者们对于原始的贝叶斯分类技术进行了很多方面的改进,比如朴素贝叶斯分类模型以及AODE分类模型。针对实际应用场景中对实时性的要求,也有研究者提出了AAPE分类模型。但是AAPE分类模型在选择父属性时没有考虑属性本身的顺序对分类结果的影响,因此有可能导致分类早期的分类正确率较差。本文中针对AAPE分类模型的不足,提出了基于遗传算法和特征项权重的GAAPE分类模型,在计算资源和分类结果之间取得动态平衡。本文的主要研究成果如下:1.将遗传算法和特征项权重计算方法引入AAPE分类模型,提出了GAAPE分类模型。分别利用属性平均互信息和卡方统计信息的大小作为遗传算法适应度函数的依据,使用遗传算法将属性排序后分别计算SPODE。结果显示GAAPE分类模型分类效果比AAPE好,特别是在分类的早期能迅速降低分类错误率。2.设计并实现了一个基于GAAPE模型的垃圾邮件过滤系统原型。该系统引入了黑白名单和关键字过滤技术作为第一阶段的初步过滤,实现了以GAAPE分类模型为主体的第二阶段的智能过滤。通过实验测试,GAAPE分类模型比AAPE分类模型在分类准确度上有明显的提升,达到了过滤的即时性和准确性的动态平衡。