论文部分内容阅读
近年来,一些公司或个人为了个人或商业利益,在未经收件人同意的情况下,利用电子邮件发送大量商业广告及各种不良信息,形成影响极坏、后果严重的垃圾邮件。本文主要是针对现今垃圾邮件大量泛滥的现状,综合分析了国内外各种流行的垃圾邮件过滤方法,比较各种方法的利弊,设计并实现了一套行之有效的垃圾邮件过滤系统。本文首先分析了当今邮件过滤领域的现状,讨论了当今主要的垃圾邮件过滤方法和垃圾邮件发送者惯用的方法,可以说,现在的邮件过滤方法大部分是基于文本方式,比如基于神经网络,贝叶斯等,或者简单的对邮件地址进行黑白名单的分类。这些方法优点明显,但是缺点也很突出,本文针对这些方法固有的缺点,综合它们的优点,设计实现一种新型的过滤系统。在设计之初,本文重点讨论了邮件系统的基本知识,只有对邮件发送机制有深入的了解,才可能对过滤技术的实施有全面的掌握。本文还主要针对邮件头结构进行了分析,这是本文邮件过滤的关键之一,因为邮件格式,编码方式等必要信息都存在于头结构中。哈希算法因为其固有的特点,可以大大简化邮件内容,使过滤效率得到很大提高。为了将SHA-1 算法应用到邮件过滤系统中,改善邮件过滤的效率,本文简要分析了一下哈希算法的原理机制,比较了多种主流算法的优劣。接下来本文综合各种过滤方法的特点,概要设计了基于SHA-1 算法的邮件过滤系统,针对过滤点选择,hash 算法选择,过滤流程等问题进行了详细讨论,本文针对垃圾邮件的特点,适当的运用了hash 算法的优势,结合了各种过滤方法,使过滤系统行之有效。概要设计后,本文将过滤系统划分为各个模块,对各个模块进行了详细设计,初步完成了预想的过滤功能。主要模块大体分为头结构的分析,正文的分析,hash 模块实现,存储结构的设计等。最后,我们通过大量的试验来验证过滤的效果,实践证明,过滤系统工作良好,基本达到了预期的目标,同时也发现了一些问题,需要进一步完善。