论文部分内容阅读
伴随着Internet的普及,电子邮件以其快捷、方便、低成本的特点已成为互联网上最重要、最普及的应用。但是随之而来的垃圾邮件也越来越泛滥,占用了有限的存储、计算和网络资源,耗费了用户大量的处理时间,影响和干扰了用户的正常工作,生活和学习。如何有效地治理垃圾邮件问题是全世界共同面临的一道难题,也是互联网上目前急待解决的问题。 本文从技术的角度出发,在全面系统学习和总结了国内外反垃圾邮件领域的最新成果的基础上,深入细致地研究了反垃圾邮件技术,取得了以下若干创新和成果。 本文的主要创新和贡献包括: 1、归纳总结了当前垃圾邮件采用的新的抗过滤的方法和手段。垃圾邮件发送者为了让垃圾邮件逃避各种垃圾邮件过滤,不断变化更新欺骗过滤器的方法和手段,目前简单的过滤方法已经无法有效地过滤垃圾邮件。本文在学习了国内外相关资料和研究了大量近期垃圾邮件样本后,归纳总结了当前垃圾邮件发送者常采用的欺骗手段和方法,及其它们的特点,以便有的放矢,更有效地反垃圾邮件。 2、提出了一种基于内容的MNNB垃圾邮件过滤算法。MNNB算法应用Markov链改善了Na(?)ve Bayes垃圾邮件过滤算法中的词条之间相互独立的缺陷,并假设句与句之间是独立的,来简化算法的计算量。实验显示MNNB算法提高了Na(?)ve Bayes算法的准确率和查全率,并且由于该算法不需要分词,对过滤不同语言的垃圾邮件具有更好的适应性。 3、提出了一种基于内容的LVQ神经网络过滤算法。LVQ神经网络算法是先把邮件细分成具体的类别,然后再根据用户的定义,把具体的类别规约成垃圾类邮件和正常类邮件。LVQ神经网络算法克服了垃圾邮件具体类别宽泛,特征离散的问题,提高了垃圾邮件识别的准确度,并且该算法可根据用