论文部分内容阅读
随着Internet的迅速普及,电子邮件以其快捷、方便、低成本的特点逐渐成为人们进行信息交流的主要媒介之一,但是随之而来的垃圾邮件也越来越泛滥。垃圾邮件占用了有限的存储、计算和网络资源,耗费了用户大量的处理时间,影响和干扰了用户的正常工作、生活和学习。如何有效地治理垃圾邮件问题是全世界共同面临的一道难题,也是互联网上目前亟待解决的问题。
本文首先研究了大量近期垃圾邮件样本,归纳总结了当前垃圾邮件发送者经常采用的欺骗手段和方法,并参阅国内外大量垃圾邮件识别技术的文献和数据,对已有的垃圾邮件识别技术作出分析和总结,尤其是基于内容识别的垃圾邮件过滤方法进行了研究。在此基础上,针对在基于内容识别的垃圾邮件过滤中使用最广的Bayes分类算法进行了实验性的验证。该算法能在正确分类邮件的同时,减少合法邮件的误判率,在对垃圾邮件进行分类与过滤时具有较好的性能。
其次,本文还研究了基于复制检测技术的垃圾邮件过滤方法,实现了Nilsimsa算法。
最后针对一种以HTML形式发送的包含大量超链接的垃圾邮件,提出基于URL技术的过滤方法。试验结果表明,基于URL的过滤实用有效,能识别基于内容的垃圾邮件过滤算法难于判断的垃圾邮件,是基于内容识别过滤方法的一种有效补充。