论文部分内容阅读
探讨了邮件过滤器的体系,介绍了6种常用的过滤算法。在4个公用的数据集上,利用3个评价指标对这6种算法进行了全面的比较。实验的主要结论有:集成过滤器的方法有利于提高过滤效果;与其它两个数据集相比,PU1和Ling—spam数据集用于评价过滤器时会得出相对乐观的结果;NB和k-NN的表现不稳定,对数据集的敏感程度较高。对于邮件过滤研究者了解、改进已有算法,提出新的算法有一定的参考价值。