论文部分内容阅读
分析了基于内容过滤的反垃圾邮件技术存在的不足,如概念漂移和偏斜类分布会导致召回率降低.在Minoru Sasaki和Hiroyuki Shinnou提出的邮件检测方法的基础上,对特征选择算法做了改进,并增加了自动学习机制,提出了一种基于改进K-均值聚类的垃圾邮件过滤算法.实验表明此方法能较好地适应概念漂移和偏斜类分布现象.