论文部分内容阅读
垃圾短信发送者会不断尝试修改垃圾短信内容以欺骗过滤系统,导致识别准确率降低,为此提出一种基于自分簇自学习算法的识别方法.首先以最小编辑距离的方式构建垃圾短信关系链,使用MeanShift算法对其进行聚类实现自分簇功能.之后计算每个簇核心,并以与核心的距离确定每个样本的权值,以权值样本训练分类器,当新垃圾短信样本被分类器识别后,会被归类到某个簇并重新计算该簇的核心和各个样本的权值,并更新分类器,重复此过程实现自学习功能.实验结果表明,新方法准确率提高约2.51% ~5.14%,且能长时间保持.