基于小样本学习的垃圾邮件过滤方法

来源 :计算机工程 | 被引量 : 0次 | 上传用户:yellue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对客户端垃圾邮件过滤器难以获取足够训练样本的问题,提出一种基于小样本学习的垃圾邮件过滤方法,利用容易获取的未标记样本提高垃圾邮件过滤的性能。该方法使用已标记的小样本邮件实例集训练一个初始Na?veBayes分类器,以此标注未标记邮件,再使用所有数据训练新的分类器,利用EM算法进行迭代直至收敛。实验结果证明,当给定5个~20个已标记小样本训练邮件时,该方法可有效提高垃圾邮件过滤性能。 Aiming at the problem that it is difficult for client-side spam filters to obtain enough training samples, a small sample-based spam filtering method is proposed to improve the performance of spam filtering by using unlabeled samples that are easily available. This method uses a labeled small sample mail set to train an initial Na? Ve Bayes classifier to label unmarked mails, then uses all the data to train a new classifier and uses the EM algorithm to iterate until convergence. The experimental results show that this method can effectively improve the spam filtering performance when 5 ~ 20 labeled small samples are trained to train mail.
其他文献
摘 要: ‘海蜜9号’是以自交系‘E’(‘Y9609-108-16’) 为母本、‘L’(‘Y9711-105-9’)为父本杂交选育而成的中晚熟杂种1代厚皮甜瓜新品种。该品种全生育期115 d左右,果实发育期50 d左右,植株生长势强,抗逆性较强,抗病性较强,抗枯萎病;易坐果,果实短椭圆形,果皮底色为墨绿色,覆粗密网纹,单瓜质量1.8 kg;果肉黄绿色,果肉厚度4.5 cm,中心可溶性固形物含量(w