基于Winnow算法和CAPTCHA的垃圾短信过滤研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:Euphemia123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动通信技术的发展,手机短信已成为人们生活中必不可少的通信方式之一。然而日益增多的垃圾短信给人们的生活带来很多不便。垃圾短信过滤问题已成为全球性的具有重大现实意义的课题。本文深入研究了基于内容的垃圾短信过滤技术,改进了Winnow算法,并提出一种新的基于CAPTCHA的垃圾短信过滤方法,主要工作包括:1)Winnow算法是一种可以在线更新的分类算法,它通过改变权重向量进行更新。为了降低算法的复杂度,本文提出在每次更新权值后加入剪枝过程,剪掉那些对分类结果几乎没有影响的特征。2)利用用户交互式学习思想,根据用户的反馈信息随时更新Winnow分类器。本文提出的方法根据用户判定的误分类短信的信息找出未被判定的误分类短信,然后纠正分类器以前产生的错误,同时更新分类器的分类规则,避免以后的分类过程中产生同样的错误。更新分类器时采用Adaboosting算法提升分类器性能,并对Adaboosting算法进行了两方面的改进:针对退化问题,采用在各样本集内部调整短信样本的权重的方法;针对垃圾短信和正常短信的不对称问题,采用修改分类器加权因子的方法。3)提出多Winnow分类器模型,根据多个分类器的分类结果对短信分类。利用同样的训练集选择出不同的特征集,根据各个特征集训练出不同的分类器。本文只实现了双Winnow分类器。4)针对计算机程序经常发送恶意的组垃圾短信的现状,本文提出了基于CAPTCHA (全自动人机识别系统)的过滤方法,并提出一种新的基于图片识别的CAPTCHA方法。
其他文献
近年来,随着移动互联网的飞速发展,智能终端设备得到广泛的普及,尤其是Android系统已经成为移动市场份额第一的操作系统。Android系统给人们带来极大便利的同时,也带来了极大
异常检测作为复杂网络理论研究中的一个重要问题,近年来受到了来自诸多领域研究学者的关注。以往对复杂网络异常检测的研究中,大多是将网络处理成静态图。然而许多实际的网络
随着计算机网络和多媒体技术的迅猛发展,数字作品的非法复制和传播越来越严重,对多媒体信息实施有效的保护显得尤其重要。数字水印技术作为信息保护的手段之一,是当前多媒体
随着M2M(Machine-to-machine)应用的广泛发展,接入的设备种类也越来越繁多,由此产生了设备异构性问题。M2M垂直领域内发展问题,设备的异构性,服务的多样性使得M2M互联互通变
云计算从网格计算、分布式计算、并行计算发展形成,打破传统IT服务模式,通过与互联网的结合成为一种新型商业模式,通过虚拟化技术对底层物理资源虚拟化形成虚拟资源池,数据中
长期以来,时态数据库和空间数据库作为数据库中两个重要的研究领域是相互分离的,然而现实世界中许多实体都同时具有时间特性和空间特性,因此时空数据库在时态数据库和空间数据库
随着物流系统中商品流量的增大,嵌入式电子标签读写器已成为不可缺少的商品识别设备。为了自动地批量地辨识物流中的电子标签,本文设计并实施了一个嵌入式无线频率识别设备(R
在计算机视觉和智能视频监控领域中,步态识别是生物特征识别技术中一个新兴的研究领域,它是一种根据人的走路方式来识别身份的方法。相对于其他生物特征识别技术(如指纹、虹膜、
分类是数据挖掘的重要研究课题之一。它广泛地应用于科学实验和商业预测等领域。如何提高分类模型的准确率是分类的核心问题,组合分类模型在理论和实验中比单个分类模型有着
由于智能规划能应用于很多领域,近年来,智能规划研究得到了飞速的发展,一些学者提出了不确定性规划问题。然而,经典的图规划算法无法解决不确定性规划问题。因此,不确定性规