基于支持向量机的手机垃圾短信过滤器的研究

来源 :河北工业大学 | 被引量 : 5次 | 上传用户:zk0529
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着手机由奢侈品变为日常生活中不可缺少的交流工具时,有着“拇指经济”之称的短信业务也随之得到空前快速的发展。然而,随之产生的大量垃圾短信,也为我们的日常生活带来了许多不必要的麻烦。垃圾短信这一现象不仅在我国大量存在,在欧美日等发达国家也广泛存在,因此这个问题可以看作为世界性问题。本文提出了将垃圾短信过滤问题视为文本分类问题,因此对文本分类技术做了深入的研究,提出了垃圾短信过滤(即短信分类)的关键技术,并且在Windows XP的Visual C++6.0和ACCESS平台下设计并实现了一个基于支持向量机的、便于重组重构并能实时统计分析中间结果的垃圾短信过滤系统。垃圾短信过滤系统主要包含短信分词、特征降维、短信的文本表示和自动分类四个模块,短信分词模块主要对短信集分词,并将词条信息导入到数据库中;特征降维模块主要是对词条进行降维;短信的文本表示模块计算词条权重,将短信以向量空间模型的形式表示;自动分类模块对训练样本进行训练,并使用分类器对测试样本进行分类,得出分类结果。本文在垃圾短信过滤系统上对信息增益(IG)、χ2统计(CHI)、互信息(MI)、期望交叉熵(ECE)、文本证据权(WET)和主成分分析(PCA)几种不同的特征降维方法进行了比较实验,实验结果证明在短信分类系统中IG特征降维方法要优于其他方法。并且在使用IG方法的基础上,提出了一种改进的短信的文本表示方法,分类结果更好。在该系统上还对支持向量机算法进行了部分研究,并对其核函数和参数进行了多次实验,选择最适合本系统的核函数和参数,分类结果较为理想。
其他文献
无线通信技术的迅猛发展使其已经成为人们日常生活中必不可少的一部分。无线通信速率的快速增长是以更多频谱资源的消耗为基础的,而传统无线频谱管理基于固定分配,造成了人为
网络态势感知需要对多源安全事件态势信息进行提取、过滤、融合与抽象等处理,从而掌控网络与安全状况。数据融合和态势评估是网络态势感知的关键支撑技术。针对安全事件冗余
Mobile ad hoc 网络,又称为移动自组网,是一种新型的移动无线通信网络构成形式,是传统计算机网络科学和无线通信科学相结合的产物,目的在于设计一种机动性高、部署快速、健壮
在线考试系统以其准确、客观、公正、快速等特性,正逐步形成一种新型的考试方式,逐渐成为检测教学成果的一种有效手段。然而,在线考试系统也面临着新的监考安全问题:如何有效
图像在采集、压缩和传输等过程中经常会受到干扰而形成图像噪声,这严重影响了后续的图像分析,例如图像的分割、识别、配准和分类等等。因此,在图像预处理过程中图像滤波显得尤为
随着Internet和Web技术的兴起与发展,将Web技术与数据库相结合,开发动态的Web数据库应用已成为当今Web技术研究的热点。 随着我国钢铁业的蓬勃发展,钢铁企业在长期的生产过程
随着云计算应用的深入,越来越多的网络资源以信息化服务的形式在互联网上发布。如何对这些部署在不同管理域的服务进行有效的故障管理已经成为服务管理的研究重点。针对云环
生物特征识别作为一种较为成熟的身份鉴别技术已经应用到实际生活中的各个领域,如:人脸识别、指纹识别、虹膜识别、声音识别等。人耳识别技术是个体生物特征识别的一项新技术,独
智能电网将先进的计算机网络通信及自动化控制技术同现有的电力基础设施相结合,以实现电网的自动化和智能化。高级量测体系(Advanced Metering Infrastructure,AMI)是智能电网的重要组成部分,它使得信息在用户与电力公司间高速双向流动,是智能电网实现需求响应、能源管理等功能的基础,其可靠部署与安全运行是电网智能化的关键。AMI网络涵盖计算机信息通信网络、信息基础设施网络和电网
全景图是近年来兴起的基于图像的绘制技术中的核心技术之一,虚拟现实的重要研究内容。生成全景图涉及到计算机图形学、图像处理及计算几何等诸多学科。全景图可以表达完整的环