基于Hadoop云平台的垃圾邮件过滤研究与实现

来源 :江苏大学 | 被引量 : 0次 | 上传用户:JoshuaSiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息化时代的今天,电子邮件成为了我们日常生活中最重要的交流手段之一,与其相伴而来的垃圾邮件也在日益增长。传统的垃圾邮件过滤技术,如“黑白名单”、“关键字过滤”等方法在一定程度上实现垃圾邮件的过滤,然而,面对邮件用户群体的膨胀,邮件数量急剧增长,邮件种类也日益庞杂,传统的邮件过滤技术已经捉襟见肘、后继乏力。   云数据挖掘是将数据挖掘技术与新兴的云计算技术相结合。借助云平台对大数据的高效处理能力实现针对海量数据的挖掘,很好的解决了在海量数据训练时存在的计算与存储瓶颈。本文利用云数据挖掘技术实现垃圾邮件的过滤,不但增强了邮件过滤方法的灵活性、高效性,也使得海量的邮件数据分类成为可能。对此,本文做了以下工作。   非结构邮件数据不能作为挖掘分类的原始训练集,如何在云平台上将其转换为结构化描述,本文研究了基于HADOOP的文本预处理。首先,把相对孤立的数据集合并成易于云平台处理的大文件集合;其次,采用MAPREDUCE分布式计算方式实现并行化分词与特征选择;最后,通过计算特征词的权值,给出了邮件数据的形式化描述。   传统的SVM算法计算模型不适合在HADOOP云平台上进行挖掘训练,因此,本文提出基于MAPREDUCE的SVM改进算法。其思想:利用MAPREDUCE方式计算文本向量积,并将其作为中间数据实现SVM算法对文本邮件的训练,得到最优决策平面,以此提高SVM算法的训练速度,使得对海量文本邮件的挖掘分类成为可能。   设计并开发了垃圾邮件过滤原型系统。系统主体分为预处理模块以及挖掘训练模块。其中预处理模块通过数据整合、数据分词、数据特征选择实现文本数据由非结构化转为结构化描述。训练模块对先求得文本向量乘积,并以此作为中间数据结合SVM算法训练得到最优决策平面。   通过开源数据集验证了本文所提方法的可行性出及运行效率,实验结果表明:该方法能利用廉价的计算机集群代替昂贵的高性能机器实现海量邮件数据的挖掘过滤;并且,分类效率能随着集群规模的扩增而得以较快地提升。
其他文献
伴随经济和网络的迅猛发展,以及宽带上网方式的迅速发展、上网费用的降低,传统的网络接入方式已经不能满足人们的需求,虚拟专用网VPN能够高效率、低成本的解决企业网络互连互
目前实现光流计算的主流方法有很多,变分方法就是其中之一。本文首先介绍了在光流计算方面国内外研究现状以及其应用范围。然后又建立了小位移光流计算的通用变分模型,并且运
随着交通的快速发展,车辆数量持续增长,由车辆带来的交通管理、交通安全和社会治安等问题日显突出。在交通道路、小区大院、停车场、交通枢纽等安装的交通视频监控系统每天能产
目前3D视频的制作方法主要有三种:双机或多机拍摄、CGI和2D/3D转换。由于3D视频实时拍摄技术复杂、成本昂贵,CGI题材受限,而2D视频大量存在,所以2D/3D技术可以有效解决3D片源
气象卫星对于现代社会是不可或缺的遥感工具,大多位于距地表3.6万公里的地球同步轨道。高质量气象产品的制作需要气象卫星图具有较高的几何精度。然而,同步气象卫星由于卫星测
在电信行业的不断发展的今天,如何挽留老客户并吸引新客户,是运营商面临的重要问题,营销案业务则属于运营商的稳定客户的主要手段之一,通过营销案的赠费吸引新老客户参与,通过营销
大数分解问题既是数学界重要的科学问题,也是RSA类型密码系统的基本问题。目前解决大数分解问题主要从改进大数分解算法和提高计算机的计算能力两方面进行研究。大数分解算法
我国的公安机关在多年的工作中,一方面不断推进信息化的建设,另一方面,其在公安工作的专门数据和社会信息方面都有了相当大规模的数据积累,使用数据挖掘技术来分析犯罪的各种
XML非完全结构查询是指满足用户在缺乏完整的XML文档结构信息情况下的查询需求,其主要面向缺少完整的结构信息说明以及异构环境下的查询需求。XML数据查询算法按照查询模式描
数字技术的飞速发展和各种功能强大的图像处理软件的出现,使得图像的编辑、修改变得越来越简单。正当人们在享受这些工具带来的方便和快乐的同时,对图像无意或故意的篡改也出现