基于Hadoop云平台的垃圾邮件过滤研究与实现

来源 :江苏大学 | 被引量 : 0次 | 上传用户：JoshuaSiu

【摘要】

：

在信息化时代的今天，电子邮件成为了我们日常生活中最重要的交流手段之一，与其相伴而来的垃圾邮件也在日益增长。传统的垃圾邮件过滤技术，如“黑白名单”、“关键字过滤”等方法

【作者】

：

黄文青

【机构】

：

江苏大学

【出处】

：

江苏大学

【发表日期】

：

2013年期

【关键词】

：

垃圾邮件过滤技术 SVM算法 HADOOP平台文本分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在信息化时代的今天，电子邮件成为了我们日常生活中最重要的交流手段之一，与其相伴而来的垃圾邮件也在日益增长。传统的垃圾邮件过滤技术，如“黑白名单”、“关键字过滤”等方法在一定程度上实现垃圾邮件的过滤，然而，面对邮件用户群体的膨胀，邮件数量急剧增长，邮件种类也日益庞杂，传统的邮件过滤技术已经捉襟见肘、后继乏力。　　云数据挖掘是将数据挖掘技术与新兴的云计算技术相结合。借助云平台对大数据的高效处理能力实现针对海量数据的挖掘，很好的解决了在海量数据训练时存在的计算与存储瓶颈。本文利用云数据挖掘技术实现垃圾邮件的过滤，不但增强了邮件过滤方法的灵活性、高效性，也使得海量的邮件数据分类成为可能。对此，本文做了以下工作。　　非结构邮件数据不能作为挖掘分类的原始训练集，如何在云平台上将其转换为结构化描述，本文研究了基于HADOOP的文本预处理。首先，把相对孤立的数据集合并成易于云平台处理的大文件集合;其次，采用MAPREDUCE分布式计算方式实现并行化分词与特征选择;最后，通过计算特征词的权值，给出了邮件数据的形式化描述。　　传统的SVM算法计算模型不适合在HADOOP云平台上进行挖掘训练，因此，本文提出基于MAPREDUCE的SVM改进算法。其思想:利用MAPREDUCE方式计算文本向量积，并将其作为中间数据实现SVM算法对文本邮件的训练，得到最优决策平面，以此提高SVM算法的训练速度，使得对海量文本邮件的挖掘分类成为可能。　　设计并开发了垃圾邮件过滤原型系统。系统主体分为预处理模块以及挖掘训练模块。其中预处理模块通过数据整合、数据分词、数据特征选择实现文本数据由非结构化转为结构化描述。训练模块对先求得文本向量乘积，并以此作为中间数据结合SVM算法训练得到最优决策平面。　　通过开源数据集验证了本文所提方法的可行性出及运行效率，实验结果表明:该方法能利用廉价的计算机集群代替昂贵的高性能机器实现海量邮件数据的挖掘过滤;并且，分类效率能随着集群规模的扩增而得以较快地提升。

其他文献

IMS-1000智能网管系统中L3VPN业务的研究与实现

伴随经济和网络的迅猛发展,以及宽带上网方式的迅速发展、上网费用的降低,传统的网络接入方式已经不能满足人们的需求,虚拟专用网VPN能够高效率、低成本的解决企业网络互连互

学位

MPLSL2VPNL3VPNIMS-1000智能网管系统

光流计算中的Split-Bregman方法

目前实现光流计算的主流方法有很多,变分方法就是其中之一。本文首先介绍了在光流计算方面国内外研究现状以及其应用范围。然后又建立了小位移光流计算的通用变分模型,并且运

学位

变分方法大位移Split-Bregman方法光流计算

图像大数据车辆搜索中基于流形学习的车辆检测算法

随着交通的快速发展，车辆数量持续增长，由车辆带来的交通管理、交通安全和社会治安等问题日显突出。在交通道路、小区大院、停车场、交通枢纽等安装的交通视频监控系统每天能产

学位

图像大数据车辆检测算法流形学习聚类可变部件模型

2D视频转3D视频中块匹配运动估计算法及其应用的研究

目前3D视频的制作方法主要有三种：双机或多机拍摄、CGI和2D/3D转换。由于3D视频实时拍摄技术复杂、成本昂贵,CGI题材受限,而2D视频大量存在,所以2D/3D技术可以有效解决3D片源

学位

2D/3D运动估计块匹配菱形搜索Nuke

基于水域特征匹配的气象卫星图精确几何校正

气象卫星对于现代社会是不可或缺的遥感工具，大多位于距地表3.6万公里的地球同步轨道。高质量气象产品的制作需要气象卫星图具有较高的几何精度。然而，同步气象卫星由于卫星测

学位

气象卫星图像精确几何校正水域特征匹配算法参数制作流程

营销案业务统一管理平台关键技术研究

在电信行业的不断发展的今天，如何挽留老客户并吸引新客户，是运营商面临的重要问题，营销案业务则属于运营商的稳定客户的主要手段之一，通过营销案的赠费吸引新老客户参与，通过营销

学位

营销案统一平台统一配置

基于Hadoop的典型大数分解算法的设计与实现

大数分解问题既是数学界重要的科学问题，也是RSA类型密码系统的基本问题。目前解决大数分解问题主要从改进大数分解算法和提高计算机的计算能力两方面进行研究。大数分解算法

学位

椭圆曲线算法密码系统计算能力并行化分解

基于改进FCM算法的暴力犯罪特征聚类分析及应用

我国的公安机关在多年的工作中,一方面不断推进信息化的建设,另一方面,其在公安工作的专门数据和社会信息方面都有了相当大规模的数据积累,使用数据挖掘技术来分析犯罪的各种

学位

模糊聚类连续属性离散化信息熵暴力犯罪因素分析

XML非完全结构查询技术的研究

XML非完全结构查询是指满足用户在缺乏完整的XML文档结构信息情况下的查询需求,其主要面向缺少完整的结构信息说明以及异构环境下的查询需求。XML数据查询算法按照查询模式描

学位

XML关键字查询DeweySLCALRIA

JPEG图像篡改被动盲取证研究

数字技术的飞速发展和各种功能强大的图像处理软件的出现，使得图像的编辑、修改变得越来越简单。正当人们在享受这些工具带来的方便和快乐的同时，对图像无意或故意的篡改也出现

学位

JPEG图像被动取证块效应连通分量双量化效应后验概率

基于Hadoop云平台的垃圾邮件过滤研究与实现

其他学术论文