论文部分内容阅读
在信息化时代的今天,电子邮件成为了我们日常生活中最重要的交流手段之一,与其相伴而来的垃圾邮件也在日益增长。传统的垃圾邮件过滤技术,如“黑白名单”、“关键字过滤”等方法在一定程度上实现垃圾邮件的过滤,然而,面对邮件用户群体的膨胀,邮件数量急剧增长,邮件种类也日益庞杂,传统的邮件过滤技术已经捉襟见肘、后继乏力。
云数据挖掘是将数据挖掘技术与新兴的云计算技术相结合。借助云平台对大数据的高效处理能力实现针对海量数据的挖掘,很好的解决了在海量数据训练时存在的计算与存储瓶颈。本文利用云数据挖掘技术实现垃圾邮件的过滤,不但增强了邮件过滤方法的灵活性、高效性,也使得海量的邮件数据分类成为可能。对此,本文做了以下工作。
非结构邮件数据不能作为挖掘分类的原始训练集,如何在云平台上将其转换为结构化描述,本文研究了基于HADOOP的文本预处理。首先,把相对孤立的数据集合并成易于云平台处理的大文件集合;其次,采用MAPREDUCE分布式计算方式实现并行化分词与特征选择;最后,通过计算特征词的权值,给出了邮件数据的形式化描述。
传统的SVM算法计算模型不适合在HADOOP云平台上进行挖掘训练,因此,本文提出基于MAPREDUCE的SVM改进算法。其思想:利用MAPREDUCE方式计算文本向量积,并将其作为中间数据实现SVM算法对文本邮件的训练,得到最优决策平面,以此提高SVM算法的训练速度,使得对海量文本邮件的挖掘分类成为可能。
设计并开发了垃圾邮件过滤原型系统。系统主体分为预处理模块以及挖掘训练模块。其中预处理模块通过数据整合、数据分词、数据特征选择实现文本数据由非结构化转为结构化描述。训练模块对先求得文本向量乘积,并以此作为中间数据结合SVM算法训练得到最优决策平面。
通过开源数据集验证了本文所提方法的可行性出及运行效率,实验结果表明:该方法能利用廉价的计算机集群代替昂贵的高性能机器实现海量邮件数据的挖掘过滤;并且,分类效率能随着集群规模的扩增而得以较快地提升。