论文部分内容阅读
随着互联网网络的高速发展,人与人之间在信息交流中使用电子邮件的频率与日俱增,它逐渐成为一个重要的沟通媒介。但是,随着电子邮件的不断普及,伴随而来的是垃圾邮件的泛滥,控制不好甚至会影响了人们的正常工作与生活。目前已有的垃圾邮件过滤仍存在诸多不足,不能很好地将垃圾邮件区分过滤。针对这项不足,如何更好地加强对垃圾邮件过滤技术的研究便显得尤为重要。本次研究是要设计一种基于统计的邮件过滤系统模型。模型训练选用BP神经网络学习算法。实验过程对公共PU语料库进行数据预处理和算法训练得到大量模型,接着进行模型选择,最终通过模型组合得到垃圾邮件过滤系统主辅多重协同模型。邮件在该模型的过滤过程中会被分成多股数据流进入FC层,并分别在Output层输出结果,再根据子模型虚报率(FALLOUT)计算权值得到最终判断结果。论文预处理过程包括了基于Hadoop的词频统计、基于改进TF算法的词典降维和向量空间模型(VSM)形式矩阵生成。词频统计得到总特征词列表、合法邮件特征词列表、垃圾邮件特征词列表和每封邮件特征词列表。本研究针对数据预处理改进了传统的TF算法,通过词频统计对语料库特征词集合进行降维,将维度落在2000维内,收获较好的实验结果。VSM形式稀疏矩阵的生成通过JAVA编写程序实现。主辅模型的选择上通过数据划分将实验数据集划分为A、B、C三个子集,组合算法训练子集和模型仿真子集进行实验,比较A+B_C、A+C_B、A_B+C三种方案训练的模型仿真调和平均精确率,得到系统模型的主模型和辅模型。模型选择是此次研究的关键环节。实验通过不同搭配方案得到模型间的比较、最优单一模型与SVM算法训练模型的比较、最优单一模型与系统组合模型间的比较一步步验证系统模型的性能。实验最后分别通过计算召回率、正确率、F值、精确率、AUC(Area Under Curve)值、基于MACCs和FLOPS的模型运算量、内存占用率对系统模型性能做进一步的测试和评估。实验最终得到的结论,将奇数个较优模型组合为一个分类器,通过多重过滤的方式,可以提高判断准确性和系统泛化能力,并能够有效减少合法邮件的误判。