基于BP神经网络的多重邮件过滤系统的研究与设计

来源 :深圳大学 | 被引量 : 0次 | 上传用户:fghngfhfg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网网络的高速发展,人与人之间在信息交流中使用电子邮件的频率与日俱增,它逐渐成为一个重要的沟通媒介。但是,随着电子邮件的不断普及,伴随而来的是垃圾邮件的泛滥,控制不好甚至会影响了人们的正常工作与生活。目前已有的垃圾邮件过滤仍存在诸多不足,不能很好地将垃圾邮件区分过滤。针对这项不足,如何更好地加强对垃圾邮件过滤技术的研究便显得尤为重要。本次研究是要设计一种基于统计的邮件过滤系统模型。模型训练选用BP神经网络学习算法。实验过程对公共PU语料库进行数据预处理和算法训练得到大量模型,接着进行模型选择,最终通过模型组合得到垃圾邮件过滤系统主辅多重协同模型。邮件在该模型的过滤过程中会被分成多股数据流进入FC层,并分别在Output层输出结果,再根据子模型虚报率(FALLOUT)计算权值得到最终判断结果。论文预处理过程包括了基于Hadoop的词频统计、基于改进TF算法的词典降维和向量空间模型(VSM)形式矩阵生成。词频统计得到总特征词列表、合法邮件特征词列表、垃圾邮件特征词列表和每封邮件特征词列表。本研究针对数据预处理改进了传统的TF算法,通过词频统计对语料库特征词集合进行降维,将维度落在2000维内,收获较好的实验结果。VSM形式稀疏矩阵的生成通过JAVA编写程序实现。主辅模型的选择上通过数据划分将实验数据集划分为A、B、C三个子集,组合算法训练子集和模型仿真子集进行实验,比较A+B_C、A+C_B、A_B+C三种方案训练的模型仿真调和平均精确率,得到系统模型的主模型和辅模型。模型选择是此次研究的关键环节。实验通过不同搭配方案得到模型间的比较、最优单一模型与SVM算法训练模型的比较、最优单一模型与系统组合模型间的比较一步步验证系统模型的性能。实验最后分别通过计算召回率、正确率、F值、精确率、AUC(Area Under Curve)值、基于MACCs和FLOPS的模型运算量、内存占用率对系统模型性能做进一步的测试和评估。实验最终得到的结论,将奇数个较优模型组合为一个分类器,通过多重过滤的方式,可以提高判断准确性和系统泛化能力,并能够有效减少合法邮件的误判。
其他文献
<正>生活方式干预一直以来都是肥胖和代谢疾病患者优先考虑的治疗手段,而膳食模式的调整,已经被越来越多人所接受、认可。地中海饮食、得舒(DASH)饮食等都是被广大营养学家和
从社会需要与高校学生的实际需要及高校体育改革需要出发,采用文献资料法、问卷调查法、专家访谈法、数理统计法等科研方法,对高校休闲体育参与主体的特征、参与项目、影响因素
主要介绍了数控等离子切割机切割工件产生变形的原因,对切割件的变形进行了分析。从数控等离子切割机的特点出发,对于在加工过程中正确选择切割机的起点、切割方向、切割顺序
<正> 由李志才副教授等编著的、沈有鼎、周礼金、莫绍揆等逻辑专家任顾问和撰稿的《逻辑学辞典》,已由吉林人民出版社出版了。长期以来,我国缺乏一本专门性的逻辑学辞典,《辞典》的出版,则填补了这一空白。《辞典》的内容包括形式逻辑、数理逻辑、辩证逻辑、中外逻辑史,以及一些新的逻辑学分支、逻辑理论在科学技术上的应用等方面的辞条,共计一千九百多条。这部《辞典》有如下方面的特点。第一,在全面注释世界各国逻辑辞条的基础上,突出了中国古典逻辑的研究成果和中国逻辑学家。古代中国是世界三大逻辑学策源地之一,早在两
根据我军核爆监测装备体制的实际情况,即已经定型装备部队的系列核爆监测装置及即将定型的二代核爆监测仪,均需要能适应野外使用的模拟器,本研究的目的,即为当前在装服役的型
透水混凝土内部特殊的骨架孔隙结构,使其具有一定的强度同时还有透水储水的能力,用于路面铺设能实现水循坏、吸声降噪、防眩光等效果,可成为“海绵城市”的建设的重要材料。
从设计的发展演变、观念的转变以及现代设计发展趋势,分析与研究自然与设计的关系,是为现代设计更好地借鉴自然、与自然和谐共存提供方法和依据.结果表明,自然对艺术设计具有
经过近三十年的研究和宣传,目前对唐初以陈政、陈元光为首的87姓中原移民入阂,开发泉潮地区,传播先进的中原文化,促进民族和睦,发展社会经济与文化所起的积极作用及促进闽南文化的
对不同年龄雄性Wistar大鼠小脑蚓剖皮质浦肯野细胞的超微结构进行了观察。结果表明,随年龄增神经内的细胞器和内涵物发生了明显变化。浦肯野细胞内粗面内质网、高尔基复合体等细胞器