基于数据挖掘的中文垃圾邮件过滤技术研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:jiangda
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今,电子邮件是人们广泛应用的最经济的一种通信手段之一。但随之而来的副产品—垃圾邮件却越来越对系统的安全和人们的生活造成了严重的威胁,反垃圾邮件问题已经成为全球性的具有重要现实意义的研究课题,其中中文垃圾邮件作为垃圾邮件的重要组成部分必须给以足够的重视。邮件过滤技术是反垃圾邮件的重要手段,目前主要有基于IP层的反垃圾邮件技术、基于SMTP层的反垃圾邮件技术和基于邮件内容的过滤。本文的研究就属于基于邮件内容的过滤方法。 本文分析了当前流行的反垃圾邮件一般对策和技术的基本原理及其优缺点,在此基础上,借鉴了文本分类的思想,提出把数据挖掘中的K-最近邻方法和RBF神经网路算法引入中文邮件的内容过滤。 在对邮件样本过滤之前要先进行以下预处理步骤,首先本文选用正向最大匹配法对邮件样本正文文本作分词处理,取得邮件的特征项;接着利用互信息和优势率从大量特征项中选择对邮件分类贡献大的少量特征项,以减少向量维数;最后计算每个特征项的权重,并采用向量空间模型的逻辑结构表示邮件文本,构建邮件样本库,以下的实验都是在这样经过了预处理后的邮件样本库上进行的。针对K-最近邻方法的计算时间复杂度较大的问题,提出了两种改进方案,实验结果显示,改进后的方案在保证较高准确率的同时,一定程度上减少了计算量,降低了计算时间复杂度,在对垃圾邮件进行分类与过滤时具有较好的性能。RBF神经网络由于其输出对权值的线性关系,更适于系统辨识,实验证明该方法对于中文邮件过滤系统切实可行、效果良好,是对邮件过滤的一种新尝试。本文探索了过滤邮件的新方法,实验结果表明他们具有良好的应用价值,可以作为邮件过滤的一种新思路。
其他文献
本文针对P2P环境中的安全即时通信应用需求,设计并实现了一个基于JXTA?的?P2P?安全即时通信应用系统。本系统是企业专用系统,为员工在网络上提供安全的即时通信服务,如日常沟
本课题在对可信计算的体系结构、Linux的安全机制、现有的认证协议等深入研究的基础上,提出了基于Linux操作系统的用户认证与应用授权的架构,并最终完成了整个系统的搭建。本