论文部分内容阅读
伴随着互联网产业不断地进步与发展,各种互联网上的应用也慢慢成为人们之间互相交流和获得信息的重要来源。电子邮件技术起源于上个世纪70年代,毫无疑问,它现在是人们进行沟通的主要工具之一。它显著的特点是实时、操作便捷以及低成本。随着它普遍的使用,也产生了一系列的问题,在使用电子邮件的过程中用户会收到很多的垃圾邮件。根据国家互联网协会在2014年7月份公开的一份报告中可以看到,电子邮箱使用者大约每星期收到的邮件中,其中的垃圾邮件的所占比达到38.2%。垃圾邮件的存在极大的扰乱了人们的正常沟通与交流,甚至给人们引发了难以预料的财产损失。所以,解决垃圾邮件问题刻不容缓。本文重点研究的是文本分类在基于内容的垃圾邮件拦截系统中的应用。文章中首先介绍了历史上的垃圾邮件拦截技术:黑白名单技术、基于规则的垃圾邮件拦截等技术。之后引出本文所研究的基于内容的垃圾邮件拦截技术,基于内容的垃圾邮件拦截技术主要是应用文本分类算法作为系统的主要实现技术手段。基于内容的垃圾邮件拦截技术就是以机器学习的算法作为核心技术,利用各种机器学习算法对邮件进行分类,符合条件的邮件将被视为合法邮件,其余的邮件将被以垃圾邮件进行处理,从而达到拦截垃圾邮件的目的。它的具体方法是这样实现的,首先选择一种具体的机器学习算法,然后运用这种算法的处理方法对邮件进行分类。本文利用的分类算法是比较成熟、分类效率和分类效果比较突出的贝叶斯分类算法。论文首先介绍了电子邮件的相关技术以及反垃圾邮件的技术、文本分类相关的知识、空间向量模型(VSM)、自动文本分类的过程等基础。然后着重研究了文本分类在垃圾邮件拦截系统中的应用,对系统的核心部分进行了分析设计。邮件分类部分主要涉及:文本预处理部分、训练部分和分类部分,并对其中涉及的关键技术做了研究与分析。最后对系统的各个部分予以实现,对整个系统的拦截效果进行了测试验证。在分类过程中,系统把握在实际场景中不能把非垃圾邮件误认为垃圾邮件的原则,定义了判断参数λ,并对其取值加以讨论,最后实验得到了满足系统要求的最优λ取值。