文本分类在垃圾邮件拦截系统中的应用

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:ZYXN
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网产业不断地进步与发展,各种互联网上的应用也慢慢成为人们之间互相交流和获得信息的重要来源。电子邮件技术起源于上个世纪70年代,毫无疑问,它现在是人们进行沟通的主要工具之一。它显著的特点是实时、操作便捷以及低成本。随着它普遍的使用,也产生了一系列的问题,在使用电子邮件的过程中用户会收到很多的垃圾邮件。根据国家互联网协会在2014年7月份公开的一份报告中可以看到,电子邮箱使用者大约每星期收到的邮件中,其中的垃圾邮件的所占比达到38.2%。垃圾邮件的存在极大的扰乱了人们的正常沟通与交流,甚至给人们引发了难以预料的财产损失。所以,解决垃圾邮件问题刻不容缓。本文重点研究的是文本分类在基于内容的垃圾邮件拦截系统中的应用。文章中首先介绍了历史上的垃圾邮件拦截技术:黑白名单技术、基于规则的垃圾邮件拦截等技术。之后引出本文所研究的基于内容的垃圾邮件拦截技术,基于内容的垃圾邮件拦截技术主要是应用文本分类算法作为系统的主要实现技术手段。基于内容的垃圾邮件拦截技术就是以机器学习的算法作为核心技术,利用各种机器学习算法对邮件进行分类,符合条件的邮件将被视为合法邮件,其余的邮件将被以垃圾邮件进行处理,从而达到拦截垃圾邮件的目的。它的具体方法是这样实现的,首先选择一种具体的机器学习算法,然后运用这种算法的处理方法对邮件进行分类。本文利用的分类算法是比较成熟、分类效率和分类效果比较突出的贝叶斯分类算法。论文首先介绍了电子邮件的相关技术以及反垃圾邮件的技术、文本分类相关的知识、空间向量模型(VSM)、自动文本分类的过程等基础。然后着重研究了文本分类在垃圾邮件拦截系统中的应用,对系统的核心部分进行了分析设计。邮件分类部分主要涉及:文本预处理部分、训练部分和分类部分,并对其中涉及的关键技术做了研究与分析。最后对系统的各个部分予以实现,对整个系统的拦截效果进行了测试验证。在分类过程中,系统把握在实际场景中不能把非垃圾邮件误认为垃圾邮件的原则,定义了判断参数λ,并对其取值加以讨论,最后实验得到了满足系统要求的最优λ取值。
其他文献
电子商务背景下,物流需求呈爆发式增长,全国日均快递单量已超过一亿件;其次,随着城市规模扩张,仓库外迁、货运车辆限行等政策陆续实施,企业面临仓库远离顾客且大型货车不能进
目的:观察Survivin、Caspase-9和Ki-67在结直肠癌、结直肠腺瘤和癌旁正常组织中表达,分析三者在结直肠癌组织中的表达与结直肠癌生物学行为的关系,通过研究它们的相关性与临
当今社会中科技的迅猛发展,使得人们的日常生活与各种智能终端的关系越发紧密。同时随着人们越来越注重自身健康以及运动锻炼意识的提高,运动型软件逐渐成为便携式智能终端中
学位
恶性肿瘤一直以来都严重威胁着人类的生命健康,当前其临床治疗方法主要有手术切除,放射治疗,化学疗法等。其中化学疗法是恶性肿瘤治疗的主要手段,然而因药物缺乏肿瘤细胞杀伤
经过三十多年构建,场外交易市场已经成为中国多层次资本市场不可或缺的一部分,是场内交易市场融资平台的有益补充,并已成为积极为场内交易市场输送项目资源、机构投资者、专
目前,国内卷烟企业装封箱机设备在使用过程中,由于质量检测器的缺陷或人为因素,导致烟箱存在缺条的现象。采用箱装成型视觉检测和X射线检测技术,箱装成型误检率较高,报警同时
目的:利用免疫组化和实时荧光定量PCR的方法检测SEPS1基因在乳腺癌组织中的表达,并对SEPS1基因的表达水平和乳腺癌患者临床病理特征的关系进行统计学分析,研究其在乳腺癌表达
随着软硬件技术的高速发展,以及互联网对于各行各业的渗透,不同企业的产品被大量的部署在地理位置多变,运行平台多样的工作环境中。伴随着产品规模快速扩大的是越来越复杂的
在下一代移动通信(5G)中,应用场景不再是单一的,诸如物联网(Internet of Things,IoT)、车联网(Internet of Vehicle,IoV)、虚拟现实(Virtual Reality,VR)等新的应用场景被逐