遗传算法和贝叶斯模型在垃圾邮件过滤中的应用

来源 :电子科技大学 | 被引量 : 1次 | 上传用户：xieqi509

【摘要】

：

随着科学技术的快速发展和互联网时代的到来,电子邮件以其方便、快捷、低成本的特点成为人们工作、生活不可缺少的通讯工具。但是电子邮件的快速发展也让某些不法商人看到其

【作者】

：

邓曾

【机构】

：

电子科技大学

【出处】

：

电子科技大学

【发表日期】

：

2015年01期

【关键词】

：

垃圾邮件过滤互信息卡方统计遗传算法贝叶斯分类模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着科学技术的快速发展和互联网时代的到来,电子邮件以其方便、快捷、低成本的特点成为人们工作、生活不可缺少的通讯工具。但是电子邮件的快速发展也让某些不法商人看到其中的巨大利益,垃圾邮件随之出现并且日益泛滥。垃圾邮件在互联网上的传播不仅浪费互联网资源,而且成为有害信息和恶意软件传播的重要途径。由于数量庞大的垃圾邮件对个人和企业的利益都造成了严重危害,反垃圾邮件的相关技术和政策随之出现。在早期的反垃圾邮件技术中,研究者们提出了基于黑白名单的过滤技术、基于关键字的过滤技术、基于自定义规则的过滤技术等。这些方法能在一定程度上遏制垃圾邮件的传播,但是由于本身规则固定、且需要大量人工维护,目前都只是作为辅助手段。针对这些反垃圾邮件技术的缺点,研究者们提出了基于概率统计和机器学习的过滤技术,如贝叶斯分类技术。研究者们对于原始的贝叶斯分类技术进行了很多方面的改进,比如朴素贝叶斯分类模型以及AODE分类模型。针对实际应用场景中对实时性的要求,也有研究者提出了AAPE分类模型。但是AAPE分类模型在选择父属性时没有考虑属性本身的顺序对分类结果的影响,因此有可能导致分类早期的分类正确率较差。本文中针对AAPE分类模型的不足,提出了基于遗传算法和特征项权重的GAAPE分类模型,在计算资源和分类结果之间取得动态平衡。本文的主要研究成果如下:1.将遗传算法和特征项权重计算方法引入AAPE分类模型,提出了GAAPE分类模型。分别利用属性平均互信息和卡方统计信息的大小作为遗传算法适应度函数的依据,使用遗传算法将属性排序后分别计算SPODE。结果显示GAAPE分类模型分类效果比AAPE好,特别是在分类的早期能迅速降低分类错误率。2.设计并实现了一个基于GAAPE模型的垃圾邮件过滤系统原型。该系统引入了黑白名单和关键字过滤技术作为第一阶段的初步过滤,实现了以GAAPE分类模型为主体的第二阶段的智能过滤。通过实验测试,GAAPE分类模型比AAPE分类模型在分类准确度上有明显的提升,达到了过滤的即时性和准确性的动态平衡。

其他文献

移动环境下的P2P网络资源获取方法研究

Peer-to-Peer(P2P)网络技术是目前国际计算机网络技术研究领域的一个热点，其主要目的就是从分利用互联网中所蕴含的潜在资源(包括计算资源、存储资源和文件资源等)。随着移动

学位

P2P网络资源获取计算机网络网络拓扑蚁群算法

军队院校网络教学系统的设计与实现

本文以基于大学校园网网络教学系统的研制为背景，针对网络教学的需要，开展对多媒体网络教学系统的研究。在对目前已有的网络教学系统进行深入分析研究的基础上，构建适合于军队院

学位

军队院校网络教学多媒体信息网络基础

元数据驱动的Web服务质量保障框架设计与实现

Web服务平台为我们提供了非常成熟的高度异构分布式系统间跨平台、跨语言的互操作技术,但缺乏对安全、事务、可靠性消息传输等服务质量支持的缺点,阻碍了Web服务在企业级任务

学位

Web服务非功能属性元数据驱动服务质量保障框架

无人职守基站远程监控系统的设计与实现

我国近海渔业安全救助通信网由于诸多原因停止运行已有数年,近海渔业安全救助通信网关系到广大渔民的生命财产安全,也是近海渔业日常通信重要平台,因此恢复和升级改造的要求

学位

嵌入式系统客户机/服务器模型Linux驱动程序远程监控

关于教师机器人在教学中关键技术的研究

当今社会，随着信息技术日新月异的发展及大范围的应用，在教育领域中，对教育教学的形式提出了新的要求。传统教育的理念和传统教学的模式已不再能完全满足受教育人群不断变化的需

学位

教学模式教师机器人电子线路支持向量机实验教学

宽带多媒体增值业务运营平台中的DRM研究与应用

随着社会信息化的发展,越来越多的人融入到了信息化的潮流当中。而正是流媒体技术改变了网络多媒体信息的传播方式,数字媒体应用蓬勃发展,目前已广泛应用于视频点播(VOD)、电

学位

流媒体技术多媒体增值DRMWindows Media Rights Management加密技术DCTHuffman coding

基于工艺路线的多Agent车间调度系统设计与实现

生产调度系统是企业资源计划(Enterprise resource planning，简称ERP)的核心，也是目前我国ERP项目实施的瓶颈。在敏捷化、全球制造的新形势下，生产调度研究面临着许多新问题，迫切

学位

多工艺路线车间调度多Agent系统

基于达梦数据库的LDAP协议研究与实现

轻量级目录访问协议(Lightweight Directory Access Protocol,LDAP)是当前网络上信息资源管理领域中应用非常广泛的协议,能够满足大量用户同时在线访问。为使达梦数据库具有

学位

关系数据库轻量级目录访问协议目录存储目录访问

基于特定领域对象级垂直搜索中的对象抽取问题的研究

随着信息时代的到来,互联网上如雨后春笋一般出现了各种信息站点,给人们提供了大量的有用信息。但是出现了一个新的挑战,就是如何能让人快速定位到自己所需的信息,搜索引擎正

学位

对象级搜索引擎Web信息抽取Road Runner算法属性标注

嵌入式PDC控制器在车辆半主动悬架上的应用

悬架是现代汽车的重要组成部分之一,它是连接车架与车桥的弹性机构,是保证车辆乘坐舒适性和行驶安全性的重要组成部件。传统的被动悬架因为阻尼参数的不可调整,很难满足现代

学位

半主动悬架并行分布补偿自适应神经网络T-S模糊控制器ARM处理器uCLinux嵌入式操作系统MiniGUI图形库

遗传算法和贝叶斯模型在垃圾邮件过滤中的应用

其他学术论文