遗传算法和贝叶斯模型在垃圾邮件过滤中的应用

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:xieqi509
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的快速发展和互联网时代的到来,电子邮件以其方便、快捷、低成本的特点成为人们工作、生活不可缺少的通讯工具。但是电子邮件的快速发展也让某些不法商人看到其中的巨大利益,垃圾邮件随之出现并且日益泛滥。垃圾邮件在互联网上的传播不仅浪费互联网资源,而且成为有害信息和恶意软件传播的重要途径。由于数量庞大的垃圾邮件对个人和企业的利益都造成了严重危害,反垃圾邮件的相关技术和政策随之出现。在早期的反垃圾邮件技术中,研究者们提出了基于黑白名单的过滤技术、基于关键字的过滤技术、基于自定义规则的过滤技术等。这些方法能在一定程度上遏制垃圾邮件的传播,但是由于本身规则固定、且需要大量人工维护,目前都只是作为辅助手段。针对这些反垃圾邮件技术的缺点,研究者们提出了基于概率统计和机器学习的过滤技术,如贝叶斯分类技术。研究者们对于原始的贝叶斯分类技术进行了很多方面的改进,比如朴素贝叶斯分类模型以及AODE分类模型。针对实际应用场景中对实时性的要求,也有研究者提出了AAPE分类模型。但是AAPE分类模型在选择父属性时没有考虑属性本身的顺序对分类结果的影响,因此有可能导致分类早期的分类正确率较差。本文中针对AAPE分类模型的不足,提出了基于遗传算法和特征项权重的GAAPE分类模型,在计算资源和分类结果之间取得动态平衡。本文的主要研究成果如下:1.将遗传算法和特征项权重计算方法引入AAPE分类模型,提出了GAAPE分类模型。分别利用属性平均互信息和卡方统计信息的大小作为遗传算法适应度函数的依据,使用遗传算法将属性排序后分别计算SPODE。结果显示GAAPE分类模型分类效果比AAPE好,特别是在分类的早期能迅速降低分类错误率。2.设计并实现了一个基于GAAPE模型的垃圾邮件过滤系统原型。该系统引入了黑白名单和关键字过滤技术作为第一阶段的初步过滤,实现了以GAAPE分类模型为主体的第二阶段的智能过滤。通过实验测试,GAAPE分类模型比AAPE分类模型在分类准确度上有明显的提升,达到了过滤的即时性和准确性的动态平衡。
其他文献
Peer-to-Peer(P2P)网络技术是目前国际计算机网络技术研究领域的一个热点,其主要目的就是从分利用互联网中所蕴含的潜在资源(包括计算资源、存储资源和文件资源等)。随着移动
本文以基于大学校园网网络教学系统的研制为背景,针对网络教学的需要,开展对多媒体网络教学系统的研究。在对目前已有的网络教学系统进行深入分析研究的基础上,构建适合于军队院
Web服务平台为我们提供了非常成熟的高度异构分布式系统间跨平台、跨语言的互操作技术,但缺乏对安全、事务、可靠性消息传输等服务质量支持的缺点,阻碍了Web服务在企业级任务
我国近海渔业安全救助通信网由于诸多原因停止运行已有数年,近海渔业安全救助通信网关系到广大渔民的生命财产安全,也是近海渔业日常通信重要平台,因此恢复和升级改造的要求
当今社会,随着信息技术日新月异的发展及大范围的应用,在教育领域中,对教育教学的形式提出了新的要求。传统教育的理念和传统教学的模式已不再能完全满足受教育人群不断变化的需
随着社会信息化的发展,越来越多的人融入到了信息化的潮流当中。而正是流媒体技术改变了网络多媒体信息的传播方式,数字媒体应用蓬勃发展,目前已广泛应用于视频点播(VOD)、电
生产调度系统是企业资源计划(Enterprise resource planning,简称ERP)的核心,也是目前我国ERP项目实施的瓶颈。在敏捷化、全球制造的新形势下,生产调度研究面临着许多新问题,迫切
轻量级目录访问协议(Lightweight Directory Access Protocol,LDAP)是当前网络上信息资源管理领域中应用非常广泛的协议,能够满足大量用户同时在线访问。为使达梦数据库具有
随着信息时代的到来,互联网上如雨后春笋一般出现了各种信息站点,给人们提供了大量的有用信息。但是出现了一个新的挑战,就是如何能让人快速定位到自己所需的信息,搜索引擎正
悬架是现代汽车的重要组成部分之一,它是连接车架与车桥的弹性机构,是保证车辆乘坐舒适性和行驶安全性的重要组成部件。传统的被动悬架因为阻尼参数的不可调整,很难满足现代