一种复合的双引擎智能垃圾邮件过滤方法

来源 :重庆大学 | 被引量 : 0次 | 上传用户:Taurus_God
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最近几年,互联网进入了飞速发展的时期,尤其是电子邮件的广泛使用极大的方便了人们的通讯交往,降低了人们的通讯成本,与此同时,也产生了新的问题——大量垃圾邮件的涌现,这也导致花大量的时间和精力来处理来垃圾邮件。如何更加准确地将垃圾邮件从正常邮件中区分出来并过滤掉,已经成为一个世界性的课题,即反垃圾邮件问题。为了解决这个让人棘手的问题,一定要采取一个系统化的方案,包括立法、社会组织、技术方法。从技术的角度出发,传播垃圾邮件和过滤垃圾邮件是此消彼长的长期斗争过程,就像反病毒一样。为此,本文就反垃圾邮件的应用技术,贝叶斯分类模型,中心距向量空间模型,多分类模型组合等相关理论和知识进行了研究。基于概率统计原理的贝叶斯分类算法是一种经典的文本分类方法,它本身具有理论发展成熟,分类准确度高的特点;中心距向量空间模型是一种新颖的文本分类算法,由于其很好的准确性,良好的多分类性能,目前也被广泛应用到各类文本分类应用中。在分析了这几种方法和技术在邮件过滤应用中各自的优缺点后,根据这几种算法的优缺点,对它们进行改良、相互结合、并增加了通过查看发出的邮件内容进行自动学习的机制。另外,该算法针对中英文垃圾邮件采用不同的学习算法,从而建立一个适用中英文环境的垃圾邮件过滤方法。实验表明,该方法的效率和性能达到了较好的水平。本文用VC++和MySQL数据库设计了一个基于贝叶斯算法的垃圾邮件过滤系统。具体实现是通过将基于TDI网络驱动过滤的技术和应用层的基于贝叶斯算法和中心距向量算法的文本分类技术结合起来达到的。为了提高贝叶斯算法对中文邮件的处理精度,引入了中文分词机制。中文分词采用的中国科学院计算技术研究所汉语词法分析系统ICTCLAS的开源代码。经过测试,系统的的垃圾邮件过滤功能的效果相当的好。
其他文献
随着科学技术的发展,数据规模不断增大,尤其是在以计算机和互联网为基础的应用中数据更是以指数形式增长。海量数据在带来丰富信息的同时,也带来许多质量问题,如数据不完整、不一
以计算机视觉的观点,图像中包含的噪声会显著降低图像的视觉效果,并影响后续的处理分析算法的性能。因此,图像去噪作为一类典型的底层视觉问题已经引起了众多学者的广泛关注。为
随着互联网和多媒体技术的迅速发展,多媒体数据(如图像、音频、视频等)逐渐成为人们获取信息的重要来源,人们可以轻松地从网络上获取各种各样的多媒体信息。与此同时大量诸如非
目前,越来越多的分布式应用采用消息中间件来构建。消息中间件适用于事件驱动的应用。通过消息中间件可以进行异步数据传输,还能够完成应用程序之间的协同工作。 论文主要研
随机游走算法应用在场论、排队论和股票期货交易等方面的理论有很多。在油藏描述和油藏工程中的应用也有文献发表。但在储层沉积相的随机建模方面的研究几乎处于空白,本文从这
计算机、嵌入式系统以及通信技术的飞速发展,促进了家用电器设备的网络化和智能化。智能家居正在逐渐走进人们的视野,大家也开始追求更加品位、安全、舒适、便捷和智能化的现代
Web服务采用统一的Web规范,屏蔽了各种平台的差异,实现了Web应用的跨平台调用和高度的可集成性。Web服务的主要目标就是构筑一个通用的、与平台无关、语言无关的技术层。各种
随着油田勘探和开发,勘探开发难度日趋加大。这就要求地质工作者尽可能的掌握油藏参数,提高开发效益。因此,必须建立反映实际情况不同的地质模型,为了对油藏参数做出精确的预测及
自从20世纪90年代以来,网络进入飞速发展的时代。网络在社会生活的各个方面都得到了广泛的应用。但是由于网络本身安全方面的缺陷,黑客网络攻击与入侵行为、安全信息泄漏等事
随着网络与电子商务的发展,多媒体作品以及软件产品以数字格式在网络传播将成为主流方式。因此不可避免的带来了版权的问题。同时由于数字产品的易拷贝性,使盗版变得非常容易