论文部分内容阅读
最近几年,互联网进入了飞速发展的时期,尤其是电子邮件的广泛使用极大的方便了人们的通讯交往,降低了人们的通讯成本,与此同时,也产生了新的问题——大量垃圾邮件的涌现,这也导致花大量的时间和精力来处理来垃圾邮件。如何更加准确地将垃圾邮件从正常邮件中区分出来并过滤掉,已经成为一个世界性的课题,即反垃圾邮件问题。为了解决这个让人棘手的问题,一定要采取一个系统化的方案,包括立法、社会组织、技术方法。从技术的角度出发,传播垃圾邮件和过滤垃圾邮件是此消彼长的长期斗争过程,就像反病毒一样。为此,本文就反垃圾邮件的应用技术,贝叶斯分类模型,中心距向量空间模型,多分类模型组合等相关理论和知识进行了研究。基于概率统计原理的贝叶斯分类算法是一种经典的文本分类方法,它本身具有理论发展成熟,分类准确度高的特点;中心距向量空间模型是一种新颖的文本分类算法,由于其很好的准确性,良好的多分类性能,目前也被广泛应用到各类文本分类应用中。在分析了这几种方法和技术在邮件过滤应用中各自的优缺点后,根据这几种算法的优缺点,对它们进行改良、相互结合、并增加了通过查看发出的邮件内容进行自动学习的机制。另外,该算法针对中英文垃圾邮件采用不同的学习算法,从而建立一个适用中英文环境的垃圾邮件过滤方法。实验表明,该方法的效率和性能达到了较好的水平。本文用VC++和MySQL数据库设计了一个基于贝叶斯算法的垃圾邮件过滤系统。具体实现是通过将基于TDI网络驱动过滤的技术和应用层的基于贝叶斯算法和中心距向量算法的文本分类技术结合起来达到的。为了提高贝叶斯算法对中文邮件的处理精度,引入了中文分词机制。中文分词采用的中国科学院计算技术研究所汉语词法分析系统ICTCLAS的开源代码。经过测试,系统的的垃圾邮件过滤功能的效果相当的好。