论文部分内容阅读
随着Internet的迅速发展,电子邮件的应用变的十分广泛,它给人们的生活带来了极大的方便,然而,作为其发展的副产品——垃圾邮件,却给广大用户、网络管理员和ISP(Internet服务提供者)带来了大量的麻烦。垃圾邮件问题日益严重,受到研究人员的广泛关注。
垃圾邮件通常是指未经用户许可,但却被强行塞入用户邮箱的电子邮件。对于采用群发等技术的垃圾邮件,必须借助一定的技术手段进行反垃圾邮件工作。目前,反垃圾邮件技术主要包括:垃圾邮件过滤技术、邮件服务器的安全管理以及对简单邮件通信协议(SMTP)的改进研究等。
过滤技术是反垃圾邮件用到的主要技术。本文是基于数据挖掘技术进行的邮件过滤研究,论文根据电子邮件可转化为文本这一特性,通过对邮件过滤技术现状及发展趋势的了解,提出了将文本分类算法运用到垃圾邮件过滤技术之中。本论文的主要内容包括以下几个方面:第一章对垃圾邮件的危害及当前状况以及反垃圾邮件的技术作了简要介绍。第二章给出了利用文本挖掘对邮件进行过滤的基本步骤。第三章重点研究了在邮件预处理方面将半结构化的电子邮件转化为结构化的文本数据方法,特别是电子邮件潜在特征词的识别方法等。第四章对垃圾邮件分类方法和分类策略进行了研究,提出了一种以贝叶斯分类方法为主的多种分类法协作的垃圾邮件分类方法。特别地,为了解决垃圾邮件过滤过程中的“误承认”问题,对传统的贝叶斯分类方法进行了改进。第五章构建了一个主要基于内容的垃圾邮件过滤系统模型。最后对本文进行了总结,并提出了未来的研究方向。