基于文本挖掘的垃圾邮件过滤技术研究

来源 :中国海洋大学 | 被引量 : 0次 | 上传用户:hjiejngd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展,电子邮件的应用变的十分广泛,它给人们的生活带来了极大的方便,然而,作为其发展的副产品——垃圾邮件,却给广大用户、网络管理员和ISP(Internet服务提供者)带来了大量的麻烦。垃圾邮件问题日益严重,受到研究人员的广泛关注。 垃圾邮件通常是指未经用户许可,但却被强行塞入用户邮箱的电子邮件。对于采用群发等技术的垃圾邮件,必须借助一定的技术手段进行反垃圾邮件工作。目前,反垃圾邮件技术主要包括:垃圾邮件过滤技术、邮件服务器的安全管理以及对简单邮件通信协议(SMTP)的改进研究等。 过滤技术是反垃圾邮件用到的主要技术。本文是基于数据挖掘技术进行的邮件过滤研究,论文根据电子邮件可转化为文本这一特性,通过对邮件过滤技术现状及发展趋势的了解,提出了将文本分类算法运用到垃圾邮件过滤技术之中。本论文的主要内容包括以下几个方面:第一章对垃圾邮件的危害及当前状况以及反垃圾邮件的技术作了简要介绍。第二章给出了利用文本挖掘对邮件进行过滤的基本步骤。第三章重点研究了在邮件预处理方面将半结构化的电子邮件转化为结构化的文本数据方法,特别是电子邮件潜在特征词的识别方法等。第四章对垃圾邮件分类方法和分类策略进行了研究,提出了一种以贝叶斯分类方法为主的多种分类法协作的垃圾邮件分类方法。特别地,为了解决垃圾邮件过滤过程中的“误承认”问题,对传统的贝叶斯分类方法进行了改进。第五章构建了一个主要基于内容的垃圾邮件过滤系统模型。最后对本文进行了总结,并提出了未来的研究方向。
其他文献
学位
期刊
期刊
期刊
报纸
期刊
针对误用检测不能发现未知入侵、异常检测具有较高误报率的现状,本文应用了一个将两种分析手段相结合的检测方法,从网络历史审计数据里应用决策树算法分别得到正常与异常行为规则库。以待检测数据与正常与异常行为规则分别比较,从中得到最优匹配规则,从而判别该行为类型。当发现有系统不能识别的新的数据模式出现时,采用人为干预的方式,将其提交管理员处理,系统在管理员的指导下,更新规则库,使之完备,从而有了识别
学位
学位
会议
报纸