基于SVM的智能邮件过滤系统研究与设计

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:ctzlhst
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子邮件的广泛应用,垃圾邮件越来越对系统的安全和人们的生活造成很大的不便,反垃圾邮件问题已经成为具有重要现实意义的课题。 本文介绍了垃圾邮件的背景知识理论,并简要介绍了目前现有的邮件过滤手段以及其它相关的理论知识。对文本分类的相关技术,包括中文文本分词、文本特征提取、文本分类算法的性能评估方法等,进行探讨研究。 本文的主要工作: 1、对中文文本分词进行研究,并初步实现了一个汉语分词测试系统 本文在汉语自动分词方面,我们研究了分词系统实现的基本思想和组成框架,包括词语粗切分、未登录词识别、词性标注排歧等技术。在词语粗切分的研究中,综合最短路径方法与全切分方法,提出了一种基于N-最短路径一元统计的粗分模型对中文词语进行粗分,句子粗分召回率比常用方法有较大幅度的提高。在词性标注排歧的研究中,我们采用了CLAWS算法的思想,结合每个词的各个词性标记具有不同概率的特点,基于隐马尔科夫模型进行词性的标注排歧。 2、比较三种分类算法在垃圾邮件过滤的情况 本文阐明了邮件的特征表示方法和支持向量机理论,讨论了基于支持向量机的邮件过滤算法,并通过实验比较了支持向量机算法与简单向量距离法、贝叶斯算法在垃圾邮件过滤中的情况。结果表明,支持向量机算法的过滤效果明显优于另外两种算法。 3、本文设计并初步实现了一个基于支持向量机的智能邮件过滤系统 该系统位于邮件客户端,能对邮件样本进行自动学习,并自动登录服务器检测新邮件。本文所实现系统的特点在于:采用两级过滤方式,从而在过滤速度与效果上有较优的表现;在第一级过滤中不仅能按好友列表、地址黑名单过滤,还能按邮件主题的相似性过滤;在第二级过滤中不仅考虑邮件内容特征词条,还综合考虑了邮件的专项特征,因此,其过滤效果优于单纯的规则过滤和内容统计过滤;系统还采取了多项措施来减少因误判而带给用户的损失,如,保存可疑邮件,发送回执信息等。
其他文献
如何读懂周恩来?如何理解毛周两个伟人的性格特征及长达42年合作关系中最神秘的精髓?本文以铁的事实,鞭辟入里的雄辩,拂去蒙在周恩来身上的迷雾,还你一个鲜活而真实的周恩来!    若明若暗的周恩来这本书    在1956年韩素音的中国之行就要结束之前,对周恩来改善知识分子境遇的努力仍存疑虑的她,托人带了一句话给周恩来:“需要花二十年时间,你们才能懂得民主的含义。”仅仅一年时间,周恩来却懂得了毛泽东民主
本文是我在硕士阶段,在导师苏中根教授的悉心指导下完成的.全文共分三章: 第一章ρ-混合序列的矩不等式及其应用 自1999年张立新提出ρ-混合序列的概念以来,由于它在实际