论文部分内容阅读
随着电子邮件的广泛应用,垃圾邮件越来越对系统的安全和人们的生活造成很大的不便,反垃圾邮件问题已经成为具有重要现实意义的课题。
本文介绍了垃圾邮件的背景知识理论,并简要介绍了目前现有的邮件过滤手段以及其它相关的理论知识。对文本分类的相关技术,包括中文文本分词、文本特征提取、文本分类算法的性能评估方法等,进行探讨研究。
本文的主要工作:
1、对中文文本分词进行研究,并初步实现了一个汉语分词测试系统
本文在汉语自动分词方面,我们研究了分词系统实现的基本思想和组成框架,包括词语粗切分、未登录词识别、词性标注排歧等技术。在词语粗切分的研究中,综合最短路径方法与全切分方法,提出了一种基于N-最短路径一元统计的粗分模型对中文词语进行粗分,句子粗分召回率比常用方法有较大幅度的提高。在词性标注排歧的研究中,我们采用了CLAWS算法的思想,结合每个词的各个词性标记具有不同概率的特点,基于隐马尔科夫模型进行词性的标注排歧。
2、比较三种分类算法在垃圾邮件过滤的情况
本文阐明了邮件的特征表示方法和支持向量机理论,讨论了基于支持向量机的邮件过滤算法,并通过实验比较了支持向量机算法与简单向量距离法、贝叶斯算法在垃圾邮件过滤中的情况。结果表明,支持向量机算法的过滤效果明显优于另外两种算法。
3、本文设计并初步实现了一个基于支持向量机的智能邮件过滤系统
该系统位于邮件客户端,能对邮件样本进行自动学习,并自动登录服务器检测新邮件。本文所实现系统的特点在于:采用两级过滤方式,从而在过滤速度与效果上有较优的表现;在第一级过滤中不仅能按好友列表、地址黑名单过滤,还能按邮件主题的相似性过滤;在第二级过滤中不仅考虑邮件内容特征词条,还综合考虑了邮件的专项特征,因此,其过滤效果优于单纯的规则过滤和内容统计过滤;系统还采取了多项措施来减少因误判而带给用户的损失,如,保存可疑邮件,发送回执信息等。