基于规则权重合成的垃圾邮件过滤算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：douliangster

【摘要】

：

电子邮件过滤系统的主要任务是帮助用户节省手动删除垃圾邮件的时间和精力，帮助服务器过滤掉垃圾邮件以节省网络资源。邮件过滤属于文本分类的二值分类，系统必须具有实时性、高

【作者】

：

宋智洋

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2007年期

【关键词】

：

电子邮件过滤系统规则权重合成垃圾邮件 BP神经网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

电子邮件过滤系统的主要任务是帮助用户节省手动删除垃圾邮件的时间和精力，帮助服务器过滤掉垃圾邮件以节省网络资源。邮件过滤属于文本分类的二值分类，系统必须具有实时性、高效性、高可靠性，必要时要考虑用户个性化。根据2007年第一次反垃圾邮件调查报告分析显示，半数以上的用户没有使用邮件过滤服务，其中41％的用户认为过滤效果不明显、19%的用户认为过滤系统的功能不能满足其需要，由于中文垃圾邮件过滤的研究在国内起步较晚，在国外做得较少，影响了中文邮件过滤系统的性能和普及。　　本课题研究的目的在于提高邮件过滤系统的性能。本文分析了普通文本分类与垃圾邮件过滤在特征提取上的相同点和不同点，在规则提取上考虑了邮件特征词汇的分布特性，通过对统计结果的分析，改进了原有的特征提取算法，在邮件过滤中得到了较好的效果。接着引入理想化模型，提出了边界点圆半径特征提取算法。本文主要研究内容包括：　　(1)采用特征向量空间的样本建模方法，把邮件样本表示为特征词汇(规则）向量的形式。　　(2)分析邮件特征词的分布特点，改进并提出了若干特征提取算法，使提取出的规则可以较好的表现邮件的特性。　　(3)研究梯度下降神经网络，设计了BP神经网络，通过实验得到较好的神经网络结构参数，实现特征提取算法地规则提取特征性比较。　　(4)研究遗传算法理论，采用基于突变的遗传神经网络方法设计了一个邮件过滤系统，提高了邮件过滤的精度和可靠性，满足了中文垃圾邮件过滤的需求。　　本文在实现邮件过滤系统时采用了可以实现全局最优的遗传算法和预选择的小生境搜索等优化方法，在实验中获得了较理想的分类结果。对遗传神经网络与梯度下降的神经网络算法进行的对比分析表明：本系统所采用的遗传神经网络算法在效率和可靠性上都有了一定的提高，适合在邮件过滤系统的应用上面做进一步实现。

其他文献

基于BIBD的数据库压缩水印技术

随着数据库技术的不断发展及数据库管理系统的广泛应用,同多媒体数据一样,数据库也面临着版权保护的问题。当在Internet上允许指定用户远程查询和访问数据库时,数据提供者要

学位

数据库水印区组设计平衡不完全区组设计(BIBD)压缩水印水印信息与处理

生物异构网络的隐藏链接关系预测

生物系统是一种复杂系统，而生物网络是描述生物系统的一种有力工具。通过对生物网络研究，能够了解生物系统的运行过程，探索基因或其他分子化合物的功能作用。随着人类基因组计划

学位

生物异构网络链接预测算法致病基因致病非编码核糖核苷酸

SNMP在WCDMA基站中的应用

在WCDMA基站中，主控板和其他外围单板之间的交互显得非常繁琐，并且难以控制，一般的做法是采用大量的自定义的消息进行交互，即将需要交互的数据以厂家特定的形式封装在UDP或者TCP

学位

简单网络管理协议WCDMA基站嵌入式系统消息交互机制

RFID安全协议形式化分析研究及DRAP协议的建立与实现

随着计算机网络通信的迅猛发展,网络安全开始被人们所重视,其中安全协议分析验证已成为一个研究热点。对安全协议的分析验证的方法和手段有很多,其中形式化分析方法已被证明

学位

安全协议RFID系统串空间BAN逻辑形式化分析DRAP协议

基于稀疏编码特征的场景文本识别方法研究

场景文本识别主要研究的内容是识别出自然场景环境下拍摄的图像中所包含的文本。自然场景文本包括路牌、商业广告、杂货店店面和车牌号码等。随着计算机技术的发展，尤其是智能

学位

场景文本识别稀疏编码特征目标函数精确度控制

搜索引擎的话题在线聚类及标注方法研究

随着计算机技术的普及以及互联网的快速发展，搜索引擎已经成为人们日常生活中必备的信息搜索与获取工具。虽然搜索引擎发展非常迅速，但其效果远未达到令人满意的程度。用户不得

学位

搜索引擎在线聚类标注方法文本特征

基于全能体技术平台的分布式文件共享系统设计与实现

随着计算机网络的快速发展，以及计算机用户的增多，使得Internet上的信息呈爆炸式增长。传统的基于C/S结构的文件共享系统已经不能满足用户的需求，一批基于P2P结构的文件共享系统

学位

全能体技术平台分布式文件共享系统C/S结构P2P网络层次架构

基于PDA的心电监护系统的设计与实现

随着人们工作压力的日益增大，心血管疾病是现代工业社会中对人类生命威胁最大的疾病,我国城镇中现有4000多万冠心病患者。由于心脏疾病发病时具有很大的突然性,如果失去了宝贵

学位

PDA架构心电监护系统移动设备心电异常

一种基于稳定度的Ad Hoc网络路由协议的研究

AdHoc网是由一组带有无线收发装置的移动终端组成的一个多跳临时性自组织网络。它起源于军事上的需求，并且近几年来，随着便携式计算机设备的普及以及无线通信技术的快速发展，人

学位

稳定度Ad Hoc网络路由协议自组织性拓扑结构

基于值传递的故障诊断——模型、诊断和测试

基于模型的诊断是由Reiter在1987年提出的一种基于逻辑推理的故障诊断方法.待诊断系统的行为可以通过系统的输入输出变量之间的对应关系来描述.由于其一般性和在许多领域的应

学位

故障诊断诊断模型极小诊断值传递诊断分解可采纳性诊断测试故障诊断算法

基于规则权重合成的垃圾邮件过滤算法研究

其他学术论文