基于粗糙集的最小风险贝叶斯垃圾邮件过滤算法的研究

来源 :南开大学 | 被引量 : 0次 | 上传用户：guansea

【摘要】

：

随着因特网的迅猛发展，在线的可用电子信息也迅速增加，电子邮件作为一种最快捷、最经济的通讯方式，也得到飞速发展。但是同时，许多垃圾邮件也在网络中蔓延，占据了邮件服务器的大量

【作者】

：

周霞

【机构】

：

南开大学

【出处】

：

南开大学

【发表日期】

：

2007年期

【关键词】

：

朴素贝叶斯粗糙集最小风险贝叶斯垃圾邮件过滤数据库处理

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着因特网的迅猛发展，在线的可用电子信息也迅速增加，电子邮件作为一种最快捷、最经济的通讯方式，也得到飞速发展。但是同时，许多垃圾邮件也在网络中蔓延，占据了邮件服务器的大量存储空间，用户往往要花费大量时间去删除这些垃圾邮件。因此，研究有效的过滤算法具有重要的意义。邮件的自动过滤主要有基于规则和基于概率两种方式。基于概率的朴素贝叶斯算法具有方法简单、运算速度快、分类精确度高等优点，在邮件过滤中得到广泛应用。但是，在邮件过滤过程中，合法邮件被误判为垃圾邮件将可能给用户带来巨大的损失。本文介绍了当前邮件过滤的国内外研究现状，分析了传统贝叶斯算法在邮件过滤过程中存在的局限性，传统的朴素贝叶斯算法在对邮件进行分类与过滤时，没有充分考虑到合法邮件与垃圾邮件具有这一不同的特性，因此用于邮件过滤时有一定的局限性。同时，朴素贝叶斯分类模型中的类条件独立假设也是它的先天不足所在，独立性假设在许多实际问题中不能够成立，如果在这些问题中忽视这一点，会引起分类的误差。针对朴素贝叶斯的不足，本文提出了基于粗糙集的最小风险贝叶斯邮件过滤算法，该算法通过粗糙集属性约简在保持分类一致的前提下简化数据，从而削减冗余对象与属性、寻求属性的最小子集，满足属性间的相互独立条件；在传统的将邮件分类为正常邮件以及垃圾邮件的基础上，提出将邮件分为三类，即正常邮件，垃圾邮件以及可疑邮件，从而降低正常邮件的误判率。在实现粗糙集属性约简时，提出基于数据库的属性约简方法，提升了约简效率。实验结果表明，该算法能在正确分类邮件的同时，减少合法邮件的误判率，在对垃圾邮件进行分类与过滤时具有较好的性能。本文的基于粗糙集的最小风险贝叶斯邮件过滤算法以及计算过程中采用的基于数据库的处理方法对垃圾邮件的过滤系统具有一定的参考作用。

其他文献

延迟容忍网络的连接查询处理

随着人们对各种应用需求的增加，网络也朝着多样化发展。在某些网络中，节点是不断移动的，节点之间的消息传递依赖于节点的相遇机会且得不到可靠的保证。网络中的移动节点具有间歇

学位

延迟容忍网络多连接查询布鲁姆过滤器GPU

基于商务智能的电子商务企业客户价值分析研究

随着Internet网规模的急剧扩大，网络用户越来越多，给电子商务的发展和普及提供了广阔的发展空间。网络上的信息量爆炸性地激增，但是网络中信息组织是非结构化或半结构化的。如何

学位

电子商务客户价值商务智能数据挖掘

面向版面加速的嵌入式ASIP设计与实现

随着显示技术的进步以及人们对阅读舒适度要求的不断提高，电子阅读装置的显示屏越来越大，色彩越来越丰富，与此同时，人们对于电子读物版面描述能力的要求也在不断提高，电子读物的版

学位

版面加速屏幕印刷现场可编程门阵列微处理器软核电子读物专用指令集处理器

基于USB接口的DSP仿真器驱动程序的设计与实现

本文主要介绍了基于USB系统的DSP仿真器的开发与实现，在实现过程中既有硬件的设计与实现，又有软件的研究与开发，从而实现整个系统的运行。论文首先介绍USB的体系结构和特点，

学位

USB接口JTAG驱动程序仿真器

基于QnA网络论坛的知识表示系统及应用

随着互联网络的不断发展，网络应用已深入到日常生活的方方面面。互联网上的各类服务，在为用户提供方便的同时也积累了大量的数据，如何有效的利用这些数据已成为一个重要课题。基

学位

自动问题回答自然语言处理知识推导QnA网络论坛知识表示系统数据库结构

手持阅读检索系统设计与实现

嵌入式技术的飞速发展以及电子纸显示技术的逐步成熟为手持阅读应用提供了良好的土壤。V2手持阅读器是专门针对用户静态阅读需求的嵌入式设备。它的电子纸屏幕印刷系统和文档

学位

元数据数字图书手持阅读检索系统

网守系统MY-GK的设计与实现

IP电话是当今Intemet增值业务研究的一个技术热点，具有广阔的应用前景。网守是基于H.323技术构建的IP电话系统的重要组成部件。本文分析了H.323协议，对网守系统做了详尽的需求

学位

网守系统IP电话需求分析网络测试

基于增量学习和特征融合的多摄像机协作监控系统目标匹配方法研究

在智能多摄像机协作监控系统中，目标匹配是一个重要且研究难度较大的问题。对于大型的多摄像机网络，难以对摄像机进行标定，因而缺少可用的时空关联信息，在目标匹配的时候往往只能

学位

视频目标匹配多摄像机协作监控增量学习智能视频系统

印刷体数学公式结构分析与理解的研究

网络与多媒体技术的高速发展带来了对信息的巨大需求。如何将文献信息输入计算机进行加工、处理已成为信息化建设的重要问题。目前主流OCR (Optical Characters Recognition,

学位

光学字符识别数学公式识别结构分析基线控制域

基于802.11无线局域网的可扩展入侵检测系统的研制

基于IEEE 802.11标准的无线局域网接入技术已经成为市场和应用的热点。但无线局域网在带来方便的同时，也带来了很多新的安全隐患。为此，业界提出了一些安全增强机制，包括：802.1x

学位

无线局域网入侵检测系统有线等效加密非法接入点驾驶攻击

基于粗糙集的最小风险贝叶斯垃圾邮件过滤算法的研究

其他学术论文