中文垃圾邮件过滤技术的研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:sz_ocean
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
众所周知,电子邮件是互联网最重要、最普及的应用,大大方便了人们生活、工作和学习。但垃圾邮件问题也日益严峻,经过综合计算,垃圾邮件给中国的GDP每年造成的损失多达60.69亿人民币。由于法律、技术等多方面的原因,目前还无法从根源上制止垃圾邮件的产生,所以研究反垃圾邮件技术势在必行。其中基于内容的反垃圾邮件技术是目前国际上研究的重点。 本文在总结前人所做工作的基础上,针对中文邮件的特性,从整体上对邮件过滤系统进行了深入的研究,并在特征抽取、分类算法等方面提出了一些改进意见。 具体来说,本文做了以下工作: 1.从经济、法律、技术等方面讨论了垃圾邮件产生的原因,总结了目前国内外垃圾邮件过滤技术的现状,并详细介绍了文本分类算法在基于内容邮件过滤技术上的应用。 2.本文通过一系列的实验,分析了特征抽取算法、特征词数量及词性选择等因素对邮件过滤系统的影响。我们发现,优势率算法非常适合邮件文本的特征抽取。同时我们发现了中文邮件文本特征在词性和数量方面的一些规律。 3.考虑到邮件过滤系统中再学习能力的重要性,本文将一种增量式贝叶斯分类模型运用到邮件过滤系统中,并取得了很好的效果。实验证明,它可以大幅提高对未知邮件的分类正确性。另外,本文将广泛应用在中心法的DragPushing修正算法的思想应用到朴素贝叶斯分类器上去,它可以有效地提高朴素贝叶斯分类器的准确率。 4.文章最后,提出了一个理想的垃圾邮件过滤系统的模型。
其他文献
随着信息技术和计算机网络的飞速发展,数字式多媒体信息的存储、复制与传播变得非常方便。人们可以通过Internet或CD-ROM获得多媒体信息,可以得到与原始数据完全相同的复制品,并
达斯坦是维吾尔语表示“叙事诗、史诗”之意,在维吾尔民间文学中的一个重大文类。口承达斯坦唱和说相结合的表演方式是维吾尔民间民俗娱乐活动的一种独特传承方式。达斯坦奇
随着物联网时代的到来,无线传感器网络的应用也越来越广泛。作为无线传感器网络工业标准之一的ZigBee技术,具有高可靠性、低成本和低功耗的特点,被广泛应用于工业控制、农业
本论文主要研究的是并联坐标测量机。因虚拟样机技术无需建造实物样机,从而使得它在虚拟轴机床的设计上具有很好的应用前景。本论文针对Stewart型六自由度并联坐标测量机的机
满族说部是满族民间长篇说唱艺术,它是满族各个氏族传讲自己祖先英雄史的重要形式。萨布素的系列说部故事是长期流传于满族民间的著名英雄故事。在萨布素故事中出现了许多满
基于激光测量的人体三维发型特征数据库系统是对发型数据库数学建模的一种新方法的探讨,即三维发型数据采集与数学建模以及数据库的结合。基于激光测量的人体三维发型特征数据
随着人民生活水平的不断提高,市场对于河蟹产品的需求量逐年攀升,河蟹产业也成为了我国淡水养殖中的支柱产业。在河蟹的养殖过程中主要面临着水草清理和均匀投饵两大难题,当
企业报没看头,是企业报从业人员无能么?素质差的问题确实存在,但不是主要的。关键是报社人员只被当作宣传干事、办事员看待,还不如其它部门办事员有实权。企业的行政、党委,
本论文以某冶炼厂整流系统的谐波治理和无功补偿为研究对象,旨在研究大容量电网的谐波治理工程应用技术,为高压、大功率有源电力滤波器(APF,Active Power Filter)在国内的早日普
根据文献计量学原理,从载文数量、栏目设置、作者民族及地域分布、引文数量及类型等角度,对《民族文学研究》从1983~2012这三十年间所刊载的131期论文进行定量统计与分析,可以从一个侧面考察该刊在推动我国少数民族文学研究事业的发展以及培养人才队伍等方面所取得的成就,并为今后的少数民族文学研究提供一定的数据参考.