改进的KNN算法在过滤垃圾邮件中的应用研究

被引量 : 0次 | 上传用户:aileenliuwei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的广泛普及,电子邮件已经成为人们日常生活中最便捷、最经济的通信手段。但是电子邮件给用户带来便捷的同时,也带来了不可避免的副产品——垃圾邮件。由于实现比较简单以及受到利益的驱使,一些企业和个人采用了这种最经济的方式进行商业广告,一些黑客也采用发送电子邮件进行违法行为:盗窃用户的机密资料,攻击用户的电脑等。电子邮件用户几乎每天都要收到几十、几百封垃圾邮件,每天都需要花费一定的精力与时间来判断是否为垃圾邮件,并进行清除。垃圾邮件不仅影响到了电子邮件用户,对网络运营提供商和网络管理员也带来了无尽的烦恼。这些所谓的垃圾邮件会占用用户的带宽、时间和存储资源,如果泛滥严重甚至会对网络通信造成堵塞,使得正常邮件不能正常发送和接收,垃圾邮件严重阻碍了互联网的健康发展。因此对垃圾邮件过滤技术的研究具有很大的实用价值,也是亟待解决的问题。本文全面分析当前垃圾邮件的主要特点以及垃圾邮件过滤技术的发展状况;深入讨论了各种反垃圾邮件技术的相关理论和各自的优缺点。针对当前效果较好的KNN算法进行了深入的研究,针对KNN算法的不足:传统的KNN算法只考虑到相似度之和,或者简单的利用相似度个数的多少来进行判断;将KNN算法应用于垃圾邮件的过滤中,而没有考虑到垃圾邮件本身的偏依赖特性,即用户情愿多收到一封垃圾邮件,也不愿意让垃圾邮件过滤系统将自己的正常邮件误判为垃圾邮件过滤掉;传统的KNN分类算法进行分类时,每次都需要将待测样本和训练样本集中的每个样本进行比较,计算相似度,计算量十分的大,不适合实时性要求比较高的垃圾邮件过滤系统。本文针对上述KNN算法的不足之处进行改进,提出并设计一种考虑了偏依赖特性的基于平均相似度和相似度个数的KNN算法。该算法首先通过计算平均相似度而不是相似度之和来表示类权重值,同时考虑到相似样本的个数对分类性能的影响;其次引入了两个表示垃圾邮件本身的偏依赖特性的参数;最后,为了解决KNN算法的计算量大的缺点,本文利用类中心向量法的思想,通过将将原始样本转化为一个个小类,并计算每个小类的中心向量,以代表原始训练样本建立分类模型,这就相当于将大样本转化为小样本,减少了比较次数,大大降低了KNN分类算法的计算量。实验表明,与传统的KNN算法进行对比,本文提出的APC-KNN算法应用于垃圾邮件的过滤,具有高正确率,低误报率等优点;并且能够更好的实现垃圾邮件的过滤,起到了保护电子邮件用户以及节省宽带等效果。
其他文献
为了确定直流接地极入地电流对交流电网中有效接地的变压器运行产生的影响程度,通过采用物探法和电流注入法相结合的方法,或根据接地极实际入地电流在地面产生的电位分布测量
介绍了国外矿井通风机应用方式由离心风机 -轴流风机 -离心风机的变迁原因 ,举例分析国外矿井通风机的参数选择 ,并根据国内外条件的不同提出笔者见解
离心式丙烯制冷压缩机反转破坏性极强,根据多年现场实际经验介绍了压缩机的反转后果、原因及通过技术改造和工艺操作等措施尽可能避免反转的发生。
当前,随着市场经济的快速发展,能源短缺问题日益严峻。为了能够建设节约型社会,推动社会的可持续发展,越来越多的建筑企业在施工技术中应用了节能理念。为此,下文将对几种常
高职院校外聘教师的来源包括企业、高校等六大方面,由于其类型不同,管理诉求也不尽相同,在许多方面存在着潜在的法律风险.文章从规避法律风险的角度出发,探讨高职院校外聘教
本文总结了发达国家人口转型的历史,认为人口生育率下降、人口素质提高的转型过程,与发达国家经济发展水平、教育资源供给和社会保障政策等,具有密切的联系。这对我国的人口
评价《鲁商文化丛书》得与失,《丛书》与鲁商文化普及推广;阐述鲁商概念:关于鲁商“涵盖面”的认识,鲁商思想文化元素,官商文化和儒家文化。重点论述鲁商①以农为本和本地家族经营
树立“大武夷旅游”观念,南平市旅游一盘棋,在举措上要“突出武夷山,突破武夷山”,以期形成大武夷旅游的产业格局,
随着全国青少年校园足球活动的正式启动,2015年新疆迎来了大好的发展机遇,被列为全国校园足球改革试验区之一。通过问卷调查法、数理统计法等对布点学校场地、器材硬件设施情况
目的探讨前列腺癌组织中E2F3蛋白的表达及临床意义。方法应用免疫组化EliVisionTMplus二步法,检测49例前列腺癌(prostate cancer,PCa),20例良性前列腺增生(benign prostatic hyp