基于贝叶斯算法的垃圾邮件识别与过滤技术研究

来源 :南京工业大学 | 被引量 : 0次 | 上传用户:weihan0533
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速普及,电子邮件以其快捷、方便、低成本的特点逐渐成为人们进行信息交流的主要媒介之一,但是随之而来的垃圾邮件也越来越泛滥。垃圾邮件占用了有限的存储、计算和网络资源,耗费了用户大量的处理时间,影响和干扰了用户的正常工作、生活和学习。如何有效地治理垃圾邮件问题是全世界共同面临的一道难题,也是互联网上目前亟待解决的问题。   本文首先研究了大量近期垃圾邮件样本,归纳总结了当前垃圾邮件发送者经常采用的欺骗手段和方法,并参阅国内外大量垃圾邮件识别技术的文献和数据,对已有的垃圾邮件识别技术作出分析和总结,尤其是基于内容识别的垃圾邮件过滤方法进行了研究。在此基础上,针对在基于内容识别的垃圾邮件过滤中使用最广的Bayes分类算法进行了实验性的验证。该算法能在正确分类邮件的同时,减少合法邮件的误判率,在对垃圾邮件进行分类与过滤时具有较好的性能。   其次,本文还研究了基于复制检测技术的垃圾邮件过滤方法,实现了Nilsimsa算法。   最后针对一种以HTML形式发送的包含大量超链接的垃圾邮件,提出基于URL技术的过滤方法。试验结果表明,基于URL的过滤实用有效,能识别基于内容的垃圾邮件过滤算法难于判断的垃圾邮件,是基于内容识别过滤方法的一种有效补充。
其他文献
本文研究寡头市场中的产品组合定价,即在寡头竞争的背景下采用博弈方法来设计产品组合的定价。以寡头企业间竞争为核心研究产品组合定价可以促进寡头企业间定价理论和定价策略
由于太阳能的诸多优势使它受到人们的重视,在太阳能的多种利用形式中,光伏并网发电是其中最有前景的一种。因此,本文对并网控制的关键技术进行研究,主要包括DC-DC模块、DC-AC模块
飞行训练的指挥调配和航空管制是各级飞行训练机构和单位的组织指挥者,为完成上级赋予的飞行训练任务,实现飞行训练的目标,综合运用各种组织指挥方法和手段,合理调配使用人员
随着非线性科学的发展,越来越多的科学家认为这个世界在本质上是非线性的,非线性系统理论已经涉及到几乎所有的自然科学领域,尤其是在近现代数学物理和科学工程研究中,许多关键的
机器人技术代表了机电一体化的最高成就,是二十世纪人类最伟大的成果之一。机器人中的两足步行机器人虽然只有近四十年的历史,但是由于它独特的适应性和拟人性,成为了机器人领域
随着“公交优先”策略的施行,我国公交企业自传统的单线调度模式向区域调度模式的变革趋势越来越明显,而我国关于公交区域调度的理论与方法的研究仍显薄弱。公交车辆区域调度的
随着信息技术的迅速发展和我军信息化建设的不断深入,通过网络实现库存装备管理,将成为今后我军装备管理信息化的发展方向。开发基于网络环境下的库存装备管理信息系统是提高库
随着电缆成本的下降和城市电网改造工作的开展,电缆的应用日益广泛。但由于电缆数量的增多以及运行时间的延长等诸多方面因素的影响,输电线路发生故障是不可能完全避免的。如何快速准确的发现电缆故障,并对故障点进行定位成为人们关注的一个问题。但是,到目前为止,输电线路故障测距仍然缺少有效的方法。本课题是对贝叶斯频谱估计算法的应用性研究。针对目前故障检测算法的不足,提出了基于行波理论的贝叶斯故障检测算法,并给出
随着缝制业的不断发展,目前缝制机械技术已经全面进入机电一体化阶段。在不断追求缝制速度和缝制质量的前提下,结合实际情况研制了高速工业平缝机伺服控制系统。 本论文研究
突发事件发生后舆情信息可以通过不同的媒介快速传播,如近邻交流、网络扩散等,个人的观点往往会受到周边意见的影响。群体因信息的传播交互建立彼此间的联系,进而形成突发信