【摘 要】
:
随着Internet的发展,电子邮件以其快捷、方便、低成本的特点得到了广泛的使用,这也给一些不法分子提供了可乘之机,肆意的传播垃圾邮件,不仅占用有限的网络资源,耗费用户大量的时间
论文部分内容阅读
随着Internet的发展,电子邮件以其快捷、方便、低成本的特点得到了广泛的使用,这也给一些不法分子提供了可乘之机,肆意的传播垃圾邮件,不仅占用有限的网络资源,耗费用户大量的时间,还对系统安全造成了严重的威胁,严重影响和危害人们的工作、生活和学习。垃圾邮件也不断从内容上和形式上改进来逃避过滤器的识别,采用技术手段杜绝垃圾邮件的传播已经成为刻不容缓的事实。其中基于内容的垃圾邮件过滤技术就是从邮件正文的角度出发设计过滤器,识别过滤垃圾邮件的方法。
全文主要从以下三大技术方面进行基于内容的垃圾邮件过滤算法的研究:
(1)文本处理时特征矢量的高维性对分类效果和计算效率有重要的影响,本文在传统算法研究的基础上采用投票的思想,对各种算法的权值排序然后取其交集,仿真研究了维数对分类结果的影响。实验验证这种特征提取算法能很好的综合传统算法的优点,达到了满意的降维效果。
(2)针对Winnow算法参数设置繁琐及抖动的问题,提出一种自修正参数的Winnow形式,根据训练样本判别函数与阈值的关系实时调节修正因子,实验验证该算法能较好的减少训练时出现的抖动,减弱了训练次数对分类结果的影响,而且它具有很好的自适应性,提高了Winnow算法的适应性。
(3)针对KNN算法分类结果对语料集的依赖性,提出一种基于类中心的样本剪裁方法,该方法根据语料集中样本与样本类中心的余弦夹角,挑选最近的样本作为测试样本,不仅大大减小了测试时的样本大小,而且解决了样本分布不均匀对结果的影响。在相同样本大小的前提下,综合评价指标较未处理的样本有明显的提高。
最后,针对前期的算法研究,设计了用于仿真的基于内容的垃圾邮件过滤系统,并在此基础上对各种算法的综合性能进行了分析比较。
其他文献
柴油发动机作为主要的动力来源之一,虽然具有动力性强、燃油经济性好、使用寿命长等特点,但是近年来国内多次大幅度“雾霾”事件的发生,加之柴油发动机不断增长的数量使得本就紧
位置信息在物联网领域中正发挥着越来越大的作用,作为支撑物联网的关键技术之一,射频识别(RFID)技术通过射频通信实现对目标的识别和管理,研究如何使用RFID技术获取目标的位
自上世纪70年代美国出现了非国有独立发电企业至今,全球电力行业都在进行着改革,中国也开始施行“厂网分离,竞价上网”的原则。这一变革将压缩电厂电能的生产成本,提上了各个电厂的发展计划当中。在不改变发电设备的情况下,优化机组间的负荷分配是个成本低、效果明显的方法。电力系统经济调度(Economic dispatch,ED)司题是一个高维、非凸、多约束的优化难题。目前,火电厂厂级负荷的分配通常是以机组的
自主水下航行器(AUV)可替代人类深入海洋,完成危险作业,且以其成本低、智能化程度高等优势,已经越来越多地应用于海洋勘探、资源开发以及军事应用等领域。特别是通过多个AUV的相互
由于突发事件具有突发性、不确定性和动态性等特点,需要根据应急态势的变化进行动态决策。本文针对应急决策中任务动态分配以及任务执行过程中动态协作问题展开研究,对于丰富和
本文主要研究了基于双光束的激光多普勒测速系统。在工业带钢生产中,为了及时了解设备的运行情况、自动为控制装置提供信息、提高产品质量,就必须对生产过程涉及的物理参量,如速
船用龙门吊由于跨度大,要求大车刚腿和柔腿行走时不仅要运行平稳,而且要求刚腿和柔腿行走同步性严格控制在允许的范围内,避免因小车刚腿和柔腿之间行间距差过大,导致小车的扭曲。
在生产和测量系统中,液位是个很重要的检测和控制参数,其测量精度直接影响系统的运行效果。液位测量在很多领域得到广泛应用。在测量中,液位表面波动是直接影响测量精度的重要因
随着经济和电力的快速发展,多区域互联和解除管制是电网发展的新特点,因此新环境下的AGC系统是一个多变量、强耦合的系统,并将暴露在更突然、幅值更大的负荷扰动下。本文针对解除管制环境下自动发电控制(AGC:Automatic Generation Control)系统的新特点,研究设计了基于改进粒子群优化(PSO:Particle Swarm Optimization)算法的模糊PI控制器。首先,建立
高效大规模储能电池是新能源产业革命的核心,光伏、风电等新能源固有的随机性、波动性、间歇性、调峰难特性,决定了其规模化发展必须要有先进的储能技术作支撑。全钒液流电池