论文部分内容阅读
关键词:垃圾邮件;防范方法;过滤技术;过滤软件;
随着Internet的迅速普及,电子邮件以其快捷、方便、低成本的特点逐渐成为人们进行信息交流的主要媒介之一,但垃圾邮件也越来越泛滥。企业资源和个人信息正在不断被其攻击和侵犯。用户如何防范垃圾邮件,减少垃圾邮件的干扰,已经成为社会和邮件使用者关心的焦点问题。本文由垃圾邮件的历史、定义、现状及其危害出发,提出了切实可行的防范措施,讨论了电子邮件的过滤方法以及一些常用的技术,对目市场上前沿的反垃圾邮件技术介绍和分析。
1 垃圾邮件
1.1垃圾邮件的历史
垃圾邮件并不是在电子邮件技术出现后就马上出现的。从其产生的历史过程中,可以看到互联网是如何从一个学术和交流的平台逐步变为商业工具的。
1978年,DEC公司的一位营销人员突发奇想,认为直接通过ARPANET邮件的方式来推销他们的计算机是一种很好的方法。于是他和公司里的其他人收集了ARPANET用户的地址,并将广告信向所有这些用户发送,这就是历史上第一封真正意义上的垃圾邮件。
Internet取代ARPANET后,在20世纪80年代和90年代早期,网络上一些人则开始收集和贩卖邮箱地址。1995年8月,第一次有人公开贩卖20万个邮箱地址;……到 2001年8月,已经有内含2.1亿个邮箱地址的列表在出售了。各种垃圾邮件网站和组织也开始出现。
1.2垃圾邮件的种类
中国反垃圾邮件中心2005年公布,用户收到的垃圾邮件中,“网上购物”、“IT产品推销”、“情趣用品”、“政治种族”四种邮件,占到用户收到垃圾邮件的前四位。
垃圾邮件的语言种类统计,中英文垃圾邮件比例占到97.45%,其他语言所占比例可以忽略不计。
垃圾邮件的文件格式排名中,用户收到最多的是“HTML网页”格式的垃圾邮件,其次是“纯文本”邮件和“图片”邮件,占到用户收到垃圾邮件比例的83.4%。
1.3垃圾邮件的危害
垃圾邮件是因特网带给人类最具争议性的副产品,它的危害主要表现:
1)占用网络带宽,降低网络运行效率。
2)侵占信箱空间,侵犯收件人的隐私权,损害了他人的信誉。
3)劳动生产率下降。每年浪费在处理垃圾邮件上的时间高达15亿小时。
4)传播病毒,被黑客利用。
5)严重影响ISP的服务形象。
6)宣传邪教,蛊惑人心,传播谣言及色情等内容,。
7)窃取密码,骗人钱财,对和谐社会造成了危害。
2垃圾邮件的防范
防范垃圾邮件的传播,主要从以下6各方面,其效果是立竿见影。
1)设定好记但难以猜测的电子邮件账号
2)不要随便公开你的电子邮件地址
3)尽量采用转发的方式,转发到你的ISP的本地信箱
4)尽量使用免费邮箱且分类使用
5)不要回复垃圾邮件
6)不要订阅非正式及不健康的电子杂志
3过滤技术
对抗垃圾邮件最重要的技术是过滤技术,过滤技术在过滤垃圾邮件主要基于以下三种方法:
3.1基于IP层的垃圾邮件过滤方法
基于IP层的垃圾邮件过滤方法,其中有黑名单、白名单、实时黑名单和实时白名单等。
黑白名单过滤:黑白名单是一个简单有效而最为常用的过滤方法,黑名单原理是把已知垃圾邮件制造者的域名或IP地址整理成列表,以此为依据,拒绝任何来自列表的邮件;白名单是黑名单的反义词,规定邮件接收者只接受自己信赖的邮件发送者所发送的邮件。其优点是对垃圾邮件处理能力的要求较低,它能够节省大量的带宽、存储容量和处理时间。缺点黑名单是基于用户的投诉和采样的积累而建立的,当垃圾邮件制造者快速改变邮件地址时,处理效果将大幅下降,忽略垃圾邮件和过滤掉正常邮件的错误将相对增加。而对白名单来说,如果以前获得批准的用户改变了邮件地址,用户必须再次将新地址列入白名单,否则将收不到该用户的电子邮件。
3.2基于规则的垃圾邮件过滤方法
就是在邮件标题和内容中寻找特定的模式,设置一些过滤规则。这些规则通常有信头分析、群发过滤、关键词精确匹配以及邮件内容中的其它特征。通过查找已有的垃圾邮件的匹配模式来过滤垃圾邮件,这需要依赖开发商不断的更新邮件规则。优点是规则较易理解和修改、易推广和共享。其缺点由于规则是静态,是由人来编写的,更新速度慢和时效性差便是它的软肋,,所以在规律性不明显的应用领域效果较差。
其中最著名的规则过滤方法之一是决策树方法,该方法通过按照某种属性的顺序自顶向下地生成一棵树,树的每个节点是属性名,而每条边是属性值,从树根到树叶的一条路径便对应一条规则,使用决策树来过滤垃圾邮件,得到垃圾邮件过滤的正确率和召回率在88%左右.
3.3基于统计过滤方法
是对邮件内容统计分类的过滤方法,正确率高,速度快,是垃圾邮件处理技术中很受欢迎的一种方法,有广泛的应用前景。如贝叶斯,SVM,KNN等。
3.3.1贝叶斯分类
贝叶斯分类基于贝叶斯定理,理论基础是:在已知的垃圾邮件中,一些关键词出现的频率较高,而在非垃圾邮件中另一些关键词的出现频率较高,通过特定算法,建立垃圾邮件和非垃圾邮件关键词的贝叶斯概率模型,然后利用该模型判断邮件是否为垃圾邮件。贝叶斯过滤方法优势表现为:效率较高,对训练样本进行一次扫描,再进行统计分析;占用存储空间少。基于其优越性,许多学者对基于贝叶斯分类算法进行研究改进,以提高贝叶斯过滤方法的性能。自学习的贝叶斯算法,就是基于多级属性集规则的贝叶斯分类新算法,通过实验验证有效地提高贝叶斯算法的性能。但它也具有一定的局限性:对训练样本依赖性大,对中文邮件处理效果不显著。 3.3.2 自学习K邻近算法(KNN)
KNN基于类比学习 ,针对现有垃圾邮件过滤算法所存在的训练样本与测试样本分布不一致而导致实际应用效果比较差的现象,提出了一种基于自学习K近邻方法的垃圾邮件过滤算法。
3.3.3支持向量机(SVM)
针对中英文混合垃圾邮件过滤问题,提出一种基于支持向量机(SVM)的过滤方法.通过改进SVM中线性核的表示方式,解决存储空间和计算最问题.通过领域术语自动抽取技术,增强垃圾邮件过滤的语义单元识别能力,提高垃圾邮件分类性能.
4 前沿技术
由于垃圾邮件的不断翻新,这就要求反垃圾邮件技术要不断发展和创新,下面就目前反垃圾邮前沿技术简要的阐述。
4.1SPF技术
SPF的全称是Sender Policy Framework,是一种可以保障域名所有人免受垃圾邮件发送者冒充发信的机制。其做法是在域名的DNS中加入SPF记录,指出该域名只通过某些主机发送邮件。
4.2行为判别技术
行为判别技术是当前反垃圾邮件一个新的领域和方向。清华大学联合研究发现,垃圾邮件在发送阶段处于活跃的状态,恶意的行为特征远比内容特征要明显,经过对几千万封垃圾邮件的收集和分类,对各种垃圾邮件的行为、方式、邮件特征进行统计学研究,首创垃圾邮件“行为识别模型”。
行为识别模型包含邮件发送过程中的各类行为要素,如时间、频度、发送IP、协议声明特征、发送指纹等。在统计分析中发现,在行为特征上,垃圾邮件和正常邮件具有极高的区分度,特别是对大量采用动态IP发送的邮件更是如此。采用垃圾邮件行为模式识别模型不仅大大提高了垃圾邮件辨别的准确率,而且不需要对邮件的全部内容进行扫描,所以大大提高计算处理能力。
4.3 空中拦截技术
空中拦截的技术,原理是网关通过监测接受邮件流量大小来识别和屏蔽垃圾邮件。例如:一封“法轮功”的信,通过监测,差不多每一封在160K到180K左右,如果把这些信都收下来的话,流量就产生了。网关只是接收4K到8K就要缓冲,只要达到8K的数据,就认为是“法轮功”邮件或垃圾邮件。因为很多垃圾邮件跟正常邮件不一样,很多流量屏蔽在网关之外。
结论
垃圾邮件与反垃圾邮件的斗争是一个长期的过程,人们不断地改进和完善反垃圾邮件技术来抵抗其危害。从而减少互联网中流通的垃圾邮件的数量,让网络更好的为企业和个人服务,帮助人们远离垃圾邮件的骚扰,营造一个健康、和谐、有序的互联网社会环境。
参考文献
[1] .CNNIC 中国互联网发展状况统计报告.http//www.baidu.cn
[2] 王斌.潘文峰.基于内容的垃圾邮件过滤技术综述.中文信息学报,2005.05
[3] 陈宇豪.阚丽娟.张鹏.垃圾邮件的防范技术. 东北水利水电,2009.12
[4] 徐激.龚俭。垃圾邮件的综合过滤方法 .计算机科学,2005 32(2)
[5] 姚青.垃圾邮件面面谈.中国科技信息,2009.02
[6] 熊志勇.数据挖掘在反垃圾邮件领域中的应用和研究:[硕士学位论文].南昌:南昌大学 ,2006.6
随着Internet的迅速普及,电子邮件以其快捷、方便、低成本的特点逐渐成为人们进行信息交流的主要媒介之一,但垃圾邮件也越来越泛滥。企业资源和个人信息正在不断被其攻击和侵犯。用户如何防范垃圾邮件,减少垃圾邮件的干扰,已经成为社会和邮件使用者关心的焦点问题。本文由垃圾邮件的历史、定义、现状及其危害出发,提出了切实可行的防范措施,讨论了电子邮件的过滤方法以及一些常用的技术,对目市场上前沿的反垃圾邮件技术介绍和分析。
1 垃圾邮件
1.1垃圾邮件的历史
垃圾邮件并不是在电子邮件技术出现后就马上出现的。从其产生的历史过程中,可以看到互联网是如何从一个学术和交流的平台逐步变为商业工具的。
1978年,DEC公司的一位营销人员突发奇想,认为直接通过ARPANET邮件的方式来推销他们的计算机是一种很好的方法。于是他和公司里的其他人收集了ARPANET用户的地址,并将广告信向所有这些用户发送,这就是历史上第一封真正意义上的垃圾邮件。
Internet取代ARPANET后,在20世纪80年代和90年代早期,网络上一些人则开始收集和贩卖邮箱地址。1995年8月,第一次有人公开贩卖20万个邮箱地址;……到 2001年8月,已经有内含2.1亿个邮箱地址的列表在出售了。各种垃圾邮件网站和组织也开始出现。
1.2垃圾邮件的种类
中国反垃圾邮件中心2005年公布,用户收到的垃圾邮件中,“网上购物”、“IT产品推销”、“情趣用品”、“政治种族”四种邮件,占到用户收到垃圾邮件的前四位。
垃圾邮件的语言种类统计,中英文垃圾邮件比例占到97.45%,其他语言所占比例可以忽略不计。
垃圾邮件的文件格式排名中,用户收到最多的是“HTML网页”格式的垃圾邮件,其次是“纯文本”邮件和“图片”邮件,占到用户收到垃圾邮件比例的83.4%。
1.3垃圾邮件的危害
垃圾邮件是因特网带给人类最具争议性的副产品,它的危害主要表现:
1)占用网络带宽,降低网络运行效率。
2)侵占信箱空间,侵犯收件人的隐私权,损害了他人的信誉。
3)劳动生产率下降。每年浪费在处理垃圾邮件上的时间高达15亿小时。
4)传播病毒,被黑客利用。
5)严重影响ISP的服务形象。
6)宣传邪教,蛊惑人心,传播谣言及色情等内容,。
7)窃取密码,骗人钱财,对和谐社会造成了危害。
2垃圾邮件的防范
防范垃圾邮件的传播,主要从以下6各方面,其效果是立竿见影。
1)设定好记但难以猜测的电子邮件账号
2)不要随便公开你的电子邮件地址
3)尽量采用转发的方式,转发到你的ISP的本地信箱
4)尽量使用免费邮箱且分类使用
5)不要回复垃圾邮件
6)不要订阅非正式及不健康的电子杂志
3过滤技术
对抗垃圾邮件最重要的技术是过滤技术,过滤技术在过滤垃圾邮件主要基于以下三种方法:
3.1基于IP层的垃圾邮件过滤方法
基于IP层的垃圾邮件过滤方法,其中有黑名单、白名单、实时黑名单和实时白名单等。
黑白名单过滤:黑白名单是一个简单有效而最为常用的过滤方法,黑名单原理是把已知垃圾邮件制造者的域名或IP地址整理成列表,以此为依据,拒绝任何来自列表的邮件;白名单是黑名单的反义词,规定邮件接收者只接受自己信赖的邮件发送者所发送的邮件。其优点是对垃圾邮件处理能力的要求较低,它能够节省大量的带宽、存储容量和处理时间。缺点黑名单是基于用户的投诉和采样的积累而建立的,当垃圾邮件制造者快速改变邮件地址时,处理效果将大幅下降,忽略垃圾邮件和过滤掉正常邮件的错误将相对增加。而对白名单来说,如果以前获得批准的用户改变了邮件地址,用户必须再次将新地址列入白名单,否则将收不到该用户的电子邮件。
3.2基于规则的垃圾邮件过滤方法
就是在邮件标题和内容中寻找特定的模式,设置一些过滤规则。这些规则通常有信头分析、群发过滤、关键词精确匹配以及邮件内容中的其它特征。通过查找已有的垃圾邮件的匹配模式来过滤垃圾邮件,这需要依赖开发商不断的更新邮件规则。优点是规则较易理解和修改、易推广和共享。其缺点由于规则是静态,是由人来编写的,更新速度慢和时效性差便是它的软肋,,所以在规律性不明显的应用领域效果较差。
其中最著名的规则过滤方法之一是决策树方法,该方法通过按照某种属性的顺序自顶向下地生成一棵树,树的每个节点是属性名,而每条边是属性值,从树根到树叶的一条路径便对应一条规则,使用决策树来过滤垃圾邮件,得到垃圾邮件过滤的正确率和召回率在88%左右.
3.3基于统计过滤方法
是对邮件内容统计分类的过滤方法,正确率高,速度快,是垃圾邮件处理技术中很受欢迎的一种方法,有广泛的应用前景。如贝叶斯,SVM,KNN等。
3.3.1贝叶斯分类
贝叶斯分类基于贝叶斯定理,理论基础是:在已知的垃圾邮件中,一些关键词出现的频率较高,而在非垃圾邮件中另一些关键词的出现频率较高,通过特定算法,建立垃圾邮件和非垃圾邮件关键词的贝叶斯概率模型,然后利用该模型判断邮件是否为垃圾邮件。贝叶斯过滤方法优势表现为:效率较高,对训练样本进行一次扫描,再进行统计分析;占用存储空间少。基于其优越性,许多学者对基于贝叶斯分类算法进行研究改进,以提高贝叶斯过滤方法的性能。自学习的贝叶斯算法,就是基于多级属性集规则的贝叶斯分类新算法,通过实验验证有效地提高贝叶斯算法的性能。但它也具有一定的局限性:对训练样本依赖性大,对中文邮件处理效果不显著。 3.3.2 自学习K邻近算法(KNN)
KNN基于类比学习 ,针对现有垃圾邮件过滤算法所存在的训练样本与测试样本分布不一致而导致实际应用效果比较差的现象,提出了一种基于自学习K近邻方法的垃圾邮件过滤算法。
3.3.3支持向量机(SVM)
针对中英文混合垃圾邮件过滤问题,提出一种基于支持向量机(SVM)的过滤方法.通过改进SVM中线性核的表示方式,解决存储空间和计算最问题.通过领域术语自动抽取技术,增强垃圾邮件过滤的语义单元识别能力,提高垃圾邮件分类性能.
4 前沿技术
由于垃圾邮件的不断翻新,这就要求反垃圾邮件技术要不断发展和创新,下面就目前反垃圾邮前沿技术简要的阐述。
4.1SPF技术
SPF的全称是Sender Policy Framework,是一种可以保障域名所有人免受垃圾邮件发送者冒充发信的机制。其做法是在域名的DNS中加入SPF记录,指出该域名只通过某些主机发送邮件。
4.2行为判别技术
行为判别技术是当前反垃圾邮件一个新的领域和方向。清华大学联合研究发现,垃圾邮件在发送阶段处于活跃的状态,恶意的行为特征远比内容特征要明显,经过对几千万封垃圾邮件的收集和分类,对各种垃圾邮件的行为、方式、邮件特征进行统计学研究,首创垃圾邮件“行为识别模型”。
行为识别模型包含邮件发送过程中的各类行为要素,如时间、频度、发送IP、协议声明特征、发送指纹等。在统计分析中发现,在行为特征上,垃圾邮件和正常邮件具有极高的区分度,特别是对大量采用动态IP发送的邮件更是如此。采用垃圾邮件行为模式识别模型不仅大大提高了垃圾邮件辨别的准确率,而且不需要对邮件的全部内容进行扫描,所以大大提高计算处理能力。
4.3 空中拦截技术
空中拦截的技术,原理是网关通过监测接受邮件流量大小来识别和屏蔽垃圾邮件。例如:一封“法轮功”的信,通过监测,差不多每一封在160K到180K左右,如果把这些信都收下来的话,流量就产生了。网关只是接收4K到8K就要缓冲,只要达到8K的数据,就认为是“法轮功”邮件或垃圾邮件。因为很多垃圾邮件跟正常邮件不一样,很多流量屏蔽在网关之外。
结论
垃圾邮件与反垃圾邮件的斗争是一个长期的过程,人们不断地改进和完善反垃圾邮件技术来抵抗其危害。从而减少互联网中流通的垃圾邮件的数量,让网络更好的为企业和个人服务,帮助人们远离垃圾邮件的骚扰,营造一个健康、和谐、有序的互联网社会环境。
参考文献
[1] .CNNIC 中国互联网发展状况统计报告.http//www.baidu.cn
[2] 王斌.潘文峰.基于内容的垃圾邮件过滤技术综述.中文信息学报,2005.05
[3] 陈宇豪.阚丽娟.张鹏.垃圾邮件的防范技术. 东北水利水电,2009.12
[4] 徐激.龚俭。垃圾邮件的综合过滤方法 .计算机科学,2005 32(2)
[5] 姚青.垃圾邮件面面谈.中国科技信息,2009.02
[6] 熊志勇.数据挖掘在反垃圾邮件领域中的应用和研究:[硕士学位论文].南昌:南昌大学 ,2006.6