论文部分内容阅读
“出了趟门的老爸刚进家就打开了电脑,不一会就催促我过来看他的电子信箱,收件箱里1万多条垃圾邮件,还都是未读的。我一竖大拇哥,赞道:您真是日理万‘圾’”!垃圾邮件就像盗窃一样,它强行占用人们宝贵的时间和精力,而且还可能在你不留意的情况下,让你蒙受巨大损失。盗窃我们可以防范,那么垃圾邮件呢?这得从垃圾邮件的产生原理说起。
地址出卖——祸事的源头
我们收到垃圾邮件,首先是发件人知道咱们的邮箱地址,然后才是疯狂地发送。那咱们的地址是如何被出卖的呢(见图1)?有人专门收集?不错!某些企业为了降低产品的宣传费用,或者宣传非法商品,都愿意选择群发邮件的方式来推介自己。于是有些诈骗团伙就接了这个业务,通过大量群发邮件来谋求利益。当然他们并不是傻傻地人工收集大家的地址!中间过程均为软件自动完成,无需人工干预。
小提示:
(1)
例如一个名为“分众邮件群发器XXXXXXX”就在其打出了“边抓边发,方便快捷”、“实时更新,保证邮件地址的时效性”、“自由定制,随时根据反馈调整频道以及关键词”的特色功能。
垃圾拦击——永远的靠山
刚刚说了,垃圾邮件就像盗贼一样,你可以安装防盗门窗来避免它入室盗窃,那么你也会有这样的防具来抵挡垃圾邮件入侵,当然,这一点主要仰仗你的电子信箱运营商。现在有些优秀的电子信箱具有很强的垃圾邮件免疫能力,比如网易邮箱、GMAIL、QQMAIL等。他们是怎么区分正常邮件与垃圾邮件呢?
内容上从“过滤”下功夫
对邮件进行过滤是很容易想到的技术,所以应用也最早,早期主要是检索邮件主题和正文中的关键字,这样垃圾邮件的误判就会很频繁了,当然人们也不会这么傻,过滤技术也在不断完善。最著名的就是贝叶斯(Bayesian)算法了。
采用这种模式就不是简单的检测几个关键词来,它有一个系统的算法。一方面检查垃圾邮件中的词或字符等,将每个特征元素(单词或短语)都给出一个分数(正分数),另一方面检查正常邮件的特征元素,用来降低得分(负分数)。最后给邮件整体得出一个总分,通过这个分数来判断是否是垃圾邮件(见图2)。这种模式效果要好于一般的过滤,不过这个学习需要一个过程,影响了效果的提升,而且误报也是存在的。
(2)
信息上靠“查询”来识别
如果让一个人来识别一封邮件是否是垃圾邮件,那么即使不打开,它也能从地址上判断出是否是自己想要的邮件。要么不是自己认识的联系人,要么是地址不规则,这些都是我们常用的判断规则,电脑自然也学会了这一招,而且更为准确。它会通过反向查询,来判断对方是个人发送还是机器发送。它利用的就是IP反向解析。
终端上从“判定”出发
上面的方法都是机器来帮助人进行识别的,我们坐享其成,但它们又不是万能的,总令主人们不太满意,于是我们还是想自己来!也就有了黑白名单的方法。这个大家最熟悉的应该是杀毒软件里的设置,黑名单里是拒绝接受的邮箱设置,可以是发送方的IP地址、邮件地址或者某些关键词,白名单则是满足条件后直接放行的邮件。这些也是很多邮件客户端所提供的功能,而邮件服务提供商也在服务器端进行着这样的过滤(见图3)。也有很多组织将那些经常发送垃圾邮件的IP地址(甚至IP地址范围)收集在一起,做成block list(以下简称BL),比如spamhaus的SBL(Spamhaus Block List),一个BL,可以在很大范围内共享。
(3)
如今,技术的应用也非常多样化,除了上面这些之外,诸多的技术都开始加入到这一领域,在人工智能技术广泛应用的今天,行为识别技术也应用在垃圾邮件识别上,很多安全厂商相继推出了基于行为识别技术的第三代防垃圾邮件网关。该技术对大量的垃圾邮件样本进行了统计、分析和计算,并且根据RFC.822标准,建立了垃圾邮件发送的行为识别模型。在MTA通信阶段就判断出所接收邮件是否为垃圾邮件,提高了邮件过滤速度和准确度。
地址出卖——祸事的源头
我们收到垃圾邮件,首先是发件人知道咱们的邮箱地址,然后才是疯狂地发送。那咱们的地址是如何被出卖的呢(见图1)?有人专门收集?不错!某些企业为了降低产品的宣传费用,或者宣传非法商品,都愿意选择群发邮件的方式来推介自己。于是有些诈骗团伙就接了这个业务,通过大量群发邮件来谋求利益。当然他们并不是傻傻地人工收集大家的地址!中间过程均为软件自动完成,无需人工干预。
小提示:
(1)
例如一个名为“分众邮件群发器XXXXXXX”就在其打出了“边抓边发,方便快捷”、“实时更新,保证邮件地址的时效性”、“自由定制,随时根据反馈调整频道以及关键词”的特色功能。
垃圾拦击——永远的靠山
刚刚说了,垃圾邮件就像盗贼一样,你可以安装防盗门窗来避免它入室盗窃,那么你也会有这样的防具来抵挡垃圾邮件入侵,当然,这一点主要仰仗你的电子信箱运营商。现在有些优秀的电子信箱具有很强的垃圾邮件免疫能力,比如网易邮箱、GMAIL、QQMAIL等。他们是怎么区分正常邮件与垃圾邮件呢?
内容上从“过滤”下功夫
对邮件进行过滤是很容易想到的技术,所以应用也最早,早期主要是检索邮件主题和正文中的关键字,这样垃圾邮件的误判就会很频繁了,当然人们也不会这么傻,过滤技术也在不断完善。最著名的就是贝叶斯(Bayesian)算法了。
采用这种模式就不是简单的检测几个关键词来,它有一个系统的算法。一方面检查垃圾邮件中的词或字符等,将每个特征元素(单词或短语)都给出一个分数(正分数),另一方面检查正常邮件的特征元素,用来降低得分(负分数)。最后给邮件整体得出一个总分,通过这个分数来判断是否是垃圾邮件(见图2)。这种模式效果要好于一般的过滤,不过这个学习需要一个过程,影响了效果的提升,而且误报也是存在的。
(2)
信息上靠“查询”来识别
如果让一个人来识别一封邮件是否是垃圾邮件,那么即使不打开,它也能从地址上判断出是否是自己想要的邮件。要么不是自己认识的联系人,要么是地址不规则,这些都是我们常用的判断规则,电脑自然也学会了这一招,而且更为准确。它会通过反向查询,来判断对方是个人发送还是机器发送。它利用的就是IP反向解析。
终端上从“判定”出发
上面的方法都是机器来帮助人进行识别的,我们坐享其成,但它们又不是万能的,总令主人们不太满意,于是我们还是想自己来!也就有了黑白名单的方法。这个大家最熟悉的应该是杀毒软件里的设置,黑名单里是拒绝接受的邮箱设置,可以是发送方的IP地址、邮件地址或者某些关键词,白名单则是满足条件后直接放行的邮件。这些也是很多邮件客户端所提供的功能,而邮件服务提供商也在服务器端进行着这样的过滤(见图3)。也有很多组织将那些经常发送垃圾邮件的IP地址(甚至IP地址范围)收集在一起,做成block list(以下简称BL),比如spamhaus的SBL(Spamhaus Block List),一个BL,可以在很大范围内共享。
(3)
如今,技术的应用也非常多样化,除了上面这些之外,诸多的技术都开始加入到这一领域,在人工智能技术广泛应用的今天,行为识别技术也应用在垃圾邮件识别上,很多安全厂商相继推出了基于行为识别技术的第三代防垃圾邮件网关。该技术对大量的垃圾邮件样本进行了统计、分析和计算,并且根据RFC.822标准,建立了垃圾邮件发送的行为识别模型。在MTA通信阶段就判断出所接收邮件是否为垃圾邮件,提高了邮件过滤速度和准确度。