论文部分内容阅读
随着web 2.0的飞速发展,在线社会网络(Online Social Network,简称OSN)已经成为人们日常通讯交流的重要方式。然而,Spam(本文指一切非正常信件的总称,包括OSN中恶意的wall posts以及其它互联网媒体中用户不愿意接收到的信件等)的出现,引发了日益严重的OSN安全问题。Spammer可用平台越来越广,可用传播媒介越来越多,Spam技术也越来越复杂。Spam技术从总体来说集中在通过不同的手段达到扩大规模和逃避检测的目的。例如传播媒体从传统的Email到在线社会网络,即时通讯,移动手机,在线网络游戏,博客,维基百科等。传播形式从纯文本,到图片,附件等。Spam不仅会耗费网络资源和大量的处理时间,造成生产力浪费,严重的会使公司蒙受巨大经济损失。因此,Spam的检测方法的研究,已成为国内外研究的热点,具有重要的理论意义和应用价值。提出存在利用Facebook等在线社会网络传播Spam及其恶意内容的问题(spamming),并通过Facebook上获取的大量wall posts的数据对这个问题进行了深入的分析和测量,研制出OSCD(OSN Spam Campaign Detection)检测方法。Wall posts是Facebook上主要的交流方式,用户在wall上可以随意留言给自己的好友或public用户。用户wall上的信息会一直保留除非用户自己删除,由于这些信息的持久性和公开性,很容易被目标用户和其好友阅读访问以及利用,因此使得wall上的信息成为寻找和发现Facebook上spam的最佳切入点。通过2009年抓取Facebook地区网的数据,获得了大量匿名Facebook用户信息,以及这些用户及其好友长达1.5年的wall posts记录。总计约3.5M (million)用户和187M wall posts。通过一系列的自动检测技术得到若干spam campaigns,检测出大约2M个含有嵌入URLs的恶意wall posts,这些wall posts来自约57000个用户帐号。进一步的分析发现,其中70%的恶意wall posts用于网络钓鱼。同时本文对这些恶意的用户帐号也从各方面进行了详细的分析,发现多于97%的恶意帐号是被入侵的帐号,而不是spammer自己创建的帐号。最后,当我们把发送者的时问调整到当地时间时,发现spamming的行为一般发生在凌晨。使用一系列数学统计及聚类方法对wall posts进行分析,识别出试图传播恶意内容的wall posts。通过分析那些含有URLs的文本信息,从这些信息中找出关联子集。首先,将每一个wall post抽象成一个节点,并且在含有相同的URL或者具有相似文本的两个wall post之问建立一条边。这个过程将可疑的wall posts划分成互相排斥的子集。然后利用突发性和分布性两大特征找出具有恶意spam campaigns特征的信息子集。最后,利用一些补充的机制验证检测技术的有效性。通过对恶意wall posts的分析,对OSN上恶意内容传播的行为特征进行测量。发现phishing是目前为止Facebook上最流行的攻击。同时也发现传播恶意内容的用户与正常的用户有着不同的交流模式,恶意用户wall posts的突发性以及日间模式非常特别。通过对恶意内容持续时间和用户生命周期的分析,发现绝大多数的恶意内容是从被入侵之后的帐号产生的,而不是专门用于传播spam的虚假帐号。提出验证恶意Span URLs的情感分析方法(CUD:Crowdsourcing for spam URL Detection),它可作为目前验证工具的辅助部件来验证检测到的Spam URLs。CUD通过crowdsourcing利用人类的智慧达到分类URL的日的。CUD通过crowdsourcing获取已经存在于网络上的用户对于spam URL的评论,并且利用自然语言处理中的情感分析方法,通过分析用户评论达到自动检测验证spam URLs的目的。由于CUD并不直接使用和URL本身相关以及URL页面的信息,因此对新出现的恶意URLs或者较为狡猾的URLs会更有效。通过评估,我们发现70%的URLs在网络上有评论,CUD可以达到86.8%的检测准确率以及0.9%的检测误报率。而且,由CUD检测出来的URLs中,75%都不能被其它的spam工具检测出来。最后提出SPAMMER的SDSF(Spammer Detection based on SMTP Frequency)追踪方法,对SPAMMER进行了追踪。SDSF通过对网络层SMTP包进行检测和解析,利用SMTP发送频率和SMTP内容的相似性两大特征,达到检测bot或spammer与测量botnet规模的目的。通过实验发现bot节点比普通节点在一天的时间内发送更多的SMTP包,发送频率从早到晚依次增多,这和普通用户的规律刚好相反。同时发现不同的botnet其目标用户群体也不同,同一个botnet目的ip是一致的。