在线社会网络上SPAM行为检测方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:liongliong450
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着web 2.0的飞速发展,在线社会网络(Online Social Network,简称OSN)已经成为人们日常通讯交流的重要方式。然而,Spam(本文指一切非正常信件的总称,包括OSN中恶意的wall posts以及其它互联网媒体中用户不愿意接收到的信件等)的出现,引发了日益严重的OSN安全问题。Spammer可用平台越来越广,可用传播媒介越来越多,Spam技术也越来越复杂。Spam技术从总体来说集中在通过不同的手段达到扩大规模和逃避检测的目的。例如传播媒体从传统的Email到在线社会网络,即时通讯,移动手机,在线网络游戏,博客,维基百科等。传播形式从纯文本,到图片,附件等。Spam不仅会耗费网络资源和大量的处理时间,造成生产力浪费,严重的会使公司蒙受巨大经济损失。因此,Spam的检测方法的研究,已成为国内外研究的热点,具有重要的理论意义和应用价值。提出存在利用Facebook等在线社会网络传播Spam及其恶意内容的问题(spamming),并通过Facebook上获取的大量wall posts的数据对这个问题进行了深入的分析和测量,研制出OSCD(OSN Spam Campaign Detection)检测方法。Wall posts是Facebook上主要的交流方式,用户在wall上可以随意留言给自己的好友或public用户。用户wall上的信息会一直保留除非用户自己删除,由于这些信息的持久性和公开性,很容易被目标用户和其好友阅读访问以及利用,因此使得wall上的信息成为寻找和发现Facebook上spam的最佳切入点。通过2009年抓取Facebook地区网的数据,获得了大量匿名Facebook用户信息,以及这些用户及其好友长达1.5年的wall posts记录。总计约3.5M (million)用户和187M wall posts。通过一系列的自动检测技术得到若干spam campaigns,检测出大约2M个含有嵌入URLs的恶意wall posts,这些wall posts来自约57000个用户帐号。进一步的分析发现,其中70%的恶意wall posts用于网络钓鱼。同时本文对这些恶意的用户帐号也从各方面进行了详细的分析,发现多于97%的恶意帐号是被入侵的帐号,而不是spammer自己创建的帐号。最后,当我们把发送者的时问调整到当地时间时,发现spamming的行为一般发生在凌晨。使用一系列数学统计及聚类方法对wall posts进行分析,识别出试图传播恶意内容的wall posts。通过分析那些含有URLs的文本信息,从这些信息中找出关联子集。首先,将每一个wall post抽象成一个节点,并且在含有相同的URL或者具有相似文本的两个wall post之问建立一条边。这个过程将可疑的wall posts划分成互相排斥的子集。然后利用突发性和分布性两大特征找出具有恶意spam campaigns特征的信息子集。最后,利用一些补充的机制验证检测技术的有效性。通过对恶意wall posts的分析,对OSN上恶意内容传播的行为特征进行测量。发现phishing是目前为止Facebook上最流行的攻击。同时也发现传播恶意内容的用户与正常的用户有着不同的交流模式,恶意用户wall posts的突发性以及日间模式非常特别。通过对恶意内容持续时间和用户生命周期的分析,发现绝大多数的恶意内容是从被入侵之后的帐号产生的,而不是专门用于传播spam的虚假帐号。提出验证恶意Span URLs的情感分析方法(CUD:Crowdsourcing for spam URL Detection),它可作为目前验证工具的辅助部件来验证检测到的Spam URLs。CUD通过crowdsourcing利用人类的智慧达到分类URL的日的。CUD通过crowdsourcing获取已经存在于网络上的用户对于spam URL的评论,并且利用自然语言处理中的情感分析方法,通过分析用户评论达到自动检测验证spam URLs的目的。由于CUD并不直接使用和URL本身相关以及URL页面的信息,因此对新出现的恶意URLs或者较为狡猾的URLs会更有效。通过评估,我们发现70%的URLs在网络上有评论,CUD可以达到86.8%的检测准确率以及0.9%的检测误报率。而且,由CUD检测出来的URLs中,75%都不能被其它的spam工具检测出来。最后提出SPAMMER的SDSF(Spammer Detection based on SMTP Frequency)追踪方法,对SPAMMER进行了追踪。SDSF通过对网络层SMTP包进行检测和解析,利用SMTP发送频率和SMTP内容的相似性两大特征,达到检测bot或spammer与测量botnet规模的目的。通过实验发现bot节点比普通节点在一天的时间内发送更多的SMTP包,发送频率从早到晚依次增多,这和普通用户的规律刚好相反。同时发现不同的botnet其目标用户群体也不同,同一个botnet目的ip是一致的。
其他文献
与传统的英语课堂教学相比,英语第二课堂教学是指有目的地、有计划、有组织地引导学生在教学计划和教学大纲范围之外利用课余时间所进行的英语教学活动。这种教学活动,应与教
单位的一台Linux服务器为外网提供Web服务,最近当客户进行访问时,经常出现连接失败或者端口访问超时等问题。在内网对该服务器进行大量连接检测时,发现频频丢包。查看日志文
要推动我国ICT产业高质量发展,就需要围绕我国ICT领域,大力发展相关科普事业,迅速提升公民在这一领域的科学素质,以科普赋能ICT产业发展。科学普及与科技创新同等重要,都是促
从高校辅导员工作中思想政治教育的比重不足、辅导员自身思想政治理论水平有待提高、思想政治教育的内容和途径亟待拓展的现状出发,分析了在高校辅导员的思想政治教育工作中
【正】父爱如山,科学创奇迹:中国首例活体肝移植手术获得成功。历经2年零4个月后,11岁的于发琴已度过危险期,正快乐地生活着——
一是长期在外的乡邻、不知底细的亲戚突然来到你家,声称某地经济发达、工作好找、能赚大钱,要带你外出“工作”,甚至请你去他(她)外地的公司工作或请你为他(她)照料家务,千万不能
从高校财务审核实际工作出发,阐述了高校财务审核工作的职责及其重要性,分析了新形势下高校财务审核工作中存在的一些问题,并针对相应问题提出了解决的对策。
【正】 芹菜抗逆性强,丰产性好,很适宜塑料日光温室生产,在塑料日光温室生产中,采用以下措施,有利于促进产量提高。 一、建好温室 温室生产芹菜是反季节生产,外界环境对温室
【正】 我们在苏北走访乡镇时了解到:乡镇干部工作头绪多,压力大,负担重,疲于奔命,不堪重负。 重负难堪:不少人认为乡镇干部是一方诸侯,管辖四五万子民,够威风。孰不知,乡镇
随着互联网的飞速发展,社会对网络依赖程度日益加重,网络可信任性对国家经济持续发展和国家安全稳定起到越来越重要的作用。然而,网络安全事件的频繁发生,严重威胁网络可信任