论文部分内容阅读
随着网络的大规模普及,国内外涌现出了大量的社交网站平台,其中以face book、微博、百度贴吧、天涯社区等为代表。这些网站有一个共同点,那就是都属于UGC (User Generated Content)—用户原创内容类型的网站平台。这类网站上内容主要是依赖用户创造生成,每一个网站用户都可以随心所欲的生成发表自己的内容。利用这种产出方式,这类网站的内容会迅速膨胀,形成一个多、广、专的局面,有力地促进了知识的积累和传播。以目前全球最大的中文社区网站-百度贴吧为例,百度贴吧经过10年的发展,已经拥有几亿的注册用户,创建的贴吧数量有上百万个,每天新增的话题贴近亿。贴吧有如此巨大的用户群体,并且由于属于UGC类社交网站,每一个用户都可以生成自己个性化的内容,所以在有效进行知识传播的同时,不可避免的会出现大量不健康(色情、暴力、反动)、广告传销、虚假欺诈等令用户反感、侵害正常用户权益甚至违法犯罪的垃圾内容。在互联网行业,人们称这些垃圾内容为‘’spam"或者“作弊内容”;那些在网上发布这些spam的人被称为“作弊者”;如果一个正常用户在浏览网页的过程中,看到了这些垃圾内容,那么我们称用户的这次浏览行为“被污染”了。为了尽可能既快又准的从上亿条的数据中发现识别出垃圾内容,以保证网站的正常用户在使用网站服务时能更快更便捷的获取自己的所求,就需要能及时准确地掌握这些垃圾内容在网站上所占的比例(作弊率)、对正常用户的影响程度(污染率)以及作弊者所发垃圾内容的共同特征和所属类型。这样才能以很小的人力成本及时高效地清理掉这些垃圾内容,减少其对正常用户的负面影响,提高用户的产品体验。目前,以贴吧为例,人工评估一次作弊率大约需要1天/人次,包括评估数据的获取,人工审查数据,手工计算作弊率。用户污染率更是无法评估。而统计一次垃圾内容的共同特征(如带有文字广告、图片等),再将其分类,这个过程更是需要几天的时间。这种评估方式不仅繁琐耗时耗人力,而且评估统计出的结果准确率不高,也不能保证时效性,致使工程师们不能及时准确地掌握作弊率和新出现的各种垃圾内容的特征类别,从而不能及时高效地调整应对策略清除这些垃圾内容数据。即使统计出来了,作弊者也已经发布了大量的垃圾内容到网站上,已经对正常用户造成了不可挽回的身心权益伤害,大大影响了正常用户的体验,有可能导致正常用户的流失。为了解决评估周期长、成本高、准确率低的问题,本论文基于WEB设计并实现一个可快速准确的评估出各项指标的贴吧SPAM评估系统。本系统采用B/S模式,使用MVC开发框架结构,基于PHP+Mysql+Apache+Linux设计并实现一个集数据抽取、评估功能、统计报表于一体的系统。本论文设计实现的评估系统,将会大大简化人工评估的繁琐过程,缩短评估的周期,将评估周期由原来的2天缩短为2小时/人次。系统实现了评估数据获取和统计的自动化,评估的各项指标可由报表自动生成,同时保证了评估统计结果的准确性。为工程师及时掌握SPAM情况、制定相应的策略手段清理垃圾内容提供准确完备的数据支持。