基于WEB的某社交网站SPAM评估系统的设计与实现

被引量 : 0次 | 上传用户:pluto529
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的大规模普及,国内外涌现出了大量的社交网站平台,其中以face book、微博、百度贴吧、天涯社区等为代表。这些网站有一个共同点,那就是都属于UGC (User Generated Content)—用户原创内容类型的网站平台。这类网站上内容主要是依赖用户创造生成,每一个网站用户都可以随心所欲的生成发表自己的内容。利用这种产出方式,这类网站的内容会迅速膨胀,形成一个多、广、专的局面,有力地促进了知识的积累和传播。以目前全球最大的中文社区网站-百度贴吧为例,百度贴吧经过10年的发展,已经拥有几亿的注册用户,创建的贴吧数量有上百万个,每天新增的话题贴近亿。贴吧有如此巨大的用户群体,并且由于属于UGC类社交网站,每一个用户都可以生成自己个性化的内容,所以在有效进行知识传播的同时,不可避免的会出现大量不健康(色情、暴力、反动)、广告传销、虚假欺诈等令用户反感、侵害正常用户权益甚至违法犯罪的垃圾内容。在互联网行业,人们称这些垃圾内容为‘’spam"或者“作弊内容”;那些在网上发布这些spam的人被称为“作弊者”;如果一个正常用户在浏览网页的过程中,看到了这些垃圾内容,那么我们称用户的这次浏览行为“被污染”了。为了尽可能既快又准的从上亿条的数据中发现识别出垃圾内容,以保证网站的正常用户在使用网站服务时能更快更便捷的获取自己的所求,就需要能及时准确地掌握这些垃圾内容在网站上所占的比例(作弊率)、对正常用户的影响程度(污染率)以及作弊者所发垃圾内容的共同特征和所属类型。这样才能以很小的人力成本及时高效地清理掉这些垃圾内容,减少其对正常用户的负面影响,提高用户的产品体验。目前,以贴吧为例,人工评估一次作弊率大约需要1天/人次,包括评估数据的获取,人工审查数据,手工计算作弊率。用户污染率更是无法评估。而统计一次垃圾内容的共同特征(如带有文字广告、图片等),再将其分类,这个过程更是需要几天的时间。这种评估方式不仅繁琐耗时耗人力,而且评估统计出的结果准确率不高,也不能保证时效性,致使工程师们不能及时准确地掌握作弊率和新出现的各种垃圾内容的特征类别,从而不能及时高效地调整应对策略清除这些垃圾内容数据。即使统计出来了,作弊者也已经发布了大量的垃圾内容到网站上,已经对正常用户造成了不可挽回的身心权益伤害,大大影响了正常用户的体验,有可能导致正常用户的流失。为了解决评估周期长、成本高、准确率低的问题,本论文基于WEB设计并实现一个可快速准确的评估出各项指标的贴吧SPAM评估系统。本系统采用B/S模式,使用MVC开发框架结构,基于PHP+Mysql+Apache+Linux设计并实现一个集数据抽取、评估功能、统计报表于一体的系统。本论文设计实现的评估系统,将会大大简化人工评估的繁琐过程,缩短评估的周期,将评估周期由原来的2天缩短为2小时/人次。系统实现了评估数据获取和统计的自动化,评估的各项指标可由报表自动生成,同时保证了评估统计结果的准确性。为工程师及时掌握SPAM情况、制定相应的策略手段清理垃圾内容提供准确完备的数据支持。
其他文献
<正>辅警制度现今在一些国家已普遍存在并取得了积极的成果,受到了各国警学界的肯定。辅助警察的出现是国外群众性治安自治传统的一种承袭与发展。例如,英国自古就有治安法官
目的观察护理配合在经腹腔镜下膀胱全切原位回肠代膀胱术中的应用效果。方法回顾性分析2018年3月~2019年3月在我院行膀胱全切除原位回肠代膀胱术实施针对性手术配合的48例膀
<正>~~
会议
为保护畜禽养殖场周围的空气质量,控制氨气是养殖业必须要解决的基本问题。从养猪场土样中分离出具有除臭的微生物菌株2株:X-3菌株和X-5菌株。利用纳氏比色法检测除氨复合菌系
<正>以江永香柚为主的柑桔是江永县农村脱贫致富奔小康的支柱产业。全县现有柑桔种植面积1万hm2以上。自1995年开始,黑蚱蝉对柑桔的危害日益加重,现本地柑桔种植老区危害严重
“公正”是一个古老而永恒的话题。关于“公正”,无论是西方还是中国的理论家和思想家都曾给予过诸多界定。在不同的历史时期关于“公正”的概念也有所不同,这些都凸显了公正概
篮球普修课是全国所有体育院校的主干课程之一,科学合理地确定篮球普修课的内容体系,是体育专业培养目标实现的重要手段。通过对篮球普修课教学内容体系的分析,从教学内容和
<正>红心猕猴桃根系发达,植株健壮,枝叶茂盛,多以荒坡、台地、退耕地作为种植园,大大增加植被覆盖面积。果园春季绿树成荫,夏季繁花似锦,秋季硕果累累,冬季生机蕴涵,对于保持
信息化技术的快速发展,为加大能源利用,提高信息化对能源资源的配置效率,在更高层次上促进传统产业改造升级和结构优化,提升经济运行和管理能力,将起到积极的作用。采用现代
对广东省高校图书馆信息资源共建共享的现状以及存在的问题进行了分析,提出了促进广东省高校图书馆信息资源共建共享的发展对策。