博客中广告评论检测技术研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:doboho
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为Web2.0时代的重要元素,博客以极快的速度融入到人们的日常生活之中。博客能成为互联网上人与人之间重要的交流方式,与其读者可以方便、快捷地在博客上发表评论的特征是密不可分。然而,随着博客空间数目的日益增多,博客中出现了数目众多的涉及产品推销、网站推介及发布信息的广告评论的内容。这些广告评论不仅占用了大量网络资源及带宽资源,而且还降低了用户的体验度。因此,研究如何检测出这些广告评论是非常有价值,也是非常有意义的一件事情,其研究成果可以帮助博客网站运营商准确识别广告评论,最终将其过滤、删除,使得博客空间更加和谐与干净。   本文首先对广告评论的现状做了一个深入总结,分析了广告评论在博客中泛滥的原因。重点研究了广告评论的发布机制,研究表明大多数广告评论都不是人为发表的,而是由机器群发软件自动注册用户,自动发表的。与此同时,也对当前防治广告评论的手段和方法做了详细深入的研究。   通过对用户行为的分析,发现发表广告评论的用户与非广告评论的用户在行为上有很大的差异性。这种差异性主要体现在三个方面:时间间隔、写作风格、写作主题。在提取到这三个行为上的特征后,提出了基于用户行为分析的广告评论检测算法模型。利用这个模型并结合朴素贝叶斯分类算法对广告评论分类,以正确率、召回率、F1值对分类效果评价,实验结果表明利用行为分析可以取得很好的分类效果。   利用行为特征进行广告评论检测取得了很好的效果,但仍然有少数广告评论被误判为非广告评论。因而,为了进一步地提高分类的效果,考虑从评论本身着手,提出了从内容上提取特征。由于广告评论包含信息多,首先从文本长度上分析,其次广告评论大多数由机器自动生成,一般都不符合中文语法结构,提出了利用词性分析的手段提取评论的特征。最后设计并实现了利用行为分析结合内容特征的广告评论检测模型,取得了较好的效果。  
其他文献
随着计算机图形学的快速发展,真实感图形学已经成为计算机图形学的核心内容之一。全局光照计算是场景绘制迈向真实感的一个必要手段,如何实现更好的全局光照算法,在更短的时间内
安全协议是以密码学为基础的协议,它在因特网和分布式系统中提供各种各样的安全服务。近年来,利用形式化方法分析安全协议正在成为一个新的趋势。本文首先在分布式时序逻辑的
问答系统可以视为信息检索问题的一种特殊形式。给定一个文档集合,一个问答系统致力于找到这个使用自然语言形式提出来的问题的答案。问答是一个多学科的课题,它包括了信息技
如今越来越多的业务过程由显示过程模型驱动的信息系统进行控制和管理,无数的过程工程、过程建模和过程实现的方法也随之出现。该领域内众多的技术生动地说明了以业务过程为主
图像置乱是图像加密方式的一种,有着多种用途,包括信息隐藏、水印保护等。随着用户隐私保护意识的增强,人们更加关注的是图像置乱后是否能达到好的加密效果,因此,图像置乱度
图像配准是图像融合、图像分析、图像重建的基础,尤其在医学图像处理领域,图像配准发挥着重要的作用,高效准确的配准方法可以辅助医生进行医疗诊断,制定手术计划,跟踪病人的
无线传感器网络通常用于对监测区域内的各种环境或对象进行信息采集并传送到基站处理,其中数据收集在此过程中占有重要的地位。很多数据收集应用都位于人不可到达或环境恶劣的
随着网络的飞速发展,我们需要应对的网络安全问题也越来越多。诸如数字签名、访问控制、防火墙等的传统网络安全技术己不能很好地满足目前网络安全的需求。入侵检测系统作为一
视频中的文字包含了丰富的语义信息,文字提取对于基于视频内容的分析、检索等研究领域具有重要作用。如果能自动地将视频文字检测、分割、识别出来,则对视频高层语义的自动理
随着网络技术的高速发展,网络服务在社会生活的各个领域发挥越来越重要的作用。网络技术、网络服务在带来了巨大便利的同时,也带来了前所未有的安全性威胁。密码学作为保证信息