论文部分内容阅读
作为Web2.0时代的重要元素,博客以极快的速度融入到人们的日常生活之中。博客能成为互联网上人与人之间重要的交流方式,与其读者可以方便、快捷地在博客上发表评论的特征是密不可分。然而,随着博客空间数目的日益增多,博客中出现了数目众多的涉及产品推销、网站推介及发布信息的广告评论的内容。这些广告评论不仅占用了大量网络资源及带宽资源,而且还降低了用户的体验度。因此,研究如何检测出这些广告评论是非常有价值,也是非常有意义的一件事情,其研究成果可以帮助博客网站运营商准确识别广告评论,最终将其过滤、删除,使得博客空间更加和谐与干净。
本文首先对广告评论的现状做了一个深入总结,分析了广告评论在博客中泛滥的原因。重点研究了广告评论的发布机制,研究表明大多数广告评论都不是人为发表的,而是由机器群发软件自动注册用户,自动发表的。与此同时,也对当前防治广告评论的手段和方法做了详细深入的研究。
通过对用户行为的分析,发现发表广告评论的用户与非广告评论的用户在行为上有很大的差异性。这种差异性主要体现在三个方面:时间间隔、写作风格、写作主题。在提取到这三个行为上的特征后,提出了基于用户行为分析的广告评论检测算法模型。利用这个模型并结合朴素贝叶斯分类算法对广告评论分类,以正确率、召回率、F1值对分类效果评价,实验结果表明利用行为分析可以取得很好的分类效果。
利用行为特征进行广告评论检测取得了很好的效果,但仍然有少数广告评论被误判为非广告评论。因而,为了进一步地提高分类的效果,考虑从评论本身着手,提出了从内容上提取特征。由于广告评论包含信息多,首先从文本长度上分析,其次广告评论大多数由机器自动生成,一般都不符合中文语法结构,提出了利用词性分析的手段提取评论的特征。最后设计并实现了利用行为分析结合内容特征的广告评论检测模型,取得了较好的效果。