论文部分内容阅读
伴随着微博平台影响力的不断扩大,大量无意义带有广告营销、恶意攻击言语性质的垃圾评论信息充斥在平台中,威胁着平台本身发展的稳定与和谐。因此,如何在已有垃圾评论识别研究的基础之上提高垃圾评论整体的识别率以及降低垃圾评论和正常评论的误判率是面向微博平台垃圾评论识别研究中的重点内容。提出一种结合评论关系网络图的微博垃圾评论识别方法,在建立评论关系网络图模型的基础之上,采用文本相关度计算模型代替传统严苛的文本相似度计算模型,将评论与原博文的相关关系考虑进来,降低正常相关评论的误判率。文本相关度又由底层实现基于Lucence全文搜索引擎的微博语料全文搜索库词语相关度计算而来,该方法结合了传统基于搜索引擎和语料库两种词语相关度计算方法以适用于评论关系网络图中的文本词之间相关度计算。在评论文本特征不够丰富的情况下,通过用户共同属性、用户交互频度、用户间互评估可信度模型量化评论关系网络图中评论两端用户友好关系以及评论用户可信度,利用用户关系越友好、用户可信度越高,相互之间发表垃圾评论概率越低的性质提高垃圾评论识别算法的准确率。并且为了提升垃圾评论识别算法的性能,选择基于图模型的图数据库来存储和管理包含各种连接关系的评论关系网络图,每次测试集的识别结果还会增量反馈到评论关系网络图和评论文本分类器中继续学习,这样的增量学习机制进一步提高了垃圾评论整体的识别率并降低了误判率。测试结果表明,设计并实现的结合评论关系网络图的微博垃圾评论识别方法在提高垃圾评论整体识别率以及降低正常/垃圾评论误判率上都表现出了显著的优化效果,基于图模型存储的计算耗时也远小于关系模型存储下的计算耗时。