结合评论关系网络图的微博垃圾评论识别方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:jyx781004
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着微博平台影响力的不断扩大,大量无意义带有广告营销、恶意攻击言语性质的垃圾评论信息充斥在平台中,威胁着平台本身发展的稳定与和谐。因此,如何在已有垃圾评论识别研究的基础之上提高垃圾评论整体的识别率以及降低垃圾评论和正常评论的误判率是面向微博平台垃圾评论识别研究中的重点内容。提出一种结合评论关系网络图的微博垃圾评论识别方法,在建立评论关系网络图模型的基础之上,采用文本相关度计算模型代替传统严苛的文本相似度计算模型,将评论与原博文的相关关系考虑进来,降低正常相关评论的误判率。文本相关度又由底层实现基于Lucence全文搜索引擎的微博语料全文搜索库词语相关度计算而来,该方法结合了传统基于搜索引擎和语料库两种词语相关度计算方法以适用于评论关系网络图中的文本词之间相关度计算。在评论文本特征不够丰富的情况下,通过用户共同属性、用户交互频度、用户间互评估可信度模型量化评论关系网络图中评论两端用户友好关系以及评论用户可信度,利用用户关系越友好、用户可信度越高,相互之间发表垃圾评论概率越低的性质提高垃圾评论识别算法的准确率。并且为了提升垃圾评论识别算法的性能,选择基于图模型的图数据库来存储和管理包含各种连接关系的评论关系网络图,每次测试集的识别结果还会增量反馈到评论关系网络图和评论文本分类器中继续学习,这样的增量学习机制进一步提高了垃圾评论整体的识别率并降低了误判率。测试结果表明,设计并实现的结合评论关系网络图的微博垃圾评论识别方法在提高垃圾评论整体识别率以及降低正常/垃圾评论误判率上都表现出了显著的优化效果,基于图模型存储的计算耗时也远小于关系模型存储下的计算耗时。
其他文献
随着经济发展的多元化以及就业压力的增加,创业在中国变得越来越重要。基于创业研究的社会网络观和社会分层理论,对中国情景中创业企业新生期劣势进行新的诠释,并实证检验不
目的了解广州市中学生个性特征及心理健康状况.方法抽取广州市城区1467名中学生,采用"艾森克个性问卷(EPQ)”及"心理健康测查表(MMH)”作测评. 结果与结论①EPQ提示广州市中
转变学生的学习方式,首先应着力改变学生的学习状态。增强教学的亲和力,有利于形成良好的教学氛围,达到理想的教育教学效果。教师应树立正确的学生观、充满活力、调动学生参
本文先介绍了数码复合机中嵌入式微处理器Quatro4110的JTAG接口标准,其次着重分析了TAP(TEST ACCESS PORT)和BOUNDARY-SCAN架构,最后阐述了引入到数码复合机的Quatro4110嵌入
以苯乙烯-马来酸酐共聚物(SMA)为增容剂,研究了SMA含量对PA6/ABS共混物力学性能和断口形貌的影响。实验结果表明:随着SMA含量的增加,PA6/ABS共混物的拉伸强度逐渐增加,冲击强
电视公益广告是电视媒体传播发扬社会公益思想和观念的重要途径,凭借电视广告的广泛性,能够有效达到社会效果。基于此,本文研究了提升电视公益广告创意表现的有效策略,以期创
采用差示扫描量热法研究了不同配比的聚酰胺6/丙烯腈-丁二烯-苯乙烯共聚物(PA6/ABS)共混物的非等温结晶过程,同时研究了冷却速率对PA6/ABS(80/20)共混物结晶行为的影响,对其
目的探讨甲状腺全切除术围手术期护理方式及施行心得。方法选取2015年3月至2017年8月甲状腺全切除术患者90例以数字表法分组。对照组进行围术期常规护理,实验组开展围术期细