基于双层堆叠分类模型的水军评论检测

来源 :山东大学学报(理学版) | 被引量 : 0次 | 上传用户:fangfang_936
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于水军评论检测问题,已有方法在提取用户行为关系以及通过神经网络提取特征时复杂度过大,同时由于网络评论属于短文本类,其书写的不规范会导致训练过程中文本特征提取困难;另外,已有方法对数据集不平衡分布情况考虑不足。为此,提出了一种基于双层堆叠分类模型的水军评论检测方法。首先通过三元组形式构造矩阵表示用户间关系,并通过主成分分析得到低维用户关系表示,以此刻画用户在评论数据中的行为差异并且降低计算的复杂度;然后,通过评论的段落向量表示以及计算离散型特征(包括文本相似度、信息熵等)解决文本特征难以提取的问题;最后将三者相联结作为融合文本与行为特征的整体特征表示。利用集成学习的方法构造双层堆叠分类模型对评论分类,以提升模型在非平衡数据集下的检测性能。实验采用Yelp2013评论数据集,结果表明,与目前最好的基准方法对比,F1值提高了1.7%~5.2%,在非平衡数据集中提升尤为明显。
其他文献
运载火箭靶场测试数据包括遥测无线测试数据和地面有线测试数据。参数数量巨大,数据类型繁杂,人工判读测试数据工作量大、效率低、判读准确度难以控制。为适应靶场高密度任务
颈动脉狭窄多数由动脉内粥样硬化斑块形成,致中层组织变形、钙化,管腔内继发血栓所致^[1],是造成脑缺血,发生脑梗死,引起成人残疾的主要原因。本病多发生于老年患者,常表现为头晕、
谨慎性原则是一项重要的国际会计惯例,它因其理论价值和指导意义而成为顺应时代潮流的一种约束力量,为各国会计界所认可。但又因其在实务操作中存在着主观随意性,影响会计信
根据我国住建部与加拿大自然资源部签署的《关于生态城市建设技术的合作谅解备忘录》,为推动我国城市绿色低碳发展,探索和推广适合中国的现代木结构建筑技术,经研究,中国与加
万寿菊,菊科,一年生植物,是提练食品色素,生产菊花粉的原料,其鲜花、鲜叶有极强的消炎抗菌作用,对治疗兔创伤和脚皮炎有良效。
纵观"食品安全"事件,"食品作坊"是当之无愧的重灾区。毒豆芽、毒豆腐、毒鸭血等绝大部分来源于此,"食品作坊"堪称食安监管中最薄弱的环节。但由于缺乏大规模的生产厂家,群众生活确
酒宴卫生监督指导工作,对提高酒宴卫生质量,降低食物中毒和食源性疾患、食品污染事故的发生,已取得了明显的成效。现就江阴市28个镇实施酒宴卫生督导前后的统计资料作效益分
农业适度规模经营是理论界和政策界的共识,而兼具家庭经营与适度规模特征的家庭农场是当前中国农村改革发展的重要推动力量。近年来,中国农业劳动力成本远远快于同期其他要素
那是前年的事情,我在单位业务部门工作了几年后,如愿竞聘上了中层副职。本以为顺理成章可以担任业务部门的副职,没想到却被任命为办公室副主任。办公室副主任只是一个虚职,一
期刊
在世博会的舞台中,每个国家的展馆都以独特的美感来表达各国的本土风貌,以强烈的本国民族文化构建出醒目的,让人难以忘却的文化标志。来自波兰本土的建筑师 In the stage of
期刊