基于深度学习的虚假评论识别方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:heyzol
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和移动终端的发展,电子商务成为日常生活中不可或缺的部分,随之而来的是商品信息、用户评论数量的飞速增长。其中用户的评论在电子商务中起到至关重要的作用,因为在网络购物中用户将商品评论作为衡量商品质量的参考资源,会左右消费者的决定。所以出于利益商家会雇佣专业写手为自家商品撰写好评或为竞争对手撰写差评,对电子商务平台的生态发展造成了严重的影响。现有研究表明,人工识别这类虚假评论的水平较低。为了有效识别这类评论,一些学者使用基于浅层、显性语义特征的方法,取得了一定成果。而深度学习方法可以挖掘深层次的语义特征,在识别虚假评论任务上,本文将深度学习方法作为研究重点。本文研究内容归纳为以下四点:(1)基于传统模型方法的虚假评论识别。在传统方法模型中采用了四种分类器,针对虚假评论语料的特点,提出文本特征、情感倾向性特征、心理学特征、句法相关特征四大类特征。采用了多模型投票策略,实验效果超过基线方法。(2)半监督学习算法扩充语料。针对虚假评论语料匮乏的情况,首先利用爬虫程序爬取评论资源,然后采用一种半监督学习算法,根据少量已标注的语料,从爬虫数据集中抽取置信度高的点评加入语料库。(3)基于深度学习模型的虚假评论识别。在虚假评论识别任务上,使用词向量作为输入,在LSTM、双向LSTM与CNN模型上进行实验,并尝试上述模型的融合实验。实验结果表明CNN与LSTM混合模型的效果最佳,准确率较基线方法提升2个百分点。(4)融合Attention机制的虚假评论识别。本文实现了两种Attention机制,分别为前馈式注意力模型和基于上下文的注意力模型。注意力机制对句子中单词的重要性进行区分,利用注意力权重得到更加准确的句子表示。将注意力机制应用在LSTM模型和LSTM与CNN的混合模型,进一步提升了准确率。
其他文献
伴随犯罪对计算机网络的利用,个人在强大的信息社会中安全感日渐缺乏。对于互联网信息时代个人隐私利益的保护,并非从单纯作为载体的"计算机"或者作为本质的"个人信息"进行规
早在2009年我国《刑法修正案(七)》中,就已经将在履职过程中获得的个人信息进行出售和非法提供的行为规定为犯罪。2015年11月1日实施的《刑法修正案(九)》对此罪进行了修改,
十八大以来,以习近平为总书记的党中央在治国理政的实践中,着力进行理论创新,逐渐形成了"四个全面"战略思想。"四个全面"战略思想是多层次构成的、逻辑严密的系统理论。"四个
试验采用裂区设计,主区为4个施氮水平(N0、N1、N2、N3),副区为4个种植模式,分别为:玉米单作(行距60 cm,株距分别为20 cm和30 cm)、大豆单作、玉米大豆间作(行比2∶2),以此研
现在的室内设计由于过于重视表现'物'性的东西,而忽略了'关系'属性的表现,因此在民族性和本土特色的表现上显得力度不够.本文由此入手,探求在现代室内设计中
注意缺陷多动障碍(attention deficit hyperactivity disorder,ADHD)是全球常见的儿童精神障碍,通常包括注意力不集中和多动/冲动的症状。一般认为遗传因素在ADHD的发生和发
随着城市化水平提高和机动车保有量的持续增长,城市交通系统变得越加复杂。对于出行者而言,城市交通出行具有不确定性和随机性;而对于交通管理者而言,传统的路径诱导方式可能
自动变速器是除了发动机以外汽车上最重要的一个部分,汽车的很多技术和相关性能都与它有着必不可少的联系,比如汽车的动力性、经济性、操纵性以及汽车的某些零部件,甚至汽车
有一种说法:一座城市能不能冠之“国际化”,可以看街头肤色人种多不多。如今,更加开放的重庆已经让越来越多的国际友人聚集于此,于是,这座山城也成为了老外“创业”的地方。很
<正> 太原市稅务局計划会計科在"大搞經济分析、促进税收跃进"的口号下,通过紅旗运动,掀起了一个人人搞統計、个个写分析的竞賽高潮,做到了任务到人、指标到戶,計划征管結合,