基于深度学习的欺骗性垃圾信息识别研究

被引量 : 0次 | 上传用户:oikikukka
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
商品评论是人们在网络购物或消费时参考的重要资源,很多情况下极大影响了消费者的选择。由于有利可图,一些商家会雇用专业写手为自己的商品刷虚假好评或给竞争对手的商品以虚假差评,对网络商务生态的健康发展造成了一定的不良影响。而研究表明,普通人对于这种虚假评论的识别水平是比较低的。为了自动有效地识别这些欺骗性垃圾信息,一些学者采用了机器学习的方法进行研究,并取得了一定成果。深度学习(Deep learning)是2006年Geoffrey E. Hinton最先提出的一种先进的机器学习理念,最初应用在人工神经网络。它模拟人类大脑处理信息时的分层结构,将传统神经网络的层数加深(最深可达十几层),并采用了多种预训练的方法获得网络的初始参数,避免了采用随机值时由于参数过多等原因而导致算法发散。深度学习理念提出以来,在语音识别、图像识别等领域取得了巨大的成功,将很多领域的研究水平提升到了一个新的层次,成为时下机器学习领域的一大研究热点。本文在Myle Ott等人2011年至2013年采集的酒店虚假评论标准数据集的基础上,首次尝试采用深度学习算法识别欺骗性垃圾信息。首先对该数据集进行特征提取并根据信息增益的原则进行特征选择;然后在好评数据集上,采用普通神经网络、DBN-DNN网络、LBP网络等三种算法进行识别,在差评数据集上,使用普通神经网络算法识别,并与前人工作进行对比,其中LBP算法由本文独立实现;最后在好评与差评的混合数据集上使用神经网络算法进行识别,并在最优结果的基础上,得出一些关于欺骗性垃圾信息的观察结论。实验结果表明,深度学习在文本处理问题上也有着较为优异的表现,其在虚假评论数据集上最高取得了92.5%的准确率,优于SVM(准确率为89.6%)等传统机器学习方法;而虚假好评和虚假差评的准确率对比显示,机器可能更善于识别虚假差评。
其他文献
基于文献研究法、政策文本分析法、演绎法,分析"三权分置"法律实现的理论逻辑,构造承包地权利体系。研究表明,在中国大陆法系框架下,产权经济学权利束分割理论不能为"三权分
配电网是电力系统实现现代化供电,将电能合理分配并供给电力客户的重要环节,无论是大型、中小型城市或农村都把配电网的规划、建设和改造列入工作重点。随着配电网建设改造的
材料动态性能是当前力学性能研究领域中最为活跃的方向之一,研究材料的动态力学性能在力学研究中有其重要意义,对军用和民用新材料的设计具有实际应用意义和科学价值。在合金
由于步进加热炉独特的优越性,使其在现代冶金工厂得到了广泛应用。它与传统的推钢式加热炉和辊底式加热炉相比具有如下优点:钢坯黑印减少、消除了滑轨划伤,产品质量高;炉内钢
当今社会是影像的时代,最具影像代表的艺术就是影视艺术。而特效短片作为影像艺术的一种,其表现性与创意性比其他艺术形式更具有魔力和个性特质。一个特效短片是由一系列镜头
韩愈的散文《师说》论述了教师的重要作用和从事学习的必要性,批判了当时社会上士大夫之族耻于从师的不良风气。文章第二段在运用对比方法论述了巫医乐师百工之人不耻相师和
微博,即微型博客(MicroBlog)的简称,是一个基于用户关系信息分享、传播以及获取的平台。用户可以通过各种客户端组建个人社区,并可以实现双向关注、广播信息。但是其最重要的是功
实习是传媒人才培养的重要环节,本文主要针对目前新闻传媒类学生实习现状,结合几位在新闻媒体(以中国新闻社广西分社为例)实习生的表现,提出实习环节的几个理论总结。
在当前建设民主法治国家的进程中,倡导和谐是党和国家的殷切希望,使人们自由的发表言论是民主国家的根本要求。在我国,网络技术的迅速发展极大地拓宽了人们发表意见和表达权