基于半监督学习的虚假评论识别研究

来源 :南京财经大学 | 被引量 : 3次 | 上传用户:xiao12112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着网络购物的发展,消费者逐渐由传统的线下购物转向更便捷的线上购物,且养成了对已购买商品发布评论的习惯。电子商务平台上逐渐积累了大量的在线商品评论,这些评论信息为商家,潜在消费者和研究者们提供了珍贵的数据资源。由于在线评论信息可以在某种程度上影响消费者的购物决策,进而影响产品销量,因此在商品评论中逐渐出现了一些不真实的内容。这些虚假评论迷惑了消费者,降低了在线评论的参考价值,扰乱了正常的电商秩序,因此识别虚假评论显得尤为重要。在线商品评论是最具有代表意义的评论信息,是虚假评论识别问题的理想数据源,也是本文使用的数据集。本文对虚假评论识别技术和半监督学习方法进行了研究与分析,首先介绍了虚假评论识别问题的研究现状和发展趋势,然后介绍了半监督学习原理及其分类方法,最后将基于分歧的半监督学习领域的三个主流算法:协同训练(Co-Training)算法,三体训练法(Tri-Training)算法和协同随机森林(Co-Forest)算法应用到了虚假评论识别任务中,提出了基于半监督学习的虚假评论识别模型。本文围绕在线商品评论数据,基于分歧的半监督学习,虚假评论识别问题等关键问题展开研究,主要的研究工作如下:(1)提出了一种基于分歧的半监督学习方法来实现虚假评论的检测任务。根据虚假评论数据集中未标注数据多,已标注数据少的特点,本文借助了基于分歧的半监督学习思想,使用该领域的三个主流算法,循环迭代训练多个分类器,充分利用未标注数据扩充已标注训练集,然后使用训练集更新分类模型,改善模型效果。最后在亚马逊评论数据上进行了实验,结果表明了基于分歧的半监督学习算法对虚假评论有着更好的识别效果。(2)在特征提取阶段,本文结合了评论的主题以及文本信息,依据对评论数据集的统计分析得出的规律,从评论文本、评论者和被评论产品3个角度出发,分析并提取了3大类22个维度的混合特征。最后,基于不同的特征组合,使用三种全监督学习算法:朴素贝叶斯,最大熵分类器和支持向量机分类器,检测了不同特征组合在不同分类器下的识别效果。结果显示,混合特征预测效果更好,且朴素贝叶斯分类器获得了最好的识别效果,并将其应用到了后续的虚假评论识别模型中。
其他文献
所谓的输配电自动化及管理系统就是指电力企业对于整个输配电自动化项目在实施过程中所涉及到的各项技术活动实施科学管理以及组织的一个总称,输配电自动化与管理系统从属于工
医疗保障作为社会保障的一个重要组成部分,不仅关系到人民身体健康水平的提高,而且影响到社会稳定、经济发展.文章针对目前我国医疗保障制度模式存在的诸多问题,通过对我国不
本文通过对文献资料的研究,结合国际工程项目后勤保障的实践经验。将国际工程项目后勤保障工作分为采购、运输和现场管理三个阶段,总结在国际工程项目后勤保障工作各阶段中容易
人工智能在广义上分为以下两方面:知识推理和知识决策,相对应的技术分别为知识图谱技术与人工神经网络技术。文章对人工神经网络的历史进行了回顾,引进了几个较为经典的人工
随着经济的快速发展,电网大规模建设,一批变电站陆续建成投产,但在建设投产过程中的管理不到位,特别是继电保护管理的缺失给后续的安全运行埋下隐患,通过外因的诱发暴露出来酿成事
新会计准则对电力系统核算产生了较大影响,对电力系统的整体收益带来了一定影响。本文从新会计准则对电力系统在资产核算、所得税核算、利润核算以及政府补助核算等方面的影响
我局某变电站一台变压器自2006年6月21日油中发现乙炔(含量0.7μL/L)以来,至2009年3月6日我专业经过检测发现该主变乙炔含量已达到8.3μL/L,乙炔含草超过注意值。而我们对其已进行
目的探讨分析中西医结合治疗急性脑梗塞的临床疗效及安全性观察。方法将纳入研究的78例急性脑梗塞患者随机分成观察组及对照组,对照组给予西药治疗,观察组在此基础上加用半夏
针对目前大多数国企单位没有形成系统、量化的内控体系,以及碎片化管理影响内控的有效性。本文以G公司为例,以全面预算管理为核心的各项考核指标与内部控制制度进行有机融合,
西方经济学在当今西方世界被当作经济行为准则和政府制定政策的理论依据。随着我国社会主义市场经济体制的建立和发展,西方经济学作为专门研究在市场经济条件下稀缺资源有效配