基于LDA与PW-Word2vec的虚假评论识别方法研究

来源 :内蒙古大学 | 被引量 : 4次 | 上传用户:acecat
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息科技的成熟为电子商务的蓬勃发展创建了条件,相对于线下实体店购物,越来越多的消费者更倾向于方便快捷的线上网络购物。然而虚假评论的存在却使得消费者无法对商品进行更加客观的评估,侵害了消费者权益,同时也损害了部分诚信商家的利益。因此,本文基于Yelp在线评论数据集,使用LDA进行失衡处理,以及使用PW(Probability Weight)-Word2vec构造评论特征向量,提出了一种基于LDA和PW-Word2vec的虚假评论检测模型,主要研究内容如下:(1)训练词向量字典:基于酒店和餐饮领域数据,运用Word2vec模型完成了词向量字典的训练。(2)构建LDA+Word2vec虚假评论检测模型:针对实验数据中真假评论数据量的不均衡问题,本文提出了LDA抽样失衡处理的方法,使得真假评论数据量达到了一致,而后对该实验数据进行评论特征向量的提取,构建LDA+Word2vec虚假评论检测模型。(3)构建LDA+PW-Word2vec虚假评论检测模型:LDA+Word2vec建模过程中,存在着评论文本信息损失的问题,基于此,本文又进一步提出了LDA+PW-Word2vec模型进行虚假评论的检测。(4)模型实验对比:为了探求性能良好的虚假评论检测模型,本文进行了三组对比实验,其一为LDA抽样失衡处理与随机抽样失衡处理实验对比;其二为LDA+Word2vec模型与基准线模型的实验对比;其三为LDA+PW-Word2vec与LDA+Word2vec模型的实验对比。三组实验的对比分析最终验证了本文提出的LDA抽样失衡处理的有效性以及LDA+PW-Word2vec虚假评论检测模型的有效性。
其他文献
随着万物互联时代的到来,各个领域内的数据量爆炸式增长。深度学习算法能够帮助各个领域的人员从海量数据中挖掘出用户的需求,提取有价值的信息。随着深度学习算法的不断更新,深度学习的应用在各个场景中的准确度越来越高。但这也增加了神经网络计算的数据量和复杂度。速度瓶颈、功耗问题以及对大规模计算平台的依赖已经成为了深度学习应用发展不可忽视的阻碍。针对以上问题,围绕主流的深度学习芯片发展趋势,以现阶段应用范围最
目的:探讨输尿管镜下钬激光碎石治疗输尿管及膀胱结石的护理配合方法。方法:回顾性分析60例输尿管结石患者进行输尿管镜下钬激光碎石的术中护理。结果:除1例输尿管上段结石因
外后视镜是保障行车安全,提供驾驶便利的汽车外观构成件,是许多使用功能的载体。众所周知,任何产品都无法脱离其功能而单独存在,从功能论思想来看,作为较复杂的工业产品,外后
选取太湖流域(常州、无锡、镇江3市)为研究区,对其地下水、土壤、农作物等经口介质中邻苯二甲酸酯(PAEs)含量进行实验室检测,并通过体外实验(in vitro test)方法模拟不同介质
伴随着现代科学技术的高速发展,各类学科之间的交叉融合,人类环保意识的觉醒,对健康的重视和媒介多元化等因素,在这样的环境下孕育了具有独特形态特征与审美视角的微观图像视觉语言。微观图像以其自身独有的生命性、多元性、艺术性、符号性、韵律性,在当代设计的视觉环境中,提供了有效的应用价值。陶瓷作为一种载体,具有它本身材质的独特性,运用微观图像的形式和内容提取视觉语言的设计元素,探寻自然、分解、重构的形态,找
<正>常言道:一心不能二用。司机驾车时需要集中精力,容不得三心二意,应当保持高度的注意力,及时发现和处置路面出现的情况;而驾车时接听或拨打手机最容易分神,会分散司机的注
随着近年来广西工业化、城市化进程的加快,越来越多的农村中青年男子进城务工,农村留守妇女人数逐渐增多。如何使这一弱势群体走出困境已成为广西乃至全国各界广泛关注的现实
低碳城市是实现低碳经济的有效途径,是指城市在经济高速发展的前提下,保持能源消耗和CO2排放处于较低水平,包括低碳生产和低碳消费,以及在城市内部建立资源节约型、环境友好
随着全球价值链分工的不断深入,我国积极以“进口并加工中间品,出口最终品”为主的贸易模式参与到全球价值链中,在获得贸易利益的同时也付出了严重的环境代价。当前,我国已超
湍流流动是多尺度的,不同尺度的湍流不但影响着涡的大小,而且影响着各个涡对系统能量的贡献,现如今的湍流理论多基于统计学分析,所以定量分析和研究多尺度的湍流运动很有必要