面向商品描述的评论数据分析方法的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:zxz66329
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,互联网技术和移动网络技术飞速发展,电子商务和移动商务已经成为人们日常生活中的一部分,网购的方式给人们的生活带了巨大的便利。同时,网络上各种各样的商品信息给我们挑选商品带了一定困难。除了商品本身的描述以外,商品的评论信息也是人们挑选商品考虑的重要因素之一,更是人们判断商品质量的关键内容。电商平台的用户评论数量往往十分巨大,并且存在大量无效评论,例如不良商家雇佣水军刷的好评和同行之间的恶意差评等。商品评论数据的大规模性和复杂性对消费者判断商品质量的过程造成了很大的干扰,使得消费者无法购买到符合预期质量的商品。因此,如何从海量的商品评论数据集中过滤掉无效评论并分析出商品本身的特性,改善消费者的网购体验,成为了当下提升电子商务领域环境的关键性问题。本文从国内的几个主流的电商平台中收集了200余家商户中约15万条服装类商品的评论数据,以“商品特性”为分析目标,提出了一种由评论数据预处理和评论数据分析两个部分构成的商品评论分析模型。通过对无效评论的分析研究,找出其存在的规律和特点,之后基于主题生成模型(LDA)设计了一种对无效评论过滤的模型,来完成评论数据预处理部分。通过对有效商品评论数据内容特性的分析研究,找出评论分析过程中的难点,结合深度神经网络中的长短期记忆网络模型(LSTM)设计了一种对评论数据进行评分预测的模型,并对评分预测模型结果进行收集和统计,来完成评论数据分析的部分。本文的主要工作和贡献如下:本文提出一种基于LDA的无效评论数据过滤的模型。该模型主要分为两次对原始评论数据进行过滤的过程。首先基于文本特点对商品的评论数据进行第一次过滤,剔除掉重复出现、未进行评分、包含某些关键字和失去主语成分等无效评论。然后基于LDA主题模型,通过Gibbs采样求解出商品评论的公共主题,通过得到的主题对该商品的评论进行筛选,并对筛选出来的评论数据加工后进行分词处理,将所有得到词语构建成语料库。最后根据得到的语料库对第一次过滤后的评论数据进行第二次过滤,从而实现对评论数据完整的过滤过程。本文提出一种对评论数据的分析模型。该模型首先基于LSTM网络搭建对评论文本评分预测的模型。评分预测模型将过滤后的评论文本通过Word2Vec工具转化成向量型数据作为输入,将每条评论文本对应的用户评分作为输出,训练完成后该模型能够预测出任意一条评论数据对应的评分。将过滤后的评论数据集分成评论文本和用户评分两个部分,完成对评分预测模型的训练。本文对测试数据集中每家商户的评论按照商品属性进行分类,每一种属性对应的评论数据集通过评分预测模型进行预测,得到每条评论的评分。最后基于统计分析对商品的属性进行最终的评分确定,实现对完整的评论数据分析模型的构建。
其他文献
社会主义核心价值观作为当代中国公民最大的价值公约数,具有引领社会思潮和凝聚价值共识的作用。《中华人民共和国民法典》是新中国成立以来第一部以“法典”命名的法律,是中国特色社会主义法治体系大厦的支柱。将社会主义核心价值观贯穿民法典的始终,是我国法治建设的一大特色,也是新时代弘扬和践行社会主义核心价值观的重要途径。以民法典为载体挖掘其蕴含的主流价值观念,对公民具体、感性和深入地认知、内化与践行社会主义核
学位
倪瓒作为元四家之一,其以“逸”的绘画特质占据了文人绘画发展史上的重要一席。本文尝试跳脱既定的“逸”的语义范畴,通过析读《清閟阁集》及其流传画作,从元季思想文化背景
苏童是中国当代著名作家之一,其作品被翻译成多种文字在海外广泛传播,因此,作家苏童也成为我国小说外译的前三名。他的作品《妻妾成群》被多个国家列入中国优秀小说集,《河岸》荣获第三届英仕曼亚洲文学奖等多项国内外文学奖,是中国文学对外译介中较为成功的案例。本文从译介学角度,结合翻译研究文化学派的理论,以苏童作品《妻妾成群》和《河岸》越译本为实例支撑,分析译者所采用的翻译策略和具体的翻译方法,同时从社会因素
我国经济在持续高速增长的同时,生态环境问题也日益突出。“企业污染、群众受害、政府最终买单”的情况长期存在,污染源头的预防困难、损害责任追偿也不易的尴尬情况时常出现,使得生态环境损害得不到及时、足额的赔偿,公众的环境权益和生态系统得不到保护。作为生态文明建设的重要组成部分,生态环境损害赔偿制度改革的核心目标是使得大气污染、水污染、土壤污染等摆脱“公地悲剧”。从《生态环境损害赔偿制度改革试点方案》到《
随着计算流体力学技术的发展,湍流流动问题的研究不断深入,湍流流动结构的认识也逐渐细化,对于工程湍流流动问题的分析预测也就提出了更高的要求。大涡模拟方法是在当前计算机软硬件基础上,能对湍流流动进行较精确预测的有效手段之一,可以得到相对多的湍流涡结构相互作用的信息。大涡模拟基于涡相干结构,采用介于直接数值模拟和基于湍流模型数值模拟之间的网格尺度进行流场分析,并未达到直接数值模拟所需要的网格数,与基于湍
文章从三个平面理论入手,特别是从语义平面和语用平面对能愿动词“要”和能愿动词“得”进行了对比辨析。文章先对能愿动词“要”和“得”的语义展开辨析。文章对二者的义项类别重新进行整理归类,把“要”分成五个义项,把“得”分成三个义项。在“意愿义”上,“要”和“得”存在类型涵盖差异、表达程度的强弱差异、思维方式的呈现差异、问答方式差异;在“义务义”上,二者存在语气强弱差异、共现时的顺序差异、唯一性的强调差异
母亲身份是女性主义理论的核心部分。女性运动第二次浪潮以来,西方许多著名女性学者分别从不同的角度审视母性,使母性理论在广度和深度上获得发展。与之相应,女性小说家也将目光转向母亲,将解构的笔伸向母性,对传统的母亲形象进行颠覆与重构,使得当代西方文学作品中的母亲形象异彩纷呈。玛丽·戈登是美国当代著名的女性作家,是美国文学界一颗引人注目的新星。她的小说大都以女性复杂的生活为主线,集中描写当代女性对自我的追
越南阮朝(1802-1945)经历了从古代独立封建社会向近代殖民地社会的逐步过渡。阮朝童蒙教育作为传统科举儒学教育的一个初级阶段,随着法国殖民统治的推进,以科举制度的变革为主线,以汉字、喃字、拉丁国语字和法文四种文字的转换为线索,经历了传统(1802-1884)、过渡(1885-1919)、同化(1917-1945)三个阶段的变革。传统时期的童蒙教育,以科举制度为中轴,以官学和私学为土壤,以汉、喃
19世纪50年代,在中国大规模海外移民时代大潮的背景下,旅俄华侨群体开始大量形成。受俄国国内环境和中俄关系变化的影响,旅俄华侨经历了种种坎坷。1917年俄国革命改变了俄国
聚集诱导发光(AIE)现象指的是存在一类分子,它们在单分子状态时不发光或荧光很弱,相反在聚集体时荧光显著增强,这一发现解决了传统荧光生色团的聚集荧光淬灭的问题,扩宽了应用领域。使其在电子器件、生物医学、离子检测等方面应用越来越广泛。合成更为新型的AIE分子,研究其发光性质,发现其应用领域对于研究有机发光材料来说具有重要的指导意义。本文以并吡咯分子为核心,引入氰基-乙烯基团,并通过Knoevenag