基于DeepLearning4J的商品中文评论情感分类系统的研究与实现

来源 :西南大学 | 被引量 : 0次 | 上传用户:zhengwei2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展和逐渐成熟,互联网技术极大地改善了人们的生活方式。现在人们足不出户也能通过电子商务平台购买世界各地的东西,在购买商品的同时,也可以对所购买商品进行评价。有效处理分析这些评论数据对于指导商家改善商品以及帮助用户快速做出决策都有极大的意义。因此,越来越多的研究人员展开了对商品评论进行情感分类的研究。目前主流的情感分类研究方法主要分为基于规则的方法以及基于机器学习的方法。而在具体实现过程中,基于规则的方法无法处理不符合规范的文本,而传统的机器学习方法需要定义大量情感词典并且着重于人工特征的选取,具有一定的局限性。随着深度学习的发展,越来越多的研究人员选择使用深度学习相关技术进行情感分类的研究,使用深度学习能有效提高分类的准确率并且降低人工成本。但目前商品情感分类系统在结果展示方面,大多数都只是简单展示分类结果以及语料的词频,而不能准确将评论数据中用户描述商品的观点词进行提取及展示。现有很多流行的深度学习框架,如TensorFlow、Torch、Caffe、Theano等,这些框架基本都是基于Python或者C/C++开发的,而那些大量使用Java生态圈中开源项目进行项目部署的企业,在使用这些框架进行深度学习相关研发时则需要解决跨平台的问题。针对上述不足,本文采用基于Java语言的DeepLearning4J开源深度学习框架研究并实现了商品中文评论情感分类系统,整个系统无需进行跨平台开发。在进行商品中文评论情感分类的同时,提取商品评论中出现的描述商品特征的词与分类结果进行融合展示。本文的主要工作如下:1.构建一种基于DeepLearning4J开源框架的商品中文评论情感分类模型。模型包括数据采集模块、数据预处理模块、商品评论情感分类模块、分类结果评估模块和观点词提取可视化模块,系统地实现了从数据获取并进行处理到最后进行可视化展示的过程。2.给出商品中文评论数据爬取方法。本文设计爬虫程序完成商品评论数据以及商品基本信息的爬取,采用Selenium的ChromeDriver操作浏览器内核,模拟用户操作浏览器访问页面。通过XPath定位页面相关元素获取所需爬取的数据,在爬取过程中不断改变浏览深度,以爬取用户指定的商品的所有评论。3.给出商品中文评论的情感分类方法。本文使用DeepLearning4J深度学习开源框架进行开发,通过添加UIServer依赖项可以在训练过程中观察当前网络状态,及时停止训练对网络进行调优。采用基于注意力机制的双向长短期记忆网络与多通道卷积神经网络进行融合(AttBiLSTM-MCNN)构建分类器,完成商品中文评论的情感分类。4.给出观点词提取可视化方法。通过百度的AI开放平台自然语言处理模块的评论观点抽取接口提取评论数据中出现的观点词,并结合分类结果进行可视化展示。对于不同类型的数据采取不同的展示方式,使结果展示更为直观,用户可以更快了解相关信息。5.实现并测试商品中文评论分类系统。整个系统基于SpringBoot+MyBatis架构进行开发,可与DeepLearning4J框架直接对接,并将商品中文评论情感分类系统的其他各模块进行嵌入。根据系统的整体流程及各模块功能结构进行开发,最后对整个系统进行测试。为了验证本文给出的分类方法的有效性,在爬取到的商品评论数据上进行了参数选择实验以及对比实验。实验结果表明在卷积层数选择为3层,卷积窗口分别选择为3、4、5时,本文所给出的分类方法准确率最高,达到了91.23%;同时与其他分类方法进一步进行对比实验,实验结果表明本文给出的方法比主流分类方法准确率高出3%左右,并且在精确率、召回率等评估指标上均有相应提升。通过对本文所实现的系统进行全面测试表明本系统可对商品中文评论实现高准确率、自动化的情感分类,并且能准确提取评论数据中出现的观点词,通过系统的可视化界面用户可直观了解商品优劣势及销量,便于消费者快速做出购买决策以及商家对商品进行改进。
其他文献
核形石作为微生物岩的一种重要的颗粒类型,近年来成为研究的热点之一。在四川盆地北川甘溪剖面泥盆系核形石出露在土桥子组和金宝石组,土桥子组核形石未有人进行过研究,而关
对社区结构的研究能深入了解复杂网络,同时也能挖掘复杂网络潜藏功能。但随着信息发展,复杂网络规模越发庞大,网络的伸缩性使复杂网络结构变得模糊,这导致社区发现算法在处理
溶液浓度变化的测量是环境污染领域十分关注的研究课题。尽管现有的浓度检测技术及相应的检测设备很多,但主要用于实验室且设备体积大,而水样测定地域范围广,采集现场分布离
神经反馈是一种重要的脑机交互技术,它利用视听觉等刺激反馈协助受试者自主调控其脑电活动,从而达到感知功能增强与精神疾病康复等目的。然而,神经反馈的有效性仍有争议,因为
尼玛地区地处青藏高原中部,区内出露大量班公湖—怒江缝合带的标志性地层——木嘎岗日群。区内木嘎岗日群地层可以划分为无序的中央隆起构造混杂岩带与有序的西部碎屑岩带。
CEPC是环形正负电子对撞机(Circular Electron-Positron Collider)的简称,它是一个由中国科学院高能物理研究所及其他国内外众多机构合作的粒子对撞机研究项目。JadePix3作为
有机电致发光二极管(OLED)具有自发光、广视角、低能耗、低成本、可曲挠、高对比度、响应速度快、可使用温度范围广等优点而被广泛关注。有机发光材料作为OLED发光技术的核心
分子石墨烯可以看成二维石墨烯的片段部分,由于其有着特殊的光学和自组装性质,在有机光电材料领域有着潜在的应用,如场效应晶体管,发光二极管,太阳能电池等。另外,噻吩及其聚
随着电子信息技术的不断发展,信号的复杂性大幅提升,有用信息经常被淹没在很强的背景噪声中,提取有用信息变的十分困难。传统的信号检测分析方法,如傅里叶分析、时频分析、包
当前,在我国新课程改革的背景下,高效课堂改革在各省市中小学校中轰轰烈烈地开展着。在这场课程改革中,各种形式的高效课堂教学模式应运而生,其中较为有名的是:昌乐二中“271