论文部分内容阅读
随着互联网技术的飞速发展和逐渐成熟,互联网技术极大地改善了人们的生活方式。现在人们足不出户也能通过电子商务平台购买世界各地的东西,在购买商品的同时,也可以对所购买商品进行评价。有效处理分析这些评论数据对于指导商家改善商品以及帮助用户快速做出决策都有极大的意义。因此,越来越多的研究人员展开了对商品评论进行情感分类的研究。目前主流的情感分类研究方法主要分为基于规则的方法以及基于机器学习的方法。而在具体实现过程中,基于规则的方法无法处理不符合规范的文本,而传统的机器学习方法需要定义大量情感词典并且着重于人工特征的选取,具有一定的局限性。随着深度学习的发展,越来越多的研究人员选择使用深度学习相关技术进行情感分类的研究,使用深度学习能有效提高分类的准确率并且降低人工成本。但目前商品情感分类系统在结果展示方面,大多数都只是简单展示分类结果以及语料的词频,而不能准确将评论数据中用户描述商品的观点词进行提取及展示。现有很多流行的深度学习框架,如TensorFlow、Torch、Caffe、Theano等,这些框架基本都是基于Python或者C/C++开发的,而那些大量使用Java生态圈中开源项目进行项目部署的企业,在使用这些框架进行深度学习相关研发时则需要解决跨平台的问题。针对上述不足,本文采用基于Java语言的DeepLearning4J开源深度学习框架研究并实现了商品中文评论情感分类系统,整个系统无需进行跨平台开发。在进行商品中文评论情感分类的同时,提取商品评论中出现的描述商品特征的词与分类结果进行融合展示。本文的主要工作如下:1.构建一种基于DeepLearning4J开源框架的商品中文评论情感分类模型。模型包括数据采集模块、数据预处理模块、商品评论情感分类模块、分类结果评估模块和观点词提取可视化模块,系统地实现了从数据获取并进行处理到最后进行可视化展示的过程。2.给出商品中文评论数据爬取方法。本文设计爬虫程序完成商品评论数据以及商品基本信息的爬取,采用Selenium的ChromeDriver操作浏览器内核,模拟用户操作浏览器访问页面。通过XPath定位页面相关元素获取所需爬取的数据,在爬取过程中不断改变浏览深度,以爬取用户指定的商品的所有评论。3.给出商品中文评论的情感分类方法。本文使用DeepLearning4J深度学习开源框架进行开发,通过添加UIServer依赖项可以在训练过程中观察当前网络状态,及时停止训练对网络进行调优。采用基于注意力机制的双向长短期记忆网络与多通道卷积神经网络进行融合(AttBiLSTM-MCNN)构建分类器,完成商品中文评论的情感分类。4.给出观点词提取可视化方法。通过百度的AI开放平台自然语言处理模块的评论观点抽取接口提取评论数据中出现的观点词,并结合分类结果进行可视化展示。对于不同类型的数据采取不同的展示方式,使结果展示更为直观,用户可以更快了解相关信息。5.实现并测试商品中文评论分类系统。整个系统基于SpringBoot+MyBatis架构进行开发,可与DeepLearning4J框架直接对接,并将商品中文评论情感分类系统的其他各模块进行嵌入。根据系统的整体流程及各模块功能结构进行开发,最后对整个系统进行测试。为了验证本文给出的分类方法的有效性,在爬取到的商品评论数据上进行了参数选择实验以及对比实验。实验结果表明在卷积层数选择为3层,卷积窗口分别选择为3、4、5时,本文所给出的分类方法准确率最高,达到了91.23%;同时与其他分类方法进一步进行对比实验,实验结果表明本文给出的方法比主流分类方法准确率高出3%左右,并且在精确率、召回率等评估指标上均有相应提升。通过对本文所实现的系统进行全面测试表明本系统可对商品中文评论实现高准确率、自动化的情感分类,并且能准确提取评论数据中出现的观点词,通过系统的可视化界面用户可直观了解商品优劣势及销量,便于消费者快速做出购买决策以及商家对商品进行改进。