论文部分内容阅读
由于互联网的高速发展,人们的生活逐渐变得智能化,用餐习惯也从线下转到了线上。在日常消费之后,用户习惯去线上平台留下评论以表达本次消费的感受。日积月累之下,这便形成了庞大的消费评论数据集。利用大数据手段,合理地对这些情感数据进行分析与挖掘,除了能够有效快速地了解商家的优缺点,同时也能够把握用户的喜好和消费需求,并以此来对产品进行改善。传统的情感分析主要基于机器学习模型和规则匹配的方法。基于规则的方法是指在某个领域针对每一类情感,都需要构建该情感的情感词典,最终预测的效果很大程度上取决于每一类情感所包含的情感词是否完善与准确。并且对于不同领域构建一个通用型的情感词典比较困难。另一方面,基于传统的机器学习方法需要提取文本浅层的语法和语义特征,比如词性信息和实体信息,由于不能提取文本上下文的语义信息,因此模型的效果一般。基于此,本文主要是利用深度学习算法,将文本表征为词向量,考虑到文本的上下文信息和语义、语法等信息,运用深度学习算法来进行情感分析。本文的主要工作内容如下:(1)本文提出了一个基于Seq2Seq情感分类模型,首先在输入上预训练了一个可用于餐饮评论的ELMo的语言模型,能够生成包含上下文语义、语法的词向量,有效的对文本评论进行表征,提高模型的精度。Seq2Seq模型主要利用了本文的输入是一个序列,输出也是序列,输出的20个不同粒度的情感粒度之间有着复杂的联系,通过Seq2Seq模型能够将这种联系学习到,本文改进了其中的注意力机制,共享参数的特点,在不同方向上分配不同的权重,通过GE解码用于序列生成模型,由此可以捕捉label之间相关性,且预测不同label的时候能聚焦输入不同部分。最终本文改进的Seq2Seq模型在美团点评数据集上的Accuracy值为89.32%,平均F1值为0.7190,通过与其他基线模型对比研究发现,本文提出的模型在评价指标上都是最优的。(2)本文提出了第二个基于自注意力机制的细粒度情感分类深度学习模型,该模型使用两个基于自注意力机制的模型来进行文本编码,逐步获取20个特定方面的信息,最终模型输出20个方面的情感标签。该模型在美团点评数据集上取得了良好的效果,平均Accuracy值为88.64%,平均F1值为0.7079。(3)为了加速细粒度情感分析方法在实际生产环境中的应用,本文开发了餐饮评论细粒度情感分析文本应用,应用集成了数据爬取、数据预处理、模型计算、统计信息展示等模块,并提供了对餐饮评论数据进行细粒度情感分析的功能,验证了本文提出模型得使用性和有效性。