论文部分内容阅读
在Web2.0时代,用户是创造信息的主体。随着社交媒体和电商平台的急速发展,每天都有海量用户参与到人物、事件、产品的评论中来,这些信息有效传达了人们各种各样的观点和情感倾向。海量的中文产品评论数据为快捷、高效和科学获取用户对于产品的情感满意度提供了可能。然而,人工方法很难科学合理地对海量文本评论进行归纳和整理和应用。如何从这些非结构化的数据中挖掘出潜在的价值成为互联网产业的迫切需求。基于自然语言处理的文本情感分析技术主要是在大数据领域相关技术方法获取和处理中文用户评论数据的基础上,针对如何快速实现用户评论数据的自动分类、检测和归纳,快捷、高效和科学地评估用户满意度进行研究与应用。然而,针对具体主题领域的数据,传统文档级情感分析方法对数据的多维度认知尚存在一定程度的不足,亟待从属性角度寻求新的技术方法。针对大数据时代海量中文产品评论的情感分析问题,在对国内外情感分析技术和方法研究和分析的基础上,采用同一数据集,对传统通用情感词典进行性能测试,并通过情感分析实验对比分析基于情感词典与基于机器学习的情感分析方法的性能和特点。对Word2Vec词向量分布式表示模型和BERT语言表示模型的结构、建模思想、表义能力等方面进行深入研究,最后提出主题属性级别的细粒度情感分析方法,以实现用户评论数据的自动分类、检测和归纳,为快捷、高效和科学地评估用户满意度提供一种可能和选择。主要研究内容与结果如下:(1)传统的情感分析方法实验与测试选择了三种通用情感词典,设计实验分别测试其标注准确率和领域情感词覆盖度,使用中文酒店评论数据进行了基于词典的情感分析实验,大连理工情感词典表现出了最佳的性能;提取了多种离散特征将文本向量化,并在多个分类器上进行了情感分析实验,然后引入了基于卡方检验信息量的方法进行特征选择。结果显示以7500个信息量丰富的所有词和双词搭配,以多项式朴素贝叶斯作为分类器的模型获得了0.852的准确率,远远高于大连理工情感词典0.746的准确率,表明采用离散表示的方法可以捕捉更多的统计学和语言学特征,从而获得更好的情感分类表现。(2)基于分布式表示的情感分析方法研究使用Word2Vec和BERT两种文本分布式表示的方法来将评论文本向量化,并完成下游的情感分析任务。其中Word2Vec-Xgboost模型的情感分析准确率达到了0.866,比基于离散表示的方法准确率提升了0.014,而BERT-BiLSTM模型的准确率则高达0.890,比Word2Vec-Xgboost模型的准确率提升了0.024。结果表明,使用分布式文本表示方法可以提取出更多的语义信息和文本顺序特征,而其中的BERT模型所有层级联合调节参数的特性可以进一步处理一词多义的问题,捕获更多深层的语义和语法特征,提高情感分析的准确率。(3)基于表示学习的情感词典扩充方法研究提出了一种基于表示学习的方法来扩充情感词典,加入更多的领域相关的情感词,优化情感词典的性能。结果显示,采用Word2Vec词向量表示学习的情感词典,其总体标注准确率达到了0.855,领域情感词覆盖度达到了0.883,远超大连理工情感词典的表现,表明在进行情感分析任务时,可以使用该方法扩充情感词典,构建领域相关的情感词典和规则库。(4)主题属性级情感分析系统设计与实现设计了一个面向携程网酒店评论情感分析的系统,通过网络爬虫采集评论数据,对中科院停用词表、哈工大停用词表,四川大学智能实验室停用词库进行了融合,并结合情感分析领域的先验知识去除了去除了其中的情感词、程度副词和否定词,构造了新的停用词表并清洗了分词后的评论语料,在对文本进行向量化表示后,进行LDA主题建模,使用已经标注语料重新训练SnowNLP中情感分类模型,并对向量化表示后的文本进行情感分析,绘制了主题-情感极性分布图,并结合爬取的旅行方式、入住时间等数据,在web上进行了数据可视化。结果表明,该系统能够帮助酒店商家从多维度了解用户评价,并对经营管理策略进行优化,提升服务质量。综上所述,本文研究的情感分析方法,有效地解决了针对中文用户评论数据的自动分类、检测和归纳,快捷、高效和科学地评估用户满意度等问题,在多种文档级情感分析方法对比分析研究的基础上,提出实验基于主题和属性级的细粒度情感分析方法,并讨论了各种情感分析方法的优势以及面临的问题。在实际应用场景中,情感分析主要集中在电商、酒店、餐饮、汽车等行业。针对这些领域的特点,采用主题属性级的细粒度情感分析能帮助商家更加直观地认识用户评论数据,发现商家经营管理中的问题,从而优化产品和服务,提升行业竞争力,可以为文本情感分析技术领域提供新的技术参考,具有一定的应用和推广价值。