论文部分内容阅读
大数据时代的消费模式正在由线下逐渐发展到线上,网络消费平台积累了大量的用户评论,在很大程度上反映了消费者的态度和观点,对服务和商品提供方也有一定的反馈作用。用户评论具有数据量大、日益剧增等特点,从中人工提取有用的信息需要耗费大量的时间和精力,因此亟需一种能够对海量用户评论进行观点挖掘分析的方法。一条用户评论往往包含多个观点词,并对应具体的观点维度,例如在餐饮业评论中“火锅”、“美味”等观点词皆属于“菜品”这一维度。本文主要从观点维度抽取以及观点维度层级的情感分析两个方面展开深入研究,挖掘得到用户评论中的细粒度主观情感,以帮助消费者科学选择,商家有针对性地改进。在维度抽取任务中,本文将观点词作为特定的实体进行抽取,并划分到具体的观点维度。论文提出一种基于ELMo改进的预训练语言模型fastELMo,相比于其它静态词向量方法,能够融合评论文本的句法特征,有效解决多义词的向量表示问题。在观点词抽取任务中,fastELMo结合双向LSTM的网络结构相比其它实验模型在各项评价指标上提升均超过1%。观点词基于文本相似度算法划分到具体观点维度,论文在相似度计算中创新性地引入最大边界相关算法思想,使维度抽取的效果提升超过3%。基于观点维度的情感分析工作中,论文着眼于当前已有模型的不足,创新性地提出一种基于门控机制的卷积网络IGCNN,并分别在中、英两种语言的数据集上进行实验。IGCNN对观点词的左侧上下文和右侧上下文分别提取语义特征并进行组合,实验结果表明其在两种数据集中均有着70%以上的准确率,相比其它优秀模型提升约为1%。在时间效率方面,模型通过卷积层和门控机制对训练实施并行化,相比IAN等其它主流的基于LSTM和注意力机制的模型,迭代100次花费时间减少将近1/2。在模型取得良好效果的基础上,设计并开发一套面向用户评论的细粒度观点挖掘系统,实现了用户评论的实时爬取和观点分析,将隐含的意见和观点信息进行有效抽取,形成可视化的直观结果。论文的进一步工作将专注于研究端到端的观点挖掘方案以及观点挖掘算法的跨领域迁移方法研究。