论文部分内容阅读
随着网络信息化的发展,电商网站上出现大量产品评论,如何快速整理、归纳这些海量信息,成为当前迫切需要解决的问题。情感分析正是基于这一需求,通过自动分析、整理和归纳,挖掘出用户的情感倾向。细粒度情感分析作为情感分析的主要研究内容,不再对文本进行整体情感倾向性判断,旨在挖掘产品特征、情感词及对应情感倾向等要素。通过细粒度情感分析,可以发现用户对产品局部细节的满意程度,对改进产品、发掘潜在用户以及为用户提供购买依据起着极其重要的作用。基于产品评论的细粒度情感分析研究中,产品特征抽取以及情感词典的构建是最主要的研究任务。本文针对产品特征抽取方法中领域移植性差、人工标注工作量大、无监督学习方法存在的准确率较低以及情感词典构建方法中情感词典的准确率不高、覆盖率低、依赖语义知识库等问题进行研究。具体而言,本文主要工作如下:1.基于产品特征在不同领域分布的差异,针对现有产品特征抽取方法中存在的领域移植性较差以及人工标注工作量大等问题,提出了一种无监督的基于领域相关性的产品特征抽取方法。该方法首先引入互信息确定名词短语,然后根据一定的句法规则抽取候选特征,再利用两种不同领域语料的差异性,得到候选特征的领域相关性值,进一步确定产品特征。实验结果表明,该方法可以有效提高产品特征抽取的准确率。2.针对传统方法中自动构建的情感词典中所存在的准确率不高、覆盖率低以及依赖语义知识库等问题,提出了基于标签传播的情感词典构建方法。该方法首先选取一定数量的情感种子词,然后利用Word2Vec抽取和种子词相似度高的词语;同时,通过依存句法分析抽取和种子词具有连词关系的词语;最后通过标签传播算法确定词语的极性,并得到构建的情感词典。实验结果表明,该方法可以得到准确率较高的情感词典。3.设计并实现了一个基于产品评论的细粒度情感分析原型系统。该系统可以从产品评论中自动抽取产品特征,并将用户的情感倾向性以图形化界面展示出来。