论文部分内容阅读
随着互联网和web技术的极速发展,各类电商网站迅速崛起,愈来愈多的用户喜欢在这类网站上购物并发表评论,这些评论通常包含重要的应用价值,例如,用户和商家可以根据好评率决定自己的行为。目前网站上的好评率是通过统计用户评分得到的,但是仅仅根据评分判断是不准确的,因为有的评论内容明显是差评,但评分却很高。因此,需要一种对评论内容进行倾向分析的技术,根据评论内容倾向分析结果统计好评率。评论倾向分析的结果,直接影响好评率的统计准确率。通过分析现有倾向分析技术,针对分类准确率较低等问题,本文以现有研究成果为基础,基于SVM对网购评论进行倾向分析,主要研究内容如下:(1)采用Word2Vec和HowNet结合的方法构建领域情感词典。单独使用Word2Vec和HowNet时很多词无法判断情感倾向,为了构建完备的领域词典,首先基于Word2Vec获取候选词的相近词,根据相近词确定候选词的情感倾向,当用Word2Vec方法无法判断倾向时,则基于HowNet来判断,即通过计算候选词与正反种子词的语义相似度确定情感倾向。为了避免基于SVM倾向分类时大量的人工标注和标注结果受个人因素影响,本文使用基于情感词典的方法构建训练集。首先基于构建的情感词典计算评论的情感值并根据情感值排序,最后选择一定比例的情感值高的评论作为正向训练集,情感值低的评论作为反向训练集。(2)基于改进TF-IDF算法计算特征权重。因为仅基于TF-IDF算法计算权重时,忽略了特征的极性值对倾向判断的影响,所以本文首先计算特征的极性值,然后把极性值加入TF-IDF计算过程中。(3)基于加权Word2Vec改进评论文本向量表示。传统的基于加权Word2Vec表示文本向量时,把评论中每个词都作为影响倾向分类的因素,没有重点考虑特征词对倾向分类的影响,所以本文基于加权Word2Vec构建向量时着重考虑特征词对倾向分类的影响,忽略不重要的词,并在向量中加入评论中正反情感词,否定词和程度副词的个数构成最终的文本向量。(4)采用本文改进方法,通过分析3万条包含味道属性的餐饮评论的正反倾向,根据正反倾向统计好评率和差评率,验证了基于SVM对评论进行倾向分析后,统计好评率和差评率比常用的根据评分统计好评率和差评率准确率高。