论文部分内容阅读
在电子商务蓬勃发展的网络环境下,越来越多的关于商品的主观性评论文本出现在各类购物网站上。这些评论文本中包含用户对产品各个方面的情感倾向,如喜欢、讨厌等。对其进行情感分析不仅可以帮助商家及时了解商品的优缺点,从而改善商品质量,而且也能为潜在消费者的购买决策提供数据支持。情感分析技术能充分利用这些海量的评论文本,从中挖掘出用户对商品的褒贬态度,越来越多的研究者涉足到这一领域的研究。情感分析技术的主要任务是从给定的文本中标注出用户对某个事物所表达的情感倾向。研究内容包括非结构化文本的主客观内容识别、情感倾向性分类,情感强度等。其涉及到自然语言处理、文本分类、机器学习等多个研究领域。本文的主要研究重点主要是对主观性文本所表达正向或负向的情感进行分类。本文从商品的属性出发,提出了基于组合神经网络的属性聚类算法,并用该方法对商品属性进行聚类。随后提出将评论文本表示成一个四维向量的表示方法,并结合SVM算法来实现对商品评论的情感分析。针对商品评论文本中经常出现网络情感词语这一特点,本文提出了基于Google的word2vec工具来构建商品评论情感词典的方法,并用该方法来对评论文本进行情感分析。基于组合神经网络的属性聚类方法综合考虑了评论文本中属性词与其上下文中词语的位置关系,根据语法和上下文信息来对评论文本中的属性进行聚类。通过聚类,评论文本被划分成若干个簇,随后给每个簇标注一个类别标签。每个类别标签中的评论文本都是针对商品的同一属性进行评价的。由于商品评论文本具有篇幅短小、褒贬情感鲜明等特点,本文将评论文本转换为一个四维的向量。通过用网络爬虫获取的真实的商品评论作为数据源,将本文提出的方法与常见的几种特征选择算法进行对比,用SVM算法对评论文本的情感倾向进行分类,验证了该方法的准确性和有效性。通过对word2vec工具进行训练,构建商品评论情感词典,然后用该词典对评论文本进行情感倾向性分类,实验证明该方法具有较高的分类准确率。