论文部分内容阅读
随着B2C市场规模的增大,消费者在互联网上对商品的评论数量也呈爆炸式增长。由于这些商品评论中隐藏许多对商家和消费者有价值的信息,因此准确高效地识别这些信息并加以利用会带来巨大的经济效益和广阔的应用前景,这使得商品评论的挖掘与分析成为近年来研究的热点。本文以大型B2C网站京东商城的手机评论为研究对象,对商品评论文本的情感分类和情感极性分析两方面进行了研究,主要工作如下:使用支持向量机方法和朴素贝叶斯方法对商品评论文本的情感分类进行研究。首先对网上获取的评论进行人工选择获得训练集,然后利用NLPIR分词系统预处理语料,并用TF-IDF方法计算特征词的权重。最后,使用MI、IG、CHI特征选择方法在分类器SVM、NB上进行实验对比分析。实验结果表明,使用CHI特征提取方法,SVM和NB的分类效果能达到80%以上。另外,在同一特征提取方法上,SVM的分类效果要优于NB,正确率可到83%。采用基于邻近原则的“双向迭代法”对商品评论文本进行细粒度情感极性分析。首先利用PMI-IR算法构建情感种子集,然后利用基于邻近原则的“双向迭代法”获取特征词-情感词关联关系对,以此提出了一种情感词典的构建方法,构建了一个基于HowNet的三元组情感词典Tri-HowNet,并且通过实验对比分析了基于HowNet极性词典与基于Tri-HowNet情感词典的两种极性判定方法。实验结果表明,后者在判定多语义情感词极性时表现优于前者。设计并实现了基于SSH框架的评论挖掘系统。该系统主要包括词典维护、评论收集、评论分类、评论情感分析和可视化展示等5个模块。首先,利用开源:Java类库Crawler4j提供的接口,通过post模拟登陆的方法来获取评论。其次,由文本情感分类和情感分析两个方向出发,对商品评论进行研究分析。最后,将结果存入商品的分析库中,并能够以3D柱状图的形式展现,方便用户查询与使用。