论文部分内容阅读
中文商品评论作为网购消费者意见的重要载体,对于潜在的消费者的购买决策和产品生产厂家的产品改善,都起着重要的参考作用。因此,论文紧紧围绕提高情感极性判别准确率,对中文产品评论挖掘技术展开分析和研究。论文先分别阐述属性提取和情感分析的研究现状。通过发展现状总结出现有中文产品评论挖掘技术还存在没有充分考虑属性词对用户的不同重要程度、程度副词不在基准程度副词库中无法赋值权重和基于分类器的评论挖掘算法提取特征不够全面的问题。针对以上问题,论文设计一种结合属性词和程度副词权重的中文产品评论挖掘方法,采取由细粒度到粗粒度的句子分析的思想,对评论的倾向性进行判定。该方法以基于消费者关注程度的属性词权重计算为基础,充分考虑消费者对不同属性的关注程度来设置不同属性词的权重,提高同一整句中正反极性同时存在情形下的极性判别准确率;设计一种基于基准程度副词词库进行语义相似度计算求得程度副词权重的方法,改善现有基于基准程度副词表匹配的权重赋值方法无法对所有程度副词赋值权重的缺点,降低了极性判别句的漏检率。论文也进一步探索了该方法在评论多极性判定上的有效性。实验结果表明,结合属性词和程度副词权重的情感分析方法能够降低极性判别句的漏检率,提高了算法的极性判别准确率。为了进一步提高结合属性词和副词权重的情感倾向分析方法的准确率,论文还设计了利用评论短句计算特征的中文评论挖掘方法。先利用基于属性词和副词权重的情感分析方法得到评论短句计算特征,结合一般统计特征和基本统计特征作为分类器的输入,对评论整句进行粗粒度的情感倾向分析。实验结果表明结合评论短句计算特征的情感分析方法进一步改善了结合属性词和程度副词权重方法的准确率。最后,对本文的研究内容进行了总结,并对以后的研究方向进行了展望。总之,论文以提高中文评论挖掘算法的极性判别准确率为最终目标,分别设计了基于属性词和程度副词权重、利用评论短句特征的中文评论挖掘算法,并利用实验对算法在不同数据集上的有效性进行验证和分析,以提高算法的实际应用能力。