论文部分内容阅读
电子商务的急速发展促使网络评论数量呈飞跃式增长。这使得人们很难在短时间内从大量网络产品评论中获取到真正有用的信息,以至于难以优化自己的购买决策。因此,借助一定的技术手段来对这些海量网络评论进行情感分析以减轻人们的阅读负担是非常必要的。目前,人们在英文评论领域已取得一些研究成果,但是有关中文评论的研究相对较少。本文以中文网络产品评论为研究对象,研究评论中产品特征自动提取方法、中文情感词典构建方法及“情感文摘”相关情感分析技术。首先,提出了一种基于无监督学习的产品特征自动提取方法。通过有效的剪枝手段来保证种子词选取的准确性,并以有效的迭代规则来扩展得到新的产品特征。在此基础之上,利用“特征权重”筛选技术来进一步保证算法召回率。对比实验结果表明了该算法针对中文产品评论的有效性。其次,提出了一种带有“情感强度分数”的中文情感词典构建方法。以已有的普通词典为基准,将该词典中的各个词汇作为顶点,并将这些词汇之间的关系作为边,构建出相应的无向加权图,然后通过标签迭代模型来生成带有“情感强度分数”的情感词典。实验验证了该方法在汉语常用词中的褒贬判别效果较好,具有一定的实用价值。最后,在上述研究成果的基础上,研究了评论中产品特征及用户对其情感倾向的综合信息挖掘——情感文摘的一种挖掘方法,并以图形可视化方法来展现挖掘结果。先提取出评论中的产品特征,并找到其对应的情感词,然后基于本文生成的情感词典对各评论进行情感极性判断,统计分析出产品评论的情感文摘并以图形可视化方法来展现用户们对该产品的总体评价。综上所述,本文提出了一些新技术以解决中文网络产品评论中的部分情感分析关键问题。这些技术的研究将有助于用户快速便捷地获取其他客户对相应产品的反馈信息,为中文网络评论挖掘方法在电子商务领域的应用开辟了更加宽阔的空间。