论文部分内容阅读
随着web2.0的发展,越来越多的用户在互联网上发布内容,其中也包括了有关用户所关注产品或服务的评价及博客,用户在这些评论及博客中表述了自己对产品或服务的看法及观点,分析挖掘这些评论或博客中用户的情感信息有着潜在的商业价值,一方面用户就可以通过参考这些带有主观情感色彩的评论内容,了解和对比自己所感兴趣的产品或服务,进而做出相应的购买决策;另一方面,商家也可以通过这些评论信息,即时做出调整,以改善产品质量或服务。这些影响可以通过产品的销售预测情况来观察到。从商品大量评论中挖掘意见和情感有很大的挑战性,一是并不能用传统的文本挖掘算法简单地把评论定性为正向或负向,因为人们在评论中用自然语言表达意见或情感时,方式很复杂很委婉,常常具有多面性,如极性、取向、程度等,因此如果仅仅把一个评论简单的认为正负,会漏掉很多情感信息,为了能更准确地挖掘情感信息,论文使用PLSA模型,将评论博客看成有多个情感潜在类组成;另一个挑战是数据规模的庞大,由于对大规模数据训练时,概率潜在语义分析有非常高的时间复杂度和空间复杂度,研究者们一直在不断地尝试,用并行的方式训练模型,虽然能部分解决时间复杂度问题,但内存仍需加载大量的数据,本论文结合mapreduce编程框架,改进传统最大期望EM算法,在集群上并行地对概率潜在语义分析模型进行训练,每台机器只需加载部分数据,同时解决了时间复杂度和空间复杂度,实验结果显示了此方法能有效应对数据扩展性的挑战。评论或博客的情感分析对商业的价值可以通过产品的销售预测情况来观察到。论文使用有关电影的博客数据集,用PLSA挖掘其中的情感信息,之后用电影票房历史数据建立自回归模型,并结合PLSA训练出的情感信息,提出基于情感分析的自回归模型ARBS,对电影票房进行预测,在此基础上进一步考虑评论博客的质量和数量对模型改进,建立模型ARBS-i,通过实验对比,比未使用情感信息的自回归模型预测的平均绝对误差率MAPE分别低6.7%和8.5%,证明了论文所提方法的有效性和优越性,为商业使用用户情感信息提供了一种解决方案。