论文部分内容阅读
微博作为一种新型的社交媒体,已经积聚了大量的用户和影响力。由于发布微博简单方便,传播速度快,微博上的用户发布了大量的内容丰富的信息。这些信息中有相当数量都表现了用户对某种商品的购买愿望,也就是消费意图。这些具有消费意图的文本数据对科学研究和商业应用都有着极高的价值。另外,这些文本也对社交媒体中的预测任务有着重要的意义。本文中,针对基于基于微博的消费意图挖掘进行了以下三方面的研究:(1)消费意图语料获取及分类。文中首先探讨了消费意图初始语料的获取方法,并在一淘求购,京东和微博上获取了消费意图初始语料,并对语料进行了预处理。本文将消费意图视为一个二元分类问题,使用获取的消费意图语料抽取了多个维度的特征。最后,本文提出了基于SVM,Na ve Bayes以及深度学习(Deep Learning)的消费意图分类模型。其中,基于深度学习的消费意图分类方法的F值(F-measure)最高。(2)消费意图到行为转化。在之前的实验中,消费意图正例采用人工标注的方式获得。然而,虽然制定了消费意图标注标准,但是在多人标注的过程中仍然存在标注结果不统一的问题。而且,即便用户表达出了消费意图,也不代表用户一定会实施消费行为。本文中提出了一种基于社交媒体的大规模调查问卷发放方法,从社交媒体上自动采集了大量用户消费行为数据。这些数据被用于评价之前的消费意图分类模型,并用于构建消费行为分类器。(3)消费意图于预测任务上的应用。本文中探讨了一类特定产品(即电影)的消费意图,并将电影消费意图应用于电影预测票房的任务上。实验结果表明,通过结合消费意图特征和传统方法中用于预测票房的特征,我们的模型取得了超过所有前人工作的R值。另外,我们还构建了一个电影票房预测系统,该系统从多个数据源自动采集数据并进行分析处理,最终在每部电影上映前给出该电影的票房预测结果。