论文部分内容阅读
以Facebook、Twitter、新浪微博为代表的社会媒体的迅猛发展,为观察大众的主观世界提供了空前的数据支持,从而也为预测大众的行为提供了新的手段。基于社会媒体的预测技术是指通过对社会媒体数据的挖掘与分析,看清事实真相,聚集大众的群体智慧,运用科学的知识、方法和手段,对事物未来发展趋势和状态做出科学的估计和评价。准确的预测结果对于人类生活中的趋利避害,工作中的计划决策起着至关重要的作用。一项决策的结果与该决策本身之间有着时间上的滞后关系,“利”与“害”总是存在于未来的时间与空间之中,任何决策都不可避免地要依赖预测。通过对未来趋势做出提前判断,有利于适时地调整计划,以及采取措施实施调控。然而,基于社会媒体的预测研究面临着各种挑战,这其中包括了缺乏清晰的问题定义和界限划分的挑战;社会媒体中群体智慧的挖掘以及文本语义理解不够深入的挑战以及预测模型较为简单,主要依靠线性回归模型,对非线性系统预测能力有限的挑战。本文主要针对这三个挑战进行了研究,并对市场行情预测中的电影票房预测和股市涨跌预测进行探索,分别从社会媒体文本中抽取用户消费意图信息和客观的事件报道作为特征进行预测。具体而言,本文的主要研究内容可概括为以下几个方面:1.本文提出了隐式消费意图挖掘任务,并构造基于领域自适应的卷积神经网络模型自动识别社会媒体中的隐式消费意图,在此识别结果基础上推荐用户意图相关产品以期满足其消费需求。具体而言,给定一条微博文本,首先基于领域自适应的卷积神经网络模型做二元分类,判断其是否含有用户消费意图;随后,对于有消费意图的微博文本再抽取其中的需求词,最后,根据该需求词去事先构造好的消费意图事理图谱中检索可以满足消费意图的产品推荐给用户。本文构建了母婴领域和电影票房领域的语料,实验结果表明:(1)本文提出的领域自适应方法可以有效克服训练语料少带来的消费意图识别效果不理想的问题;(2)推荐给用户的意图相关全部产品中有60%左右的产品可以满足用户的消费需求。2.本文提出基于消费意图的电影票房预测模型。基于消费意图理解的电影票房预测相对于传统的电影票房预测而言,可以说是站在一个全新的角度进行研究,为此能够给预测工作带来两方面的优势:(1)电影上映前就可以采集到大量的民众反馈数据;(2)可以大规模的获取与电影票房高低最相关的影响因素:大众是否愿意观看某部电影。在此特征基础上,本文提出了高斯连接函数回归模型作为预测方法,该方法不需要对输入数据进行任何独立同分布假设,且能够分析输入数据之间的相互作用关系。本文在中国电影市场和美国电影市场均做了实验对比分析,结果表明本文提出的方法与传统的基于线性回归模型和支持向量回归模型的方法相比都取得了更加优异的表现。3.本文提出一套面向预测的事件定义,事件抽取和事件表示学习方法。该方法既克服了特定域事件抽取需要预先指定事件类型和标注大量训练语料的费时费力的问题,又解决了开放域事件抽取很难进行事件归一化,判断事件类型的问题。本文提出的方法利用张量神经网络模型以开放式事件抽取结果作为输入,通过张量对事件元组之间的关系进行建模学习并最终输出低维、稠密、实数值的事件向量。对于相似的事件,其在同一向量空间上距离也相近。实验结果表明,本文提出的事件抽取和表示方法与基线方法相比能够更加准确地表示客观事件。4.本文提出了基于卷积神经网络的预测模型,该模型利用开放式事件抽取并泛化得到的事件向量作为输入特征。该模型将输入事件划分成长期事件,中长期事件和短期事件,并利用卷积层神经结点将长期和中长期事件进行建模学习,抽取其中最重要的事件特征并分别表示合成一个向量。随后,卷积神经网络中的隐含层结点建模学习事件特征向量与股市涨跌之间的隐含复杂关系,最终输出股市涨跌的预测结果。实验结果表明,本文提出的方法比当前最好的股市涨跌预测方法在准确率指标上能够提升4个百分点。总之,本文一方面致力于解决基于社会媒体的信息抽取相关问题,另一方面致力于预测模型的构建工作,以期能够充分利用好抽取到的有用信息,将其最终应用到以电影票房和股市涨跌为代表的市场行情预测任务上。本研究取得了一些初步的成果,期待这些成果能为本领域的其他研究者提供参考借鉴。随着基于社会媒体的预测技术的不断完善以及大数据语料的不断开放,相信基于社会媒体的市场行情预测研究在未来会取得更大的突破。同时,基于社会媒体的预测技术的成熟也将促进其他相关研究的发展。