论文部分内容阅读
本文研究微博事件的流行度预测问题。当广告主在流行的微博事件中部署有限的资源(比如广告预算、监控容量)时,高质量的预测可以给予广告主更多的准备时间和更多的灵活性。但是因为涉及大量用户和微博数据,获取预测所用的大量数据是一个很大的挑战。由于不同的用户发布的属于微博事件的微博的数目以及频次不同,本文指出广告主可以通过关注那些更频繁地发布属于微博事件的微博的用户来获取微博事件相关的数据,进而对微博事件的流行度进行预测。本文对微博事件的流行度预测以及用于获取事件微博数据的用户监控成本进行了深入的研究。在用于关注/监控的用户选取方面,本文定义了用于获取流行度预测数据的用户选取问题,并提出了基于事件集合覆盖度和微博覆盖度的用户选取算法。在选取用户的过程中,它考虑了有限监控成本预算下的事件覆盖度和微博覆盖度,选出的用户可以有效的用于监控更多的事件并获得较多的事件微博传播链。本文实现了一个基于边际收益成本比的用户选取算法,并选取了粉丝数算法作为基线,在来自新浪微博的数据集上,进行了实验和分析。我们得到了下面的结果:1)在事件检测查全率方面,在监控成本C=10000时,我们提出的基于事件覆盖度和微博覆盖度的用户选取算法,分别比基于边际收益成本比的用户选取算法和粉丝数算法提高了0.6%和6.0%。2)在获得的事件微博数目方面,在监控成本C=10000时,我们提出的基于事件覆盖度和微博覆盖度的用户选取算法,分别比基于边际收益成本比的用户选取算法和粉丝数算法提高了3.2%和14.3%。在流行度预测方面,本文提出了一种基于状态迁移的预测算法的改进算法。针对于该算法中存在的预测时间分辨率受限的问题,本文从先考虑时序上的匹配后对事件加权的角度提出了一种局部时序匹配的加权预测算法。对基于状态迁移的预测算法的改进主要包括两个方面:(1)在聚类阶段使用了谱聚类,它可以控制聚类数量的聚类算法;(2)在预测阶段提出了一种基于评分的状态判别算法。在局部时序匹配的加权预测算法中,我们滑动地找每个样本事件中与待预测样本已知部分最相近的部分,然后在这些最相近的部分将事件在时间上对齐,最终加权模板样本事件得到待预测样本的流行度预测值。最后本文在来自新浪微博的真实数据集上,在分别使用监控全部用户和部分用户得到的事件数据上对不同的预测算法进行了实验和分析。我们得到了下面的结果:1)在已知时间长度TG=6h,预测时间TP=12h时,使用事件全部转发链数据进行预测,局部时序匹配的加权预测算法和我们提出的改进算法比原始的基于状态迁移的预测算法在均方根误差上分别降低了36.8%和35.8%。2)在已知时间长度TG=6h,预测时间TP=12h,监控成本预算C=3000,使用局部时序匹配的加权预测算法时,我们提出的基于事件覆盖度和微博覆盖度的用户选取算法的均方根误差分别比基于边际收益成本比的用户选取算法和粉丝数算法低5.1%和9.9%。3)在应用局部时序匹配的加权预测算法在已知时间长度TG=6h,预测时间TP=12h时,使用监控全部用户(按照预处理后的约12万用户计算,监控成本约为547万)得到的事件转发链数据比基于事件覆盖度和微博覆盖度的用户选取算法在监控成本预算C=10000时获取的事件转发链数据仅仅在均方根误差上有9.9%的降低。