论文部分内容阅读
微博(例如Twitter和新浪微博)作为一种发展迅猛的在线社会网络(Online SocialNetworks,OSN),已成为当前重要的互联网信息分享和内容推荐平台,并引领了一种完全不同于传统的“口耳相传”的信息传播途径。微博信息被广泛应用于互联网舆情分析以及信息推荐等众多领域,因此,微博信息传播研究成为当前在线社会网络研究的热点。 当前微博信息传播模型研究主要包括三个方面:微博信息采集,微博行为分析建模以及微博模型应用。由于微博平台数据量巨大,完整数据集不易获取和处理,如何设计一个高效且无偏的采样算法是进行微博信息传播研究的重要前提。由于微博的信息传播过程是一个综合了话题转发概率随传播过程递减效应、微博网络自身的拓扑结构以及微博信息传播参与者特性(例如粉丝数)的复杂过程,而传统的线性阈值和独立瀑布等信息传播模型不能准确地刻画微博的信息转发过程,分析并设计一种全新的信息传播模型来描述微博平台的信息传播模式非常必要。最后,对于微博平台话题与传统搜索引擎的关键词之间的相关性分析仍缺乏完善的分析论述,微博信息传播模型的应用场景不明确。 本文分别从微博信息采样算法、微博信息传播模型以及微博信息传播趋势和搜索引擎平台的关键词搜索趋势相关性三个方面展开研究,论文的主要贡献和创新点如下: 1)针对已有的OSN无偏采样算法MHRW算法和USDSG算法在微博这类节点局部异配性明显的网络上会产生高自环率,从而降低了采样效率和样本质量的问题,设计了高效无偏采样算法。首先,将OSN采样过程抽象为马尔科夫过程,推导出OSN无偏采样的充分必要条件。基于该无偏采样条件,提出了一种新的无偏采样算法USDE。该算法在保证无偏采样条件的前提下,将MHRW算法和USDSG算法产生的过高自环率均匀分摊至不同节点之间的转移概率上,从而避免了采样过程中高自环率的出现,提高了采样效率和样本质量。实验结果表明,在不计重复采样的情况下,MHRW算法和USDSG算法的样本节点平均度数是完整网络平均节点度数的2到4倍,而USDE算法的样本节点平均度数则和完整网络平均节点度数保持一致。在采样效率方面,USDE算法的平均每个节点采样次数仅为MHRW和USDSG算法的50%。 2)针对线性阈值模型和独立瀑布模型对于刻画微博信息传播过程的不足,综合考虑了微博信息传播的三个特征:微博转发概率随转发跳数递减的时效性,微博网络本身的拓扑结构以及微博信息传播参与者属性,提出了一种新的信息传播模型—带衰减的Galton-Watson(Galton-Watson with Killing,GWK)过程,并在采集得到的Twitter和新浪微博两个平台数据集上分别验证了GWK模型对于微博信息传播过程刻画的准确性。实验结果证明,GWK模型能够拟合82%的微博转发过程中的信息接收用户数分布以及90%的最大转发跳数分布。另外,GWK模型的参数值可以合理地解释微博流行的内外因特征。 3)对比分析了微博平台的话题流行趋势和传统搜索引擎平台的关键词搜索趋势,并探讨了微博信息传播模型在在线搜索广告代理商市场的应用。实验发现了话题在两个平台的传播具有时间域和空间域的相似性,但是相比搜索引擎平台,话题在微博平台的传播具有一定的超前性和波动性。微博平台话题传播的这种特性展示了微博话题作为在线搜索广告关键词的可能性。本文对目前搜索引擎广告市场中比较流行的一类—广告代理商市场进行了经济学分析,发现了使用微博平台的热门话题和流行话题来补充加强代理商的广告关键词组合,能够在保持风险不变的情况下,将代理商最终获得的投资回报率提升4倍。 关键词:微博信息传播;高效无偏采样;带消亡的Galton-Watson模型;话题流行趋势