论文部分内容阅读
社交网络是继门户网站、搜索引擎之后互联网发展的第三次浪潮,2000年以来,诸如Facebook、Twitter之类的社交平台接连涌现,各种服务日新月异,社交网络已经完全重塑人们的生活和工作方式。出于商业推荐、舆论管控、谣言阻断等社会需求,社交网络上的信息传播问题成为了当下的热门话题。而研究此类问题的难点在于人类的行为十分复杂,我们很难量化影响信息传播的因素,同时也不能确定信息传播的模式。众多研究人员按照自己的思路建立了信息传播模型,他们提出的很多经典的社交网络传播模型都需要完整的网络结构,其中用户间的连边属性也是可获取的。但通常在真正的社交网络上,用户数量都特别巨大,人们很难准确地描绘出它的具体的网络结构。反观现实生活,在研究人与人之间的人际关系网络时,我们获取的网络拓扑结构也通常都是残缺的、不完整的,这就造成想要预测信息的传播变得相当具有难度。因此为了克服数据不全的问题,我们引入了表示学习的方法,在明确影响信息传播因素的基础上,用数学模型加以概括,最后尽可能地还原信息传播的动态过程。为了解释社交网络上信息扩散的机制,本文介绍了复杂网络理论和信息传播理论的概念,以四个著名的社交网络为研究对象,分析了在线社交网络特性与信息扩散的关系。基于复杂网络的基本理论,我们从节点的度分布、同配性、小世界和无标度特性等角度研究了网络拓扑与用户发布、转发等信息传播行为之间的关系,并尝试分析影响网络传播的潜在因素。随后我们介绍了表示学习的思想和相关模型,并基于此理论提出了一种基于用户偏好和影响力的社交网络信息传播模型(简称IPM)。该模型综合考虑了用户影响力和用户兴趣两种因素,自动将用户和传播项表示成欧式空间中的低维向量,再依据特征向量的值预测信息的传播结果。网络中的每个用户都被投影到一个隐空间中,此称为影响力空间。用户之间的影响程度由他们的特征向量间的几何距离决定,距离越近,影响力越强。同时,所有用户和传播项被投影到第二个隐空间中,此空间称为用户偏好空间。用户对传播项的兴趣由他们的特征向量间的几何距离决定,距离越近,偏好程度越大。我们的算法使用期望最大化算法作为基本框架,用随机梯度算法优化特征向量的值,通过模拟实验确定数学模型的参数。最后我们设计了两种方案、三个指标来评估模型,在多个人工网络和真实网络进行信息传播的预测实验。本文的模型在准确度和时间成本上也都好于其他的无需网络结构的模型,这说明它能更精确地模拟传播进程,预测信息传播的结果。综上所述,本文在确定了影响信息传播的因素之后,利用表示学习的方法,避免了繁琐的特征工程,丰富了研究对象的物理含义,结合了相关外部特征,提升了信息扩散模型在预测结果方面的精确度以及效率,为解释信息的传播机制提供了新的思路。