论文部分内容阅读
随着网络技术的发展,社交网络平台的功能已逐渐由开始的网络社交转变为社交媒体,具体体现在三个方面:内容上,用户发布的消息内容从个人自身状态的更新逐渐转变为当下的时事新闻;结构上,社交网络中的单向连边的比例明显增加,用户间的连边更多的是在扮演内容订阅的角色;用户上,各种媒体账户纷纷涌入社交网络平台,将平台当作自身新闻发布的重要平台。社交网络功能的转变,极大地便利了内容的产生和传播,也使得社交网络平台成为用户获取在线内容的重要途径。因此,对社交网络中消息的传播进行分析和预测,具有重大的价值和意义。 然而,用户行为的不规律性和社交网络结构的多样性为社交网络中内容流行度预测问题带来了巨大的挑战。本文中,分别从传播模式、传播结构以及时间尺度三个维度对流行度预测展开了研究,提出了消息的传播模式建模、去中心化的微博动力学过程建模以及社交网络中时间尺度不均匀性建模三个研究问题。本文的研究主要遵循分组的思想,从更细的粒度对影响流行度增长变化的三个维度进行刻画,达到更好的预测效果。 在消息的传播模式建模问题中,基于消息的传播过程存在不同的模式这一发现,指出使用一个统一的预测模型来对所有消息的流行度增长过程进行预测是不合适的。因此,基于近邻的思想,提出了基于相似消息的流行度预测方法。对于待预测消息,从历史消息中寻找到和它传播模式相似的消息,并利用这些相似历史消息的传播数据对该消息的后续流行度增长趋势作出预测。为了刻画消息间传播模式的相似度,提出了一种基于转发时间间隔数据的表示学习方法来学习消息传播模式的表示。实验结果表明,提出的方法能够有效地寻找到传播模式相近的消息,进而得到更好的预测效果。 在去中心化的微博动力学过程建模问题中,围绕社交平台中消息的去中心化传播结构展开研究。首先,对新浪微博数据集中消息的传播结构进行了分析,分析大部分的消息的传播结构都呈现出去中心化的结构。这种去中心化的结构使得现有的动力学建模方法在应用到社交网络场景时,都呈现出各自的缺陷。进一步地,发现消息的去中心化传播过程可以看作多个传播子过程的叠加,而每个传播子过程都可以用现有的方法较好地建模。因此,提出了一种叠加自增强泊松过程的方法来建模微博的去中心化传播结构。实验结构表明,提出的方法取得了更好的预测效果,同时也能更好地刻画消息的流行度动力学过程。 在社交网络中时间尺度不均匀性建模问题中,首先对社交网络中时间尺度的不均匀性进行了实证分析,并讨论了它对流行度预测带来的影响。为了消除时间尺度不均匀性带来的影响,将流行度的增长过程看作一个用户影响力随时间释放的过程,并提出使用时序释放函数来刻画这一过程。时间尺度的不均匀性带来的影响可以通过时序释放函数来捕获。此外,在建模时也考虑了用户影响力尺度不均匀性带来的影响。在真实数据集上的实验结果表明,时序释放函数能够很大程度上捕获系统的时间尺度不均匀性,进而带来更好的预测效果。 综上所述,本文从传播模式、传播结构以及系统平台三个方面研究了社交网络中内容流行度预测问题,消除了传播模式多样性、传播结构多样性以及系统平台的时间尺度多样性给流行度预测问题带来的影响。由于用户行为的不规律性和社交网络结构的多样性,流行度预测问题目前仍缺少一个通用的解决方案,还存在很多问题值得进一步探索和研究。