论文部分内容阅读
随着互联网技术的飞速发展,以Facebook、Twitter、新浪微博、腾讯微博、豆瓣等为代表的社交网络不断涌现,利用社交网络进行信息交流已成为人们日常生活中的一部分。随着社交网络应用的日益普及,学者们从不同的角度对社交网络相关问题进行了研究,影响力最大化是其中非常热门的研究领域之一。其目标是选择k个用户(也称为种子集),通过社交网络中朋友间的口碑来进行信息的传播,使得源信息能最大限度的在网络中传播。影响力阻断最大化是影响力最大化的扩展与延伸,与传统的影响力最大化问题不同,影响力阻断最大化问题的目标是选择k个用户,通过社交网络中朋友间的口碑来进行信息的传播,使得源信息的传播能够最大限度的阻断竞争对手信息的传播。影响力阻断最大化在谣言抑制、口碑推荐等领域有非常重要的应用,特别是对于谣言抑制问题,由于社交网络的虚拟性和开放性,社交网络极易成为谣言传播的温床。当谣言发生时,通过寻找影响力阻断最大的用户,可以有效抑制谣言的传播,减少谣言带来的损失。本文对社交网络中的影响力阻断最大化进行了深入的研究,主要包括以下几个方面。首先,现有的影响力阻断最大化算法并没有考虑到影响力阻断的区域性问题,无法根据区域进行最优种子的选取。针对此问题,本文首次提出了区域影响力阻断最大化(Location-aware Influence Blocking Maximization,LIBM)问题。证明了该问题在同质竞争独立级联传播模型下的NP难特性和影响力函数的单调子模特性。为解决传统的贪婪算法效率低下的问题,提出了一种基于整体的区域影响力阻断最大化算法LIBM-H。该算法采用四叉树保存节点位置信息,采用最大影响树模拟影响力传播,采用动态规划算法计算备选节点在整个区域中的阻断影响力,采用贪婪策略选择阻断影响力最大的节点作为种子节点。通过在真实的位置社交网络数据集上的实验表明,该算法能够根据给定的区域选择最优种子,算法的阻断性能与理论最优的贪婪算法接近但运行速度提高了4个数量级,同时该算法的阻断性能明显优于其他基线算法。其次,针对影响力阻断的区域性问题,虽然LIBM-H算法可以得到最优种子,但由于其需要实时计算每个备选节点在整个区域中的阻断影响力,这是非常耗时的。因此,本文又提出了一种基于元组的区域影响力阻断最大化算法LIBM-C。该算法并不直接计算备选节点在整个区域中的阻断影响力,而是在预处理阶段根据四叉树建立元组索引和节点索引来保存节点在四叉树单元中的阻断影响力,在在线处理阶段利用预处理阶段生成的元组索引和节点索引,采用基于上界的估计算法和最大堆来选择种子节点,忽略阻断影响力较小的节点。实验结果表明LIBM-C算法的平均运行时间比LIBM-H减少了2.5倍且阻断性能接近LIBM-H算法。然后,现有的影响力阻断最大化算法并没有考虑到种子选择的区域性问题,无法根据给定的查询区域和阻断区域进行最优种子选取。针对此问题,本文首次提出了影响力阻断最大化中的区域种子选择(Location-based Seeds Selection for Influence Blocking Maximization,LSSIBM)问题。证明了该问题在同质竞争独立级联传播模型下的NP难特性和影响力函数的单调子模特性。为解决传统贪婪算法效率低下的问题,提出了基于影响集的区域影响力阻断最大化算法IS-LSS和其改进算法IS-LSS+。这两种算法都基于节点的影响集计算其区域阻断影响力,基于最大堆选择最优种子。IS-LSS+算法相比于IS-LSS算法的优化在于其采用了基于上界的估计算法进一步降低了处理时间。实验结果表明两种算法能够根据给定的查询区域和阻断区域选择最优种子,阻断性能接近贪婪算法但运行效率提高了4个数量级,同时阻断性能明显优于其他基线算法。另外,IS-LSS+算法相比于IS-LSS算法对于不同规模区域请求的处理时间更少且更具鲁棒性。最后,现有的影响力阻断最大化算法并没有考虑到种子选择的主题性问题,无法根据给定的主题和区域进行最优种子选取。针对此问题,本文首次提出了区域主题影响力阻断最大化(Location-aware Targeted Influence Blocking Maximization,LTIBM)问题。证明了该问题在同质竞争独立级联传播模型下的NP难特性和影响力函数的单调子模特性。进一步的,本文提出了LTIBM-H算法解决该问题。该算法通过QT-tree保存和获取节点位置及主题信息,通过动态规划算法计算备选节点对区域中所有与给定主题有偏好节点的区域主题阻断影响力,并贪婪的选择区域主题阻断影响力最大的节点作为种子节点。实验结果表明本文提出的算法能够根据给定的主题和位置信息选择最优的种子节点,阻断性能明显优于其他基线算法。