论文部分内容阅读
随着信息网络社交化的不断发展,社交网络正逐渐融入我们的生活当中。正如微博制造话题、知乎分享知识、贴吧创造粉丝文化,社交网络已成为越来越多人的生活方式和获取信息的平台。如何从社交网络中挖掘关键传播用户以实现信息的有效传播,使其影响效果最大,在舆论引导、病毒营销等领域具有重要意义,获得了学术和商业界的广泛关注并得到了深入研究。然而,当前的社交网络影响力最大化多基于社交网络结构度量用户影响力以获取种子集合,没有充分考虑同一用户在不同的话题领域上影响力的差异,导致得到的种子节点与待传播的信息缺少关联。本文在分析和总结已有工作的基础上,以微博类社交网络为主要研究对象,利用社交网络中信息的结构及传播方面的特点,针对用户在话题上的社交网络影响力最大化问题展开研究。具体研究成果包括:第一,针对社交网络的话题检测问题,本文提出使用全局向量结合LDA的话题检测方法。对于微博类社交网络,文本字数较少,主题相对单一,词项也更加稀疏。本文针对微博类内容中海量短文本的特点,通过在标注过的微博语料上进行训练获得词项的相似关系,然后替换具有相同标注且相似度大于阈值的词项,然后将处理过的文本与词表作为聚类算法的输入得到文本话题。在真实社交网络数据集上的实验结果表明,此方法可以有效降低模型文本纬度,降低话题检测的困惑度,改善话题检测的效果。第二,针对社交网络中的影响力传播问题,本文结合线性阈值模型和传染病模型的特点,提出改进的传染病模型。在此模型中,一个感染者节点对易感染者节点的影响力与二者关系强度正相关,不同感染者节点对同一易感染者节点的影响力可累积,达到节点的激活阈值时节点被激活,同时感染者节点以一定概率恢复成为免疫节点。在无标度网络上的实验表明,该模型可以对影响力传播过程有效建模。第三,针对话题领域的社交网络的影响力最大化问题,本文提出启发式的影响力最大化算法。在筛选种子节点的过程中,首先根据入度排序建立备选种子节点集合,然后分析备选节点在话题上的影响力,并通过最大化覆盖查找种子节点。基于大规模数据的实验结果表明,本方法得到的种子集合能激活更多的节点,影响范围更大。