论文部分内容阅读
近些年来,影响力最大化问题已经是数据挖掘领域炙手可热的研究方向,并且普遍应用于社会网络分析。然而,现有大部分研究在寻找最具影响力的种子节点的同时忽略了一个事实,那就是针对不同的话题,所选出的种子节点也是不同的。即使少部分现有研究考虑了话题因素,它们忽略了任何需要在网络中传播的商品或事件都是由多个话题组成的,只考虑单个话题是片面且不准确的。同时,网络中用户的兴趣往往也不是单一的,而正是用户的行为偏好直接决定了影响在社会网络中传播的结果。针对现有传播模型和算法在传播过程中未考虑多话题因素的缺陷,本文首先利用话题模型对文本信息进行建模,再将得到的话题分布结合到传统的独立级联模型(Independent Cascade Model)中,提出了多话题敏感的独立级联模型(Multi-Topic Sensitive Independent Cascade model,MTSIC模型)。利用MTSIC模型,可以帮助选出最贴近现实生活情况的种子节点。同时利用Topical HITS算法,获得用户的权威度和从众性,并融入到模型中,使模型更加准确。由于在网络上传播的商品或事件可能存在地理位置限制,因此地理位置信息也被当作一项重要因素加入到模型中。传统影响力最大化算法并不适用于多话题场景,因此提出多话题敏感的影响力最大化算法(Activation Nodes Similarity algorithm,ANS)。考虑到在大规模网络中进行影响力最大化分析是十分耗时的,因此本文提出了基于Spark的多话题敏感影响力最大化算法(Parallelization of Multi-Topic algorithm,PMT)并行算法以提高算法效率。由于传统评价度量未能体现多话题因素的重要性,因此本文提出了新的度量SIS来诠释影响力最大化算法效果。通过在数据集DBLP和Twitter上的实验结果显示,MTSIC模型可以更准确的模拟真实情况下节点的激活情况并且ANS算法可以找到在现实情况中更倾向于接受商品或事件并进行传播的种子节点。而PMT算法的高效性也被证明。从各个方面进行的实验结果证明了本文所提出的传播模型及算法是效且高效的。