论文部分内容阅读
社会影响力是个人由于社会地位、社会联系以及社会财富等因素,改变他人思想或行为的能力。研究社会影响力,特别是在大规模社会网络数据上对人与人之间的影响力进行建模与度量,对于社交应用中的商品推广、好友推荐、专家发现以及用户行为预测等都具有非常重要的意义,对于虚拟商业市场以及国家舆情监控等都具有重要的促进作用。已有大量关于社会影响力检测、建模、度量以及应用等方面的研究工作,但在此方面仍然存在许多未解决的问题与挑战。本文主要从社会影响力的建模与度量方面做深入研究。主要研究内容包括:首先,社会影响力与网络结构特性密切相关。对社会影响力的结构特性进行分析有助于更加深入的理解信息传播的机制,以及更加准确的度量影响力大小。然而已有研究一般忽略了用户之间的网络结构特性所引起的影响力差异。本文针对群体影响力,提出结构多样性的分析与度量指标,进一步更精准地给出结构影响力的形式化定义;针对个体的被影响力,提出收益函数的形式化定义,进一步在真实数据上扩展出概率图模型来学习个体的被影响力与网络结构特性的关系。其次,社会网络结构的动态演化特性加大了影响力建模与度量的难度。已有研究一般假设网络结构是静态的,而忽略了网络结构动态性与传播动态性的交互发展对影响力建模与度量的影响。本文提出用户建立关系的行为之间的影响力传播模型,用以刻画社会网络的动态演化过程。进一步引入关系之间的三角形结构来解决数据稀疏的问题,并学习三角形结构对应的影响力参数。最后将该模型与度量结果运用到好友推荐最大化的应用中,利用影响传播效应加强推荐的效果。最后,随着网络结构数据与用户行为数据的爆炸式增长,传统的影响力度量方法的效率受到极大的限制。本文提出大规模社会网络中个体之间影响力的采样度量算法。理论证明了采样次数的下界。在一个10亿条边规模的微博网络数据上,验证在不损失效果的前提下,近似方法比最优的比对方法大约提速300倍。进一步提出大规模社会网络与用户行为流数据上关于结构影响力的采样度量算法。理论证明了采样方法的无偏估计性。在一个200万节点,3亿条边,以及2千万条用户行为记录的微博转发数据集上,验证在不超过1%的错误率下,近似方法比精确方法约提速10倍。