论文部分内容阅读
随着互联网时代的发展,各类社交网络快速发展,与社交网络用户影响力相关的课题早已成为互联网中重要的研究领域。现存的影响力评估模型和影响力最大化算法,大多忽视社交网络用户行为特征,且时间复杂度高,影响力传播范围不稳定。此外大部分影响力最大化问题未考虑主题对于节点挖掘的重要性,导致在特定主题下影响力覆盖率不高。针对以上问题,对社交网络中的数据进行挖掘分析,研究用户行为特征,并将用户行为特征与影响力评估模型相结合,构造出符合社交网络用户行为特征的评估模型。以及针对越来越多的社交网络中推出话题热搜榜的现象,寻找特定主题下的影响力最大化算法,有利于实现信息的有效传播、舆情控制。由此可见,社交网络用户影响力研究课题具有重要的理论价值和实际应用价值。本文以社交网络用户影响力为重点,首先介绍了与社交网络有关的背景知识和相关理论,详细阐述了在信息传播中较为重要的两种信息传播模型,分析了现有的影响力算法所存在的优势和不足。其次,将社交网络中的用户行为特性与PageRank模型相结合,构造了实时准确的用户影响力评估模型。最后利用URIR值和Ttop双重筛选用户节点,引入适合社交网络数据预处理的办法,将K-means和LDA相结合进行主题挖掘,设计了基于主题的影响力最大化算法,最后通过大数据挖掘分析的有关方法分别在用户影响力评估准确度、用户影响力范围和算法时间复杂度等参数进行评估,使用仿真实验进行了验证分析。本文具体工作如下:(1)构造了一种符合社交网络用户行为特征的实时影响力评估算法。将社交网络中用户行为特征与PageRank模型相结合进行重新建模,摒弃了 PageRank中影响力权重平均分配的方法。重新定义了影响力分配因子能够有效识别高质量的粉丝,提出了兴趣度和活跃度的概念,用以区分活跃用户和僵尸用户。最后在新浪微博真实用户数据之上,使用Matlab实验工具验证了改进后的算法更能体现用户行为随时间的变化规律,拥有良好的收敛性且用户影响力的评估准确性有了较大的提高。(2)设计了基于主题的影响力最大化算法Topic_MIA,首先Topic_MIA算法对待挖掘节点进行首轮筛选,选择URIR值和Ttop值双重标准下排名靠前的用户加入待挖掘节点集合,引入了特定主题下的数据预处理办法,使用K-means和LDA相结合的主题挖掘方法KM_LDA对数据进行主题聚类挖掘,并对独立级联模型进行重新建模形成了新的Topic_IC传播模型,最后使用新浪微博中真实的用户数据集对改进的Topic_MIA算法进行实验验证,经过对实验结果的分析验证了 Topic_MIA的影响范围更加稳定且时间消耗较低。