论文部分内容阅读
近年来,影响力分析已经成为社交媒体(social media)挖掘中的重要研究课题之一。社交媒体使得网民可以随时随地与他人沟通和交流,对社交媒体中的影响力挖掘展开分析有利于推动社交影响力在信息传播、推荐系统、链路预测、专家发现等领域的应用。但是,随着社交媒体的普及,各种应用的要求在不断提高、同一用户经常出现在多个社交媒体中以及团体影响力挖掘成为一个新兴的问题,现有的研究成果难以满足这些应用的需要。本文进一步探索这一重要课题中的若干问题,主要讨论如何度量社交媒体中用户之间的距离以及如何建模和表示社交媒体中的个体以及团体的社交影响力。具体工作和创新点如下:1.联合度量学习和Boosting的自适应用户距离度量算法为了建模和度量多个社交媒体中的用户距离,尝试综合考虑用户特征、链接信息和网络拓扑结构,同时利用不同社交媒体中用户的个体属性和他所在的网络结构,以解决单个社交媒体中的数据稀疏性问题。利用距离度量学习算法思想构建了一个度量学习模型,提出了一种基于度量学习和Boosting框架的自适应度量学习算法。该算法能从相关的社交媒体中学习相关知识以帮助社交媒体的嵌入特征空间中的距离度量学习,并采用Boosting技术以消除不相关的属性。特别地,构建的模型能够避免过拟合问题。实验结果表明,提出的算法在真实的大规模数据集上能够有效地度量用户距离。2.基于电磁场理论的个体用户影响力挖掘针对不同的实验目的已有多种个体影响力的定义以及计算影响力的方法,但它们不能有效地处理并准确地评估微博媒体中的个体影响力。本文借鉴电磁场理论中的源的概念,提出了代表微博领域中的正向微博源、负向微博源、中立微博源等新的概念。然后,提出了一个新的个体影响力排名算法(Individual Influence Rank Algorithm,IIRank)。该算法首先借鉴计算磁通量的方法根据微博用户的行为信息计算出微博通量,从而评估用户的行为;然后,利用微博通量来计算微博的通量密度,据此来排名微博用户的影响力。基于真实的微博数据集实验验证了提出的模型与算法的有效性。3.基于博弈论的用户交互行为分析针对用户的交互行为,基于博弈理论中的方法提出了一种用户交互预测模型,该模型采用混合策略纳什均衡利用用户发布的帖子及回复内容预测用户的态度。为了深入研究现实社交媒体中的用户的交互行为,分析微博用户的转发行为是理解微博信息传播的关键。进而,提出了一种基于混合策略博弈的用户交互预测模型,用来分析社交媒体中用户的互动模式,该模型能够预测用户的转发行为。在真实的微博数据集上验证了模型有效性。最后,用户交互预测模型为构造核函数提供了一条可行的途径,提出了一种博弈核函数的SVM分类算法。该算法能够有效整合局部核与全局核的优点得到更好的分类结果,在标准数据集上的实验验证了所提出的模型和算法的有效性。4.基于多属性的团体影响力挖掘针对建模团体影响力这一新兴问题,定义了团体影响力的相关概念,形式化团体影响力建模问题并构建了社区内用户影响力、社交信任度和用户关系紧密度相结合的团体影响力分析模型,揭示了团体层面的影响力。该模型首先消除僵尸粉丝,然后计算用户的影响力;接下来,通过结合用户个体影响力和扩散主题信息的意愿来计算用户的最终影响力;最后,利用社区内用户的影响力,并结合社交信任度以及用户之间关系的紧密程度来评估团体影响力。基于真实的微博数据,设计了一种团体影响力分析算法(Community-level Influence Analysis Algorithm,CIAA)。实验验证了所提出的模型和算法的有效性。