论文部分内容阅读
随着信息技术的爆炸式发展,我们已经进入宽带互联的网络时代。作为互联网中一项有着远大发展前景的应用,在线社交网络使得远在千里之外的人们间能够即时互动并分享经历,极大地满足了人类的社交性需求。社区——具有共同属性或相同角色的个体集合,充斥着社交网络中的各个角落。社区的模块性,使得社区内部用户间的连接互动更加稠密,而分属不同社区用户间的交互则相对稀少。社区发现是一个识别社交网络中所有簇群的过程,并由此而为社会计算提供基础性技术支撑,如计算生物学、链路预测和突发事件自动检测。然而,这些社交网络服务商在为用户提供潜在利益的同时,也将信息过载的挑战呈现出来,并对社区发现提出了更高的时效性要求。如何设计一种适用于异构结构大规模社交网络中的社区发现方案,并根据社会媒体的自身特点探索相关应用的开发,成为一个亟待解决的挑战性难题。本文旨在提出一套精准且高效的算法来攻克这一艰巨任务;具体来说,我们的主要研究内容总结如下。(1)为了对社交网络上具有共同爱好且交互频繁的用户进行聚类,本文提出了一种重叠社区检测的新算法,使其适用于包含无向和有向边的异构网络中。该算法包括种子节点选取、社区的初始化和扩展等过程,以便能精准且高效地运用并行方式挖掘出簇群。人工和真实社交网络上的实验结果表明,与其他现有的高水准方法相比,本文所提出的方案具有更高的准确性和更低的时间消耗。(2)为了向用户提供个性化服务,一些应用系统需要对这些个人的兴趣进行预测。为了准确预知用户下一时段的兴趣,本文提出了一种混合用户建模框架。该框架将基于文本分析的孤立兴趣提取和基于社区发现的社交关系分析结合起来。一个包含12746名用户的大规模微博数据集上的对比实验结果表明,与仅进行文本分析的方法相比,本文的社会化用户建模方案可以显著地提高用户兴趣的预测准确度。(3)大量在线用户及其多样性活动对推荐系统提出了巨大挑战。然而,大多数现有好友推荐框架不能同时满足准确性和时间性的要求。通过充分利用潜在狄利克雷分布(Latent Dirichlet Allocation,LDA),从而结合基于互动的拓扑结构和基于文本的兴趣特征,本文新提出了一种线性时间复杂度的好友推荐方案。真实微博社交场景中的实验结果表明,与其他三种具有典型代表性的方法相比,本文的混合算法在时效性上获得了最佳成绩。(4)影响力最大化事件即为找寻小部分具有高影响力用户的过程。这些个人具备在社交网络中引导更快速、更广泛传播的能力,以便人类理解和控制信息和行为的传播。为了最大化影响力,本文提出了一种在微博平台上识别预定数量高影响力用户的新方案。该方案借助于图分割的思想,将用户之间的社交互动强度和兴趣相似程度结合起来。人工和真实微博社交网络上的实验结果表明,我们的方法在效果和效率方面优于其他高水准的同类算法。