论文部分内容阅读
近年来,随着互联网技术迅速发展和各种新型社交平台的涌现,促进了社交网络相关研究在数据挖掘和分析领域的发展,其中网络社区结构和社交关系作为社交网络研究的重点也得到了普遍的关注。社区发现可以挖掘出社交网络中节点间的相似关系,从而进行更进一步的数据分析和应用。位置服务技术的发展为基于地理位置的点评网络的出现提供了前提。这种新型社交网络不仅包含传统社交网络中社交关系的拓扑信息,还包括了用户在不同位置签到的信息和地理维度的信息,由于其网络结构的特殊性和复杂性,对传统的社交关系分析和研究又提出了新的挑战。针对这一问题,本文针对点评网络场景下基于地理位置的社交拓扑结构和隐含语义信息,基于动态好友交互关系和用户签到行为两个方面设计了多维度社交关系分析模型(Multidimensional social relationship analysis model,MSRAM),使得划分的社区结果在社交关系、地理区域分布及兴趣主题指数等维度满足社区内部用户拓扑连接紧密且行为模式具有高相似度的特点。基于该模型的参数转移概率公式及联合概率分布表达式,并依据隐变量的采样规则和参数迭代规则提出了求解该模型的吉布斯采样算法。针对网络数据稀疏性的问题,本文提出了基于Biterm主题模型思想的数据维度均衡算法,使模型输出分布更加平滑。为验证本文提出模型的有效性,在研究中选取点评网络Yelp公开数据集作为真实数据源,经过数据预处理后得到实验数据,对上述模型输出结果中的用户所属社区概率分布进行社区结构划分,验证了该模型在内部相似度和模块度上有较理想的实验结果,能够实现对整个实验数据网络较精准的社区划分。并通过对比现有其他几种社交网络聚类算法,说明了本文提出模型具有社区内部节点关系更加紧密,相似度更高的优势,并在一定程度上缓解了数据稀疏性问题。