论文部分内容阅读
近年来,随着社交网络服务和其他网络应用的迅速增长,社交网络数据出现以指数级增长的态势,这些数据开始互相关联,并出现交集。由于这些数据在一定程度上保存了用户的潜在行为模式,因此,如何从海量的社交网络数据中挖掘出用户的潜在关联来实现社交网络服务质量的提升,成为许多社交网站及相关企业亟待解决的问题,同样在学术界也引起了一股研究热潮。链路预测采用补全社交关系网络的方式,来挖掘出大数据中的潜在商业价值。链路预测是指通过已知的网络节点以及网络结构等信息预测出网络中尚未产生链路的两个节点之间产生链路的可能性。由于链路预测所面对的数据具有多维度和全面性的特点,因此数据之间常常存在着意想不到的关联性。但传统的链路预测没有对这些多维度的数据进行深挖,忽略了数据的关联性。本文对这些多维度数据进行层层探索,创建新的链路预测模型,实现更准更高效的预测结果。针对传统链路预测存在的局限性,本文通过神经网络构建了基于多源异构数据融合的链路预测混合模型,主要研究内容如下:1.本文提出了一种基于多源异构数据的链路预测混合模型。该模型利用基于地理位置的社交网络数据集中的用户关系拓扑图和用户签到记录这两种异构数据对用户行为模式进行挖掘,在一定程度上提升了传统链路预测模型的准确度。2.本文构建了一种基于锚链接算法的链路预测混合模型。该模型利用锚链接算法对基于地理位置的社交网络数据集中的多维度数据之间的潜在关联进行了更深层次的挖掘,充分捕获多源异构数据之间的关联性,其预测准确度优于基于多源异构数据的链路预测混合模型。3.本文实现了一种基于局部敏感哈希技术的链路预测混合模型。该模型利用局部敏感哈希技术,将基于地理位置的社交网络数据集中融合的多源异构数据转换为汉明编码,局部敏感哈希技术能够保存原来关联节点之间的相似性,并且使用汉明编码训练模型能够提升运算速度和降低数据存储消耗,对比前两种模型,该模型在性能和准确度上都进一步提高。本文提出的三种链路预测混合模型在如Gowalla、Foursquare等公开数据集上进行了实验,使用AUC、F1值等评估指标,对比了仅使用单一数据源的传统链路预测方法如walk2friends、node2vec等,验证混合模型的可行性和高效性。实验结果表明本文提出的混合模型比传统的链路预测更为高效和准确。