论文部分内容阅读
近年来,在线社会网络以指数级速度飞速发展,已经成为世界各地人们生活的重要组成部分,为人们提供了一个思想交流和贸易经营的平台。目前流行的在线社会网络平台主要有人人网、Facebook、Twitter以及Flickr等。然而,随着互联网和信息技术的迅猛发展,这些社会网络的规模越来越大,包含的信息量越来越多。如何有效地挖掘利用这些网络中包含的大量潜在有用信息,已经成为很多研究领域一个重要和富有挑战性的问题。为解决上述问题,链接预测作为数据挖掘的一项重要任务,开始成为各学科研究者们近年来的研究热点。 现有的链接预测方法主要是基于节点相似度来进行链接预测的。然而,在实际应用中,这些方法存在诸多亟待解决的问题。例如:基于局部信息的链接预测方法虽然有较低的计算复杂度,但是其预测精度较低;基于全局信息的链接预测方法虽然有较高的链接预测精度,但是其计算复杂度较高。并且,这些现有的链接预测方法忽略了网络的聚类信息。研究证明,社会网络中的聚类信息对链接预测具有很重要辅助作用。本文针对现有链接预测方法存在的问题,在基于节点相似度的链接预测方法基础上,对链接预测中基于聚类信息的若干关键技术进行了深入的研究,现将主要工作总结如下: 第一,对链接预测技术产生的背景、国内外研究现状和应用前景进行了较详细的分析和研究。 第二,在上述基础上,对现有链接预测方法进行了细致的研究,分析了现有方法的优点、存在的问题及其根源。 第三,针对现有链接预测方法存在的问题和实际应用的需要,结合大多数社会网络的特点,从网络聚类的角度,提出了一种基于聚类的链接预测方法,使用人造数据集和真实网络数据集,通过实验结果验证了该算法在预测准确度上的有效性。 第四,针对社会网络的稀疏性问题,在上述方法的基础上,提出了基于协同聚类的链接预测方法,较详细分析了该方法的时间和空间复杂度。使用人造数据集和真实网络数据集,通过实验验证了该方法在预测精度上的有效性。 第五,为进一步满足实际应用的需要(较高的链接预测精度和较低的计算复杂度),对基于协同聚类的链接预测方法进行了改进,提出了节点耦合聚类的链接预测方法,该方法通过聚类系数来捕获社会网络的聚类信息,与采用聚类方法来获取网络的聚类信息相比,有较低的计算复杂度。使用人造数据集和真实网络数据集,通过实验验证了该方法在预测精度和效率上的有效性。