论文部分内容阅读
社交网络中的链接预测属于数据挖掘的一个研究方向,社交网络是由社会实体与他们之间关系组成的。链接预测的目的是从这种显式的关系中找出那些隐藏的关系。传统的数据挖掘通常是在实体属性信息的基础上进行的,而链接预测是从实体关系这个角度出发,对这些关系进行挖掘。链接预测的应用非常广泛,在社会学领域中,它可以对社会演变过程进行分析研究;在电子信息领域中,链接预测可以用来创建各种推荐系统;在生物信息领域中,链接预测可以用来分析蛋白质之间的相互作用。因此,对社会网络中的链接预测进行研究具有非常重要的价值。目前,大多数的链接预测算法是从以下两个角度进行研究:一、相似性角度,即利用实体间的相似度进行链接预测,这些相似度函数大多是通过社交网络的拓扑信息进行设计的。但是,现有的链接预测算法并没有充分的应用这些网络拓扑信息,如共同邻居算法(Common Neighbor),它仅仅利用了实体之间共同邻居的个数作为相似度指标,而忽略了这些邻居间的相互关系;二、信任角度,它利用了社交网络中实体之间的拓扑信息和属性信息进行链接预测,但是,在信任度的计算过程中,这些算法总是平等的对待社交网络中的每一个实体,而且一些信任计算方法具有一定的主观性,如TidalTrust算法,它在计算信任度之前需要用户对他们的直接邻居进行评分。另外,在二进制信任网络中,信任度只有两种值(0表示不信任,1表示信任),从而不能够真实的反映实体间的关系。本文针对以上的这些问题进行以下研究:第一、针对大多相似性算法没有充分考虑网络拓扑信息,本文设计了一个相似度计算方法,它考虑了网络节点间的属性关系,而且在计算方法中引入余弦相似方法,使在考虑网络节点属性关系的同时,不会忽略属性间实际的文本相似度。第二、针对大多信任度计算方法总是平等的对待网络中所有的节点,而忽略了各网络节点自身的特性,以及一些信任度计算方法具有一定主观性等不足,提出了一个新的信任度计算方法,它以节点间的交互次数作为节点间的信任权重,这能更好的反映网络中的节点关系。第三、提出一种基于信任和相似标签的链接预测算法(TAST),大多的链接预测算法只对具有目标标签的节点进行处理,而基于信任和相似标签的链接预测算法对所有的节点进行处理,来提高链接预测的覆盖率。