论文部分内容阅读
近十年来,网络中的数据呈现出爆炸式的增长。在如此众多的信息中如何挑选出用户需要的精确信息以及如何挖掘出有用信息是数据挖掘研究的一个热门方向。有时候需要根据已有的信息来对未来的信息或信息的发展趋势作一个预测,从而创造一些应用。链接预测也是在这种情况下应运而生的。社交网络中的链接预测是指通过已知的网络结构等相关信息,例如根据新浪微博中人与人相互联系所组成的网络图,来预测网络中尚未连接的两个节点之间产生连接的可能性,以及未来两个节点发生联系的概率,如预测未来某段时间微博中哪些人会发生联系。预测那些事实上存在但是尚未被发现的连接实际就是一种数据信息挖掘的过程,而对于未来可能会产生的连边的预测就是估计一种网络演化的过程。传统的链接预测方法主要有三种。第一种是基于马尔可夫链、支持向量机或者是机器学习的。这种方法往往考虑的是节点的属性特征。该类方法尽管可以得到较高的预测精度,但是有一个缺点就是它的适用范围比较狭窄,只适用于节点属性真实明确的网络,因而其应用范围也受到限制。第二种方法是基于网络结构的最大似然估计,较少考虑网络节点属性的权重,主要考虑网络的拓扑结构,在处理明显层次结构的网络时精确度较高,但是因为每次预测要生成多个样本网络,因而计算复杂度也较高。第三种方法是基于节点相似性的链接预测方法,这种方法有比较好的预测精度,但是其性能还有待提高。本文提出了一种改进的节点相似性判定算法,充分考虑了网络拓扑图,在定义节点相似性时考虑了更多的指标,并针对新浪微博这种特殊的社会网络,引入了节点属性相关度这样一个重要的指标。本文在改进的节点相似性方法的基础上,又提出了一种混合时间序列链接预测算法,该算法充分考虑了以前各个时间点的网络结构图,通过建模来综合预测未来时间网络链接的情况。本方法既提高了链接预测的准确率,尤其对社交网络比较适用,而且计算复杂度也不高。