论文部分内容阅读
随着移动互联网技术的快速发展,以社交、购物、求职、金融等为代表领域的在线信息服务平台使得用户的行为活动越来越多的从线下转为线上。而且,行为活动中形成的海量网络数据,一方面记录了用户的基本属性(如年龄、性别、信仰、职业、籍贯等)和用户或物品的信息(如文本、图片、标签等);另一方面也抽象地表征了用户之间的社交关系(如朋友关系、同事关系等)和用户与物品之间的从属关系(如购买关系、评价关系等),形成了以用户或物品等为节点的在线网络,如用户之间的在线社交网络和用户—物品二分网络等。同时,随着网络科学理论的快速发展,网络结构挖掘中的链路预测与社团挖掘问题已成为多学科交叉领域的研究热点。通过对这些问题的研究,已经形成不同类型的链路预测算法和社团挖掘算法,且在不同领域得到广泛的应用。本文基于在线信息服务平台中用户产生的海量网络数据,以表征用户之间或用户与物品之间关系的在线网络为研究对象,研究能够准确地预测在线网络潜在连边和高效地识别在线网络社团结构的网络结构挖掘算法,并将提出的算法应用于社会经济预测研究。本文主要的研究内容和创新点总结如下:(1)提出了三种链路预测算法。首先,针对在线网络中节点的标签信息在链路预测中被忽略的问题,在基于结构相似性的链路预测算法基础上,本文提出了基于标签信息熵的链路预测算法(TLP)。TLP算法通过引入信息熵来衡量节点及其邻居的标签所组成的标签系统的同质性,把标签信息表征的自有特征融合到节点之间的相似度计算。即是,TLP算法通过标签信息熵定义节点吸引强度,并将节点吸引强度引入到节点连边相似度的计算过程中。通过4个在线网络数据集上进行对比试验,相比于其他6种链路预测算法,TLP算法都表现出比较好的性能。其次,考虑到二分网络的链路预测与信息推荐的关联性,本文把标签信息熵的概念推广到用户—物品二分网络的链路预测,提出了基于标签信息熵的个性化推荐算法(TPR)。具体而言,TPR算法利用信息熵来刻画用户对物品标签的权重,通过定义标签重要程度和标签喜好程度,将它们引入到用户对物品的评分计算过程中。通过豆瓣网的电影评分数据和标签数据上进行对比实验,相比于协同过滤算法,TRP算法将推荐准确度提高了10.9%。最后,针对在线网络中节点度分布存在的长尾效应,导致基于网络结构的链路预测算法给出的预测列表存在不平衡的问题,本文提出了基于网络扩散的链路预测算法(HLH)。通过在4个在线网络数据集上进行对比试验,相比于其他6种链路预测算法,HLH算法都表现出较好的性能。(2)提出了一种能同时进行网络社团挖掘与链路预测的网络结构挖掘算法。针对在线网络中存在大量的缺失连边和噪声连边,导致传统社团挖掘算法和链路预测算法无法对网络进行有效的社团发现和链路预测的问题,提出了一种新的基于低秩矩阵填充的社团挖掘与链路预测算法(CLMC)。不同于传统社团挖掘算法直接对网络进行社团划分,CLMC算法将网络的邻接矩阵视为社团矩阵、噪声矩阵和填充矩阵的叠加,施加合适的约束条件对三个矩阵进行求解,利用获得社团矩阵来实现原始网络的社团划分。CLMC算法并不是直接工作在原始网络上,而是从矩阵填充的新视角,通过填充缺失边与删除噪声边来学习一个新的低秩块对角矩阵表征网络社团结构。同时,在学习低秩块对角矩阵的过程中,CLMC算法形成的填充矩阵能够有效地表征网络节点之间的潜在连边,实现节点之间的链路预测。在验证CLMC算法的效果和性能时,为了保证实验数据的多样性,除了选取4个在线网络之外,还选取2个实际网络和一些网络模型产生的基准网络。对比于其他8种社团挖掘算法,CLMC算法利用社团矩阵能够有效识别包含噪声连边和缺失连边的网络社团结构;相比于其他16种链路预测算法,CLMC算法利用填充矩阵能够有效地预测网络中节点之间的潜在连边。(3)应用链路预测和社团挖掘算法预测经济状况和分析经济结构。首先,针对传统经济态势感知方法投入资源大、滞后时间长的问题,利用在线网络中用户具有社会属性的优势,根据网络结构推断区域经济状况。基于在线招聘简历数据和微博用户关注关系数据,分别构建区域之间的人才流动网络和信息流动网络。通过关联分析网络结构与区域经济发展,发现人才流动网络比信息流动网络对经济发展的预测能力更强。而且,结合两个网络的结构特征构造的综合指数能够解释83.8%的区域经济差异。然后,针对人才流动网络可能存在缺失和潜在连边的问题,利用链路预测算法预测人才流动网络中的连边,提高其对区域经济发展的预测能力。具体而言,针对人才流动网络,通过应用HLH算法和CLMC算法,构造人才流动趋势网络。进一步,基于人才流动趋势网络的结构特征构造的综合指数对区域经济的差异的解释能力有显著的提高。最后,利用社团挖掘算法分析信息流动网络,揭示了区域经济结构特点和潜在的经济结构风险。具体而言,基于微博在线注册数据,预测了区域经济发展水平和产业结构。同时,应用CLMC算法分析信息流动网络的社团结构,利用该结构特征预测区域产业结构类型。