在线网络的结构挖掘算法及其应用研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:hunterpo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网技术的快速发展,以社交、购物、求职、金融等为代表领域的在线信息服务平台使得用户的行为活动越来越多的从线下转为线上。而且,行为活动中形成的海量网络数据,一方面记录了用户的基本属性(如年龄、性别、信仰、职业、籍贯等)和用户或物品的信息(如文本、图片、标签等);另一方面也抽象地表征了用户之间的社交关系(如朋友关系、同事关系等)和用户与物品之间的从属关系(如购买关系、评价关系等),形成了以用户或物品等为节点的在线网络,如用户之间的在线社交网络和用户—物品二分网络等。同时,随着网络科学理论的快速发展,网络结构挖掘中的链路预测与社团挖掘问题已成为多学科交叉领域的研究热点。通过对这些问题的研究,已经形成不同类型的链路预测算法和社团挖掘算法,且在不同领域得到广泛的应用。本文基于在线信息服务平台中用户产生的海量网络数据,以表征用户之间或用户与物品之间关系的在线网络为研究对象,研究能够准确地预测在线网络潜在连边和高效地识别在线网络社团结构的网络结构挖掘算法,并将提出的算法应用于社会经济预测研究。本文主要的研究内容和创新点总结如下:(1)提出了三种链路预测算法。首先,针对在线网络中节点的标签信息在链路预测中被忽略的问题,在基于结构相似性的链路预测算法基础上,本文提出了基于标签信息熵的链路预测算法(TLP)。TLP算法通过引入信息熵来衡量节点及其邻居的标签所组成的标签系统的同质性,把标签信息表征的自有特征融合到节点之间的相似度计算。即是,TLP算法通过标签信息熵定义节点吸引强度,并将节点吸引强度引入到节点连边相似度的计算过程中。通过4个在线网络数据集上进行对比试验,相比于其他6种链路预测算法,TLP算法都表现出比较好的性能。其次,考虑到二分网络的链路预测与信息推荐的关联性,本文把标签信息熵的概念推广到用户—物品二分网络的链路预测,提出了基于标签信息熵的个性化推荐算法(TPR)。具体而言,TPR算法利用信息熵来刻画用户对物品标签的权重,通过定义标签重要程度和标签喜好程度,将它们引入到用户对物品的评分计算过程中。通过豆瓣网的电影评分数据和标签数据上进行对比实验,相比于协同过滤算法,TRP算法将推荐准确度提高了10.9%。最后,针对在线网络中节点度分布存在的长尾效应,导致基于网络结构的链路预测算法给出的预测列表存在不平衡的问题,本文提出了基于网络扩散的链路预测算法(HLH)。通过在4个在线网络数据集上进行对比试验,相比于其他6种链路预测算法,HLH算法都表现出较好的性能。(2)提出了一种能同时进行网络社团挖掘与链路预测的网络结构挖掘算法。针对在线网络中存在大量的缺失连边和噪声连边,导致传统社团挖掘算法和链路预测算法无法对网络进行有效的社团发现和链路预测的问题,提出了一种新的基于低秩矩阵填充的社团挖掘与链路预测算法(CLMC)。不同于传统社团挖掘算法直接对网络进行社团划分,CLMC算法将网络的邻接矩阵视为社团矩阵、噪声矩阵和填充矩阵的叠加,施加合适的约束条件对三个矩阵进行求解,利用获得社团矩阵来实现原始网络的社团划分。CLMC算法并不是直接工作在原始网络上,而是从矩阵填充的新视角,通过填充缺失边与删除噪声边来学习一个新的低秩块对角矩阵表征网络社团结构。同时,在学习低秩块对角矩阵的过程中,CLMC算法形成的填充矩阵能够有效地表征网络节点之间的潜在连边,实现节点之间的链路预测。在验证CLMC算法的效果和性能时,为了保证实验数据的多样性,除了选取4个在线网络之外,还选取2个实际网络和一些网络模型产生的基准网络。对比于其他8种社团挖掘算法,CLMC算法利用社团矩阵能够有效识别包含噪声连边和缺失连边的网络社团结构;相比于其他16种链路预测算法,CLMC算法利用填充矩阵能够有效地预测网络中节点之间的潜在连边。(3)应用链路预测和社团挖掘算法预测经济状况和分析经济结构。首先,针对传统经济态势感知方法投入资源大、滞后时间长的问题,利用在线网络中用户具有社会属性的优势,根据网络结构推断区域经济状况。基于在线招聘简历数据和微博用户关注关系数据,分别构建区域之间的人才流动网络和信息流动网络。通过关联分析网络结构与区域经济发展,发现人才流动网络比信息流动网络对经济发展的预测能力更强。而且,结合两个网络的结构特征构造的综合指数能够解释83.8%的区域经济差异。然后,针对人才流动网络可能存在缺失和潜在连边的问题,利用链路预测算法预测人才流动网络中的连边,提高其对区域经济发展的预测能力。具体而言,针对人才流动网络,通过应用HLH算法和CLMC算法,构造人才流动趋势网络。进一步,基于人才流动趋势网络的结构特征构造的综合指数对区域经济的差异的解释能力有显著的提高。最后,利用社团挖掘算法分析信息流动网络,揭示了区域经济结构特点和潜在的经济结构风险。具体而言,基于微博在线注册数据,预测了区域经济发展水平和产业结构。同时,应用CLMC算法分析信息流动网络的社团结构,利用该结构特征预测区域产业结构类型。
其他文献
雅科布·路德维希·费利克斯·门德尔松·巴托尔迪(Jakob Ludwig Felix Mendelssohn Bartholdy,1809年2月3日—1847年11月4日),德国犹太裔作曲家,钢琴家、风琴弹奏家、乐队指
随着当前社会人们经济生活水平不断提高以及人口老龄化日益加剧,家庭服务机器人作为一种方便了人们工作和日常生活的有效智能工具,其运用变得越来越广泛。家庭服务机器人技术
随着社会的进步和经济的发展,森林资源所体现的价值日益突出,人类对森林资源的利用不断增加,随之而来的山林权属纠纷日趋明显。山林权属纠纷主要体现在山区、林区地区,山林纠
华喦作为清朝全盛时期“扬州画派”的代表人物之一,花鸟成就最高,兼善人物、山水、草虫。作为一位特殊的文人职业画家,虽一生都在艰难困苦中挣扎,但是他安贫守志,一生创作了
房地产热潮和优化营商环境的背景下,产权式商铺发展如火如荼。为了实现利益的最大化,虚拟分割式产权商铺作为一种新型的投融资方式广受房地产行业欢迎。由于虚拟分割式产权商
对于光租下船舶联名保险中保险人能否代位联名被保险人的权利向其他被保险人追偿的问题,司法实践和理论界一直存有不同观点。英国最高法院在The“Ocean Victory”①一案的终
手部姿态估计是各种智能应用,进行活动识别的重要要求。对它的研究在计算机视觉界已经展开了数十年,并且由于深度学习的发展,低成本深度相机的推出,对于手部姿态估计的研究引
传感器网络由部署在监视区域中空间独立分布的大量微型传感器节点构成,用以实时监控、感知和采集作用区域内的环境或目标状态,例如温度,湿度,振动,压力或运动等。由于节点的
This research is basically about how to women’s empowerment and of course this research will also related to the gender equalities.This paper research also ide
日本的娼妓业历史中,战后美军占领期(20世纪40年代至70年代)是一段特殊时期。1945年8月15日,日本天皇向全日本广播,接受波茨坦公告、实行无条件投降,结束战争。三天后,政府向