论文部分内容阅读
随着互联网和大数据产业的不断发展,信息交互、处理和存储过程中产生了海量的数据,图作为最通用的数据结构之一,在描述数据的属性和结构功能方面具有显著的优势,使用图来描述的数据信息称为图数据,如生物蛋白质网络和社交网络等都可以抽象成图。随着数据处理技术的提高,人们对数据的准确性要求也越来越高,数据采集和处理过程中的噪声、数据缺失和统计错误等不确定因素逐渐纳入了研究范畴,研究对象从确定性图数据扩展为不确定性图数据。不确定图的影响力边是指在很大程度上影响图的结构和功能的一些特殊边,一旦发生故障,将对整个系统产生巨大影响,甚至导致系统瘫痪。不确定图由于在边上增加了一个概率维度,导致确定图上的研究不能直接运用到不确定图上,甚至一个简单的查询问题在不确定图上就成了#p-完全问题,因此计算代价非常高,且难度大。针对上面提出的问题,本文主要对不确定图上边影响力查询的问题进行研究,提出了两种对边上影响力定义的模型,具体研究内容如下:(1)基于平均距离差模型的最大影响力边查询算法。该算法首先采用抽样技术简化实例图空间,然后在每一个实例图上每次删除一条边之后用图平均距离的变化来衡量该边对图结构的影响力,最后是实验验证该算法的准确性和时间效率。(2)基于边介数扩展模型的最大影响力边查询算法。边介数中心度可以用来表示边的影响力大小,但是具有一定的片面性,本文提出的边介数扩展模型在边介数基础上加入了边端点的点介数和度分布对边的支撑作用,更加准确地衡量了边的影响力。实验也证明了该方法具有更好的准确性和效率。