论文部分内容阅读
随着社会经济与科技的迅猛发展,爆炸式增长的数据成为了很多行业共同面对的机遇与挑战,使得大数据分析成为当今社会关注的热点问题。网络数据分析是大数据分析领域的一个重要组成部分。本文主要研究了社会网络节点影响力与异质性分析。关键节点往往在网络中起着促进或控制传播的重要作用。节点影响力排序就是按照节点各自的影响力分值或中心性排列节点,其中,节点的影响力分值需要利用合理精确的节点影响力度量方法产生。网络中节点影响力或重要性的差异是网络异质性的一种体现,网络的异质性分析就是要度量这种差异的程度。因此,本文研究的两个问题是息息相关的。首先,本文提出了一个基于改进的h-指数的节点影响力度量方法。该方法在原h-指数方法上增加了额外的区分值。提出的方法具有与原h-指数方法相同的时间复杂度,却有更高的精确度和区分能力。例如,在Netscience网络中,改进的h-指数排序列表top-10节点感染的节点总数目接近260,而原h-指数排序列表top-10节点感染的节点总数目小于30。其次,本文提出了一个基于邻居和节点位置的节点影响力度量方法。该方法结合了节点对其直接邻居与更远邻居的影响(h-指数和半局部中心性)和节点的位置(改进的k-核方法)。因此,结合节点的局部与全局信息使得该方法在评估节点影响力上更加切合实际。相比于原k-核方法,改进的k-核方法可以识别具有相同k-核值和迭代次数的节点。对于上述提出的两个节点影响力度量方法,我们都采用了易感染-感染-恢复模型(SIR模型)和Kendall’s tau相关系数来验证它们在节点影响力评估方面的精确性。此外,我么利用互补累计分布函数(CCDF)来评估提出的节点影响力度量方法的单调性。在多个真实的社会网络中,大量的实验结果表明了我们提出的方法的有效性。最后,真实的网络往往表现出异质性的特点,这是因为网络中的不同节点在结构和功能等方面扮演着不同的角色。因此,不仅识别网络中的关键节点很重要,提出一种度量网络异质性的指标同样也很重要。本文提出了基于拉普拉斯中心性的网络异质性指标(HLC)、基于度比例的网络异质性指标(HDR)和基于局部邻域的网络异质性指标(HLN)。进一步地,我们提出了基于社团大小、边冗余度和密度的网络异质性指标。以真实的社会网络为背景,我们对这些提出的异质性指标进行了分析。