基于随机跳转策略的社交网络采样算法研究

来源 :浙江理工大学 | 被引量 : 2次 | 上传用户:Ares_Stray
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网的飞速发展,社交网络正在影响和改变着人们的生活。基于大量复杂数据的网络结构研究日益受到人们的欢迎。由于现有的在线社交网络中,用户交互信息的数据量庞大,且存在隐私问题,如果直接对整个网络数据进行分析耗时严重,几乎不可能完成。因此,一种可靠而有效的网络采样算法对于在线社交网络(OSNs)特征的实际估计非常重要。现有的网络采样算法可以从Facebook等大规模复杂社交网络中获得无偏的样本集,并描述原始网络的关键特征。经典的Metropolis-Hasting随机行走法(Metropolis-Hasting Random Walk,MHRW)通过使用分布函数进行抽样控制,较好的满足了社交网络采样的需求。但是,MHRW算法的采样过程中存在陷入局部区域中过度采样的缺陷。针对在线社交网络数据的上述特性以及MHRW采样算法存在的缺陷,以网络数据采样问题为核心,对网络数据的在线采样、样本评估等方面开展了一系列研究。主要研究内容和创新点如下:1.为解决MHRW采样算法存在的局部区域过度采样问题,引入了随机跳转策略进行改进,得到一种新的混合跳转采样算法(Hybrid Jump sample,HJ)。本文分别在Facebook和Twitter两个数据集上进行了大量实验,通过对比不同算法采样所得到的样本集的收敛性、网络的度分布、采样节点分布和传递性等网络特征,证实HJ算法的采样性能更强且适用范围比较广。并且本文中通过调整HJ算法中跳转概率值的大小进行实验,观察实验结果发现:不同跳转概率对HJ采样算法收敛性的影响微小,可以忽略不计。2.以知乎在线网络为研究实例,运用本文所提出的HJ算法,设计了分布式社交网络采样系统。本文中详细的介绍了系统的构成和资源优化方案。基于HJ算法采集知乎网站的用户URL。然后提取用户页面信息进行处理,整理后进行存储。通过此采样系统能够更加便捷的进行社交网络数据的采集和存储工作。
其他文献
糖尿病足(diabetic foot,DF)是糖尿病(diabetes mellitus,DM)的一种严重并发症。资料证明,DM的足部并发症导致5%~10%的患者需要行截肢手术.而非创伤性截肢中有50%以上是糖尿病患者^[1]。
随着人口的老龄化及透析患者存活时间延长,透析人群中老龄患者的比例逐年增加。由于老年患者自理能力差,这些患者多数以血液透析为主。老年尿毒症患者由于原发病复杂,各脏器功能
随着社会进入信息化及电子智能化时代,电子技术发展越来越迅速,应用越来越广泛,对人类生活的影响也更加深远。节能减排、保护环境,是全世界、全人类共同关心的问题,也是我国社会经
深交所是否会改制为专一“深圳创业板”?笔者认为,应该将深交所改制为单一的“创业板”,并将现有主板上市公司一次性转移至上交所挂牌,这样做,至少具有两大重要意义:其一,由于深交所
目的探讨急性有机磷农药中毒(AOPP)致呼吸衰竭的救治对策,旨在提高对本病的认识和提高抢救成功率。方法对经抢救治疗的AOPP致呼吸衰竭75例进行回顾性分析。结果75例抢救成功61例