在线社交网络数据采集策略研究

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:hzpjhuang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几十年来,互联网历经时代的变革,在线社交网络(OSNs)将人们的面对面的交流逐渐改变为线上虚拟的方式。OSNs注册用户总量及其庞大,人们越爱越重视这类网络数据的研究。与此同时由于数据量庞大,网络结构复杂,使得对整个OSNs进行研究时耗费大量的人力物力。一个可靠的OSNs采样算法可以帮助研究者从完整网络中采集小型代表性样本网络,对于OSNs数据研究意义重大。现有的网络采样算法如广度优先采样算法(BFS),Metropolis-Hasting随机游走算法(MHRW)等已能够从Twitter等大型网络中采集样本网络。但BFS采集的样本节点度数偏高,MHRW采样容易陷入连通良好的子区域。针对现有OSNs采样算法存在的各种弊端,导致采集的样本网络无法反应原始网络特性的问题,本文以网络采样算法为核心内容展开研究。文中主要研究内容如下:1.针对MHRW采样方法无法采集低连通的社交网络的节点,采样过程中易于陷入连通良好的子区域导致部分节点过度入样,获取的样本节点集的特征指标与原始偏差较大等问题。加入节点存储区和全局节点以及存储区的跳跃参数,提出一种多重跳跃无偏的顶点采样算法(MJU),不仅解决了 MHRW的采样缺陷且以更小的采样消耗来采集足够的样本节点。最后基于Twitter和Epinions数据集进行多种算法采样实验,评估节点更新率、样本网络度分布及算法收敛性等网络特性。实验结果证明MJU采样算法能够采集到接近原始网络特征的样本,采集的小型样本数据特性与原始网络匹配度最佳,能够较为准确反应原始网络数据的性质。2.以MJU算法为控制器的核心,设计一个在线社交网络爬虫系统。文中详细的介绍了爬虫系统的框架、组成结构以及爬虫系统进行网络数据采集的工作流程。以知乎网络为研究实例,基于MJU采样算法设计控制器中的URL管理器以便确定网页爬行路径,下载并解析网页数据,分析清洗后存储在资源库中。使用此爬虫系统采集用户数据能够代表整个网络,便于研究网络特性。综上所述,本文研究的MJU采样算法较为高效可行,采集的样本与原网络匹配度较高,以MJU算法为基础设计的网络爬虫系统能够有效爬取网络信息。
其他文献
[目的]观察中西医结合治疗腹泻型肠易激综合征的临床疗效。[方法]将92例腹泻型肠易激综合征患者随机分为治疗组和对照组,两组均给予匹维溴胺、洛哌丁胺口服治疗,治疗组加服痛泻
大气CO2浓度迅速升高引起了人们对木材碳含量变异的极大关注。尽管50%作为木材碳含量已被广泛接受,但可能产生10%的碳含量偏差。不同树种和不同部位的木材碳含量有显著的差异
【正】毕业论文(设计)工作是高职教学工作的重要组成部分,在培养学生实践动手能力和创新能力方面起着重要作用。目前,不少高职学院都将毕业论文(设计)和顶岗实训
当前,在人口高强度聚集的背景下,有限的城市地表空间造成了大城市的交通问题,而开发和利用城市地下交通系统成为解决大城市交通问题最为有效的措施。以西安地铁为例,受分期规
目的:通过对青岛市区5家三甲医院的耐碳青霉烯类肺炎克雷伯杆菌(Carbapenem-resistant Klebsiella pneumoniae,CRKP)的碳青霉烯酶表型的筛查及耐药基因检测实验,验证改良Hodge
《元声韵学大成》是明代非常重要的韵学著作,本文着重分析了《元声韵学大成》中知庄章组声母的演变情况,总结了规律,并重点分析了规律之外的变异情况,结合今音为其拟定了音值
房地产行业面临的环境竞争日趋严峻,企业如何实现在残酷市场竞争中的突围,是公司管理者需要面对和思考的问题。毫无疑问,公司的核心优势最终主要是体现在人力资源上。打造公司人力资源的核心竞争优势,配套完善的绩效考核体系是必不可少的,这也是当前许多房地产企业着手完善内部管理和激发员工潜能的重要原因。本研究选择的A公司与大多数房地产企业一样,在多年的发展中一直注重如何做大做强地产项目,对人力资源板块的投入相对