【摘 要】
:
互联网的蓬勃发展,使得网络媒体中蕴含着海量的信息。社交网络作为一种特殊的网络,其中充斥着大量的人类活动的数据信息,具有很高的研究价值。但是,网络媒体信息通常具有分散的特点,导致网络媒体中的信息难以被直接利用。因此,对网络媒体信息进行数据采集,是进行网络媒体数据分析及数据挖掘的先决条件。海量网络媒体信息采集是指通过网络爬虫或数据API接口提取等技术手段,达到获取网络中感兴趣的数据的目的。不同于一般的
论文部分内容阅读
互联网的蓬勃发展,使得网络媒体中蕴含着海量的信息。社交网络作为一种特殊的网络,其中充斥着大量的人类活动的数据信息,具有很高的研究价值。但是,网络媒体信息通常具有分散的特点,导致网络媒体中的信息难以被直接利用。因此,对网络媒体信息进行数据采集,是进行网络媒体数据分析及数据挖掘的先决条件。海量网络媒体信息采集是指通过网络爬虫或数据API接口提取等技术手段,达到获取网络中感兴趣的数据的目的。不同于一般的网络媒体信息采集,对社交网络进行信息采集首先需要对社交网络账号进行登录,因此确保社交账号保持正常的状态是社交网络数据采集的前提。现有的针对社交网络数据采集的研究中很少有关于账号模拟的功能设计,无法确保账号保持正常的状态,因此难以保证网络媒体数据的稳定获取。另一反面,现有的网络媒体数据采集大多基于单节点的设计实现,难以满足海量的数据需求。针对上述问题,本文以Twitter为数据采集对象,设计实现了海量网络媒体信息采集及处理平台,该系统在模拟社交网络账号登录的基础上,实现了社交媒体网络信息的稳定采集,主要工作概括为如下两方面:(1)针对社交网络账号模拟问题,在提出基于Twitter平台的社交网络账号行为模拟方法的基础上,设计实现了社交网络账号模拟子系统。该子系统总结了现有的异常账号检测方法,参考Twitter用户规则,并结合对Twitter数据采集的实践,设计实现了从账号注册到运行账号模拟策略的完整流程。通过实验测试,表明社交网络账号模拟子系统能够在一定程度上降低账号异常情况出现的概率。(2)针对社交网络媒体数据采集问题,在分布式系统环境中运用任务调度算法的基础上,设计实现了网络媒体信息爬取子系统。该子系统通过网络爬虫技术实现了对Twitter推文数据的抓取,使用人工蜂群算法对采集任务的分配策略进行了优化。实验测试结果表明,网络媒体信息爬取子系统可以实现对Twitter推文数据持续稳定采集,人工蜂群算法的运用可以在一定程度上提高数据采集速率。实验测试结果表明,本文设计实现的账号模拟与社交网络媒体数据采集系统能够较好的实现保持账号正常状态、资源负载均衡及提高采集效率的目的。
其他文献
身份和身份建构一直是社会科学研究中的一个热门话题。语言使用者的身份本质上是一个交际过程。在交际过程中,社会语境和文化语境会通过语言来影响身份的建构。人们通过语言
区域景观格局变化及生态效应研究一直是景观生态学研究的热点,对区域可持续发展具有重要意义。本文以平江县2001年、2009年、2016年三个年度的Landsat-TM遥感影像为研究基础
目的探讨富血小板血浆(PRP)联合剥脱性CO2点阵激光治疗痤疮后瘢痕的临床效果。方法选取自2017年5月至2018年3月中国医科大学附属第一医院皮肤科门诊收治的20例重度痤疮患者为研
目的:研究胃癌发病的危险因素,分析胃癌与2型糖尿病的相关性,并且进一步探讨2型糖尿病伴胃癌者的临床特征,为有效预防胃癌的发生及指导糖尿病患者的生活方式提供依据。方法:本研究为回顾性病例对照研究。选取2015年10月至2019年5月在石河子大学医学院第一附属医院住院的510例胃癌患者为胃癌组,以性别、年龄为匹配条件选取非癌症患者510例作为非胃癌组。使用卡方检验、Logistic回归分析对胃癌相关危
目的:分析糖尿病(DM)合并社区获得性肺炎(CAP)患者的病原学分布特点及临床特征,以期为临床早期、有效抗感染治疗提供理论依据。方法:以2012年3月至2017年3月呼吸内科所收治共
为贯彻实施中央提出的“学校要树立健康第一的指导思想,切实加强体育工作”的精神,落实教育部、国家体育总局联合下发的《学生体质健康标准》(以下简称《标准》)的要求。学院成立
区块链具有强大的生命力,本文阐述了它在电子化交易、信用社会体系建立、智能合约、实体经济增效、数字资产保护等方面的直接应用,还对它的潜在应用前景做了展望,显现出这一
大体积混凝土施工在变电站建筑施工中占到较大比例,一定意义上代表了变电站土建施工水平,直接影响到变电站工程创优。资阳500kV变电站非常重视施工技术方面的改进,特别是在变
根据世界卫生组织报道,心血管疾病(Cardiovascular Diseases,CVDs)成为了威胁人类健康的主要疾病之一。针对心血管疾病的提前诊断与治疗成为了全球的研究热点问题。由于心脏MR图像具有无创性、对比度高等优点,因此被广泛应用于心血管疾病的早期诊断与治疗中。临床医生依据心脏MR图像分割结果可以获取重要的心脏功能参数。然而在现实医疗中,分割通常由有经验的医生手动完成的。手动分割不仅耗时