微博数据获取与传播行为建模

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:menglimengwaiszy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0应用的快速发展,社交媒体作为社会感知器用于记录人们日常生活、信息共享以及在线交友等,得到了商业界、政治界和学术界的广泛重视。分析社交媒体数据可以了解用户的关系网、理解用户的在线行为以及挖掘用户偏好,从而实现好友、产品以及服务的精准推荐;掌握信息在社交媒体中的传播途径和传播方式可以观测在线用户的集群行为,使虚拟空间成久安之势、建长治之业。因此,收集社交媒体数据,并感知用户在虚拟社区上的集群行为是重要而迫切的研究课题。由于社交媒体数据间具有强烈的依赖关系,传统的抽样技术不适用于收集社交媒体数据。另外,社交媒体数据的海量性、实时性和个性化等特点致使分析社交媒体数据成为一个非常有挑战的任务。而微博作为一类典型的社交媒体,它几乎具备当前社交媒体的所有特征。因此,本文以微博为载体研究了社交媒体数据的获取以及信息在社交媒体上的传播模型。主要贡献如下:·设计和实现了一种基于微博社交网络结构的数据获取方法。根据网络中心化理论,选择可信的、正常的种子用户,通过微博平台的关注网络按照广度优先的策略设计了一个分布式爬虫,爬取并发布了海量微博数据;同时,根据爬取的数据集讨论了微博数据的实时获取。·给出了微博流行度的形式化定义,提出微博的流行度应该用转发量和可能被浏览次数这两种不同的方式进行度量。它们分别从实际受到影响进一步传播该信息的用户数和可能浏览到此信息的用户数两个角度度量了微博的流行度。·研究了微博的生命周期和引爆点。分析表明大多数具有高流行度的微博生命周期小于48小时;并且微博在传播过程中可能存在引爆点,即微博流行度会在信息传播过程中出现二次或二次以上的爆炸式增加。观察发现微博流行度随时间变化服从Sigmoid函数,文章利用Sigmoid函数拟合微博流行度随时间变化,同时给出估计模型参数的算法。实验验证了模型的有效性和参数估计的准确性。·建立了一个网上集群行为资源库,该资源库能以事件为单位,从时间、空间、情绪和传播网络这四个维度对事件进行可视化分析。该平台可以帮助人们了解事件的具体发展,事件参与者的大致组成、民众对事件的观点分布,事件的主要推动者等更进一步的信息。总的来说,本文以微博为载体,探索了基于社交网络结构获取社交媒体数据方法的可行性;基于收集的数据和流行度概念,对微博的传播方式进行了建模,研究微博生命周期和引爆点;最后建立社交媒体用户网上集群行为资源库,从多个维度展示社交媒体数据在研究用户集群行为中的作用。
其他文献
在分析"非遗"内涵与外延的基础上,探讨了工业设计在提高民族文化的自觉和自信,促进"非遗"产品创新和提升品牌形象方面的作用。指出工业设计在介入"非遗"生产性保护中应处理好
伴随着新城区建设的进一步发展和升级,最开始的粗放型已经向生态型转变。在生态城市理念基础上对其实施规划设计,是当下城市新城区建设的重点和关键。基于此,本文将重点从区
中国回教救国协会成立以后,除积极组织动员全民抗战外,极其重视回族伊斯兰文化研究,1939年3月经救国协会副理事长唐柯三与复旦大学马宗融教授倡议,救国协会组织成立回教文化
期刊
在儿童的前期教育中,家庭教育对儿童的成长至关重要。经济转型﹑价值观念的偏转以及长久以来的区域发展不平衡等原因,导致家庭教育的严重缺失,加重了学校教育与社会教育的负担
源于《金匮要略》的木防己汤用于治疗支饮,而后世医家多有发挥,以治疗心系相关疾病。然针对木防己汤与心系疾病的基础研究较为分散,该文检索并搜集关于木防己汤的研究资料,从
职业技术院校按照专业培养目标和教学计划,组织学生到企业等用人单位进行教学实习和顶岗实习,是专业教学的一项重要制度安排,也是人才培养的重要环节。但是,在实习中,学生受到意外
目的:观察乳腺肿瘤患者术后疼痛护理效果。方法:选取本科室50例乳腺肿瘤术后患者,按照不同护理方法将其分成常规组与疼痛组各25例,常规组实行常规护理,疼痛组强化疼痛护理,对
传统的辅助报警系统在对电网通信故障进行保护时,很容易出现误报状况,且报警不及时,严重影响电网通信网络的正常工作。为了解决上述问题,基于数据拓扑设计了一种新的电网通信
近年来,受社会主义市场经济发展的影响,企业面临着人才流失问题。本文在分析了人才流失的原因,提出了企业如何更好地留住人才的一些建议。