基于微博的局部社交网络构建及热点人物提取方法研究

来源 :西华大学 | 被引量 : 0次 | 上传用户:lanshangliujing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网时代的到来,网络渐渐地融入人们的生活。许多网民通过互联网进行购物、交友、学习等日常活动,它已经成为人们生活中十分重要的一部分。在人们的互联网生活中,网络社交平台,如:新浪微博、腾讯微博、Twitter等,已经成为了众多网民较为活跃的场所。人们可以在这些社交平台中结交新朋友,并与其他用户分享他们感兴趣的文字、图片、视频等信息,而这些被用户发布的信息在一定程度上反映出了用户的行为习惯和兴趣爱好。就目前来说,社交数据具有内容简短、数量庞大、实时性高等特点,因此从海量社交数据中挖掘出有效的信息是数据挖掘领域的一大挑战。面对着大量的社交平台用户数据,构建用户的社交图谱和兴趣图谱是提高社交网络中社交搜索质量的关键。针对与上述问题,为了有效地构建出用户的社交图谱和兴趣图谱,本文的主要研究内容包含有以下几点:1.本文基于链路预测(Link Prediction)的思想,通过改进Friend Link(FL)算法,提出了活跃朋友的预测算法(Active Friend Prediction,AFP)。为了适用于微博这类拥有稀疏的用户属性信息的在线社交平台,本文将用户的在线社交网络抽象为有向图(其中节点代表用户、边代表用户之间存在关系),通过图的局部链路特征来分析用户之间的相似度。本文提出了节点活跃系数的概念,即利用各个节点的出度和入度,通过它们的比值来刻画节点的活跃程度,进而从用户的社交网络图中筛选出行为活跃的用户。同时结合社交网络图的节点之间的链路结构相似度来计算出节点的活跃度评分,从而根据该评分提取出与用户有潜在关系的活跃间接邻居,并利用这些节点构建出用户的高活跃度局部社交网络,即用户的社交图谱。2.本文提出了用户关注的隐式和显式热点人物提取算法(Focusing Personae Extraction algorithm,FPE)。微博是一种以短文本为信息载体的社交平台,虽然微博文本包含着用户关注的人物实体,但是,这些文本中总是充斥着大量的噪声信息。因此,本文从用户及其社交图谱中的用户所发表的微博中提取出人物实体,根据目标用户社交图谱中用户的活跃度评分以及包含了相关的人物实体的微博条数,从而计算出用户对人物实体的关注度,并将具有较高关注度的人物实体作为热点人物构建出用户的热点人物兴趣图谱。此外,该方法还可以用来提取整个局部社交网络中被关注的热点人物。最后,本文通过对比实验的方式,比较了不同的基于链路的节点相似度计算方法与本文改进的算法在精确度、召回率、F值以及时间效率上的差异,并且分别在基于不同的链路预测算法所构建出的目标用户社交图谱中提取用户关注的热点人物。最终实验证明,本文改进的节点评分计算方法较其他方法来说有较高的精确度、召回率、F值,此外本文提出的隐式和显式热点人物实体提取方法能够有效地挖掘出用户所关注的热点人物,并且其精确度取决于用户社交图谱的精确度。
其他文献
实时系统是面向方面技术很好的应用场所,在实时系统中,有很多非功能需求,且这些非功能需求往往横切整个系统。在实时系统中关键的就是时间要求了,这些时间要求散布在整个系统
智能交通系统(ITS, Intelligent Transportation System)是目前全球广泛研究的课题,近20年随着我国公路交通事业的飞速发展,我国的公路长隧道及地下通道的不断增多,隧道自身
论文针对传统RBAC模型在大规模企业应用中存在用户授权分级管理实现复杂的不足,提出了一种基于自治域的RBAC改进模型(AD RBAC)。AD_RBAC模型引入“自治域”概念形式化描述企
决策树学习是应用最广泛的归纳推理算法之一。目前存在的决策树归纳算法大多数是基于自顶向下的贪婪算法,它在每个结点都执行一个局部最优决策。然而,在大多数情况下,贪婪算
无线传感器网络中的传感器节点由于自身资源受限,部署环境恶劣导致安全问题也越来越多。基于密码技术的安全体制能够很好地抵抗外部攻击,却无法有效地抵抗节点被俘获而发生的
近年来,计算机图形学有了巨大的发展,随着应用需求的不断增加,人们对真实感图形渲染的需求也与日俱增,其中阴影生成是不可或缺的重要方面。随着GPU处理能力不断增强,原来由CPU处理
辊道窑是一种近几十年发展起来的新型快烧连续式窑炉,目前已广泛用于建陶和日用陶瓷等陶瓷生产中,在当今经济快速发展、能源大幅消耗的情况下,降低能耗、节约成本、提高经济
Web服务作为一种分布式计算标准,提出了一种面向服务的架构。其通信协议主要是依靠SOAP来进行数据传输,通过WSDL对服务进行描述,运用UDDI发现和获取Web服务。由于在Web服务中
随着当今Internet技术日渐成熟和第三代互联网的提出,网格计算的设想与实践已不再遥远,网格计算的核心是对异地异构资源非集中性控制的资源协调,通过通用开发的协议和接口,提
随着数据库和网络技术的不断发展,使得人们可以越来越容易地获得海量的数据,但由于数据信息自身的复杂性,使如何有效地处理和理解这些数据成为需要解决的难题,而机器学习方法