内容相似度的微博兴趣社区发现方法研究

来源 :太原理工大学 | 被引量 : 1次 | 上传用户:zdhks008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的普及以及通讯技术的迅猛发展,大众上网更加便利,越来越多的人们通过网络获取大量的信息、完成信息的高效传播,这种社会状况推动了微博的迅速发展。据《第41次中国互联网发展状况统计报告》数据显示,截止2017年9月中国微博活跃用户规模达3.16亿。微博网络中拥有庞大的用户群体,微博用户产生了巨大的用户数据。微博用户数据中有价值的东西并不是杂乱无章无迹可寻的,而是需要将数据分析对象蔓延到以社区作为一个单位,需要寻找和挖掘社区,进而获取微博用户数据中有价值的信息。在复杂的微博网络中进行社区发现对完善微博的个性化推荐系统、精准广告投放、企业的市场营销等都有重要的理论及实用价值。因此本文的研究内容为如何准确地理解用户的兴趣,检测用户的兴趣,并迅速和有效的检测具有相似兴趣的用户。本文主要完成了以下几方面工作:(1)本文在分析与介绍微博兴趣社区发现研究背景及意义的基础上,对微博网络表示、网络性质、微博网络结构进行阐述,同时对当前文本表示模型与文本相似度计算方式的研究现状进行了研究总结和阐述,同时介绍了AP聚类算法与Newman快速算法的算法原理与实现步骤。(2)本文通过分析微博用户博文内容特征,对兴趣领袖和普通用户分别构建其兴趣表示方法。并在兴趣领袖识别研究中,本文通过对微博用户的行为属性、微博文本属性、用户社会属性分析,提出了一种新的用户影响力指标体系;通过分析用户关注关系,提出使用Page Rank算法对用户的影响力进行修正,最终实现用户兴趣领袖识别。(3)本文构建了基于内容的微博兴趣社区发现框架,提出了基于AP算法与Newman快速算法相融合的社区发现算法。文章在用户兴趣领袖识别的基础上,运用AP算法实现核心用户兴趣社区的发现;然后通过融合Newman快速算法思想,通过判断其余普通用户节点加入到核心用户兴趣社区模块度值的变化完成最终微博用户社区识别。(4)最后通过将本文兴趣社区发现方法与GN算法、LPA算法进行比较,证明本文提出的方法能很好完成微博兴趣社区发现。在对比实验中详细介绍了本文的实验坏境、微博数据的采集方式、实验中采用的评价指标。
其他文献
目的探讨痔疮的发病原因及其护理。方法以358例痔疮患者为研究对象,通过临床观察、分析,根据具体原因、症状,制定护理计划,实施相应护理措施。结果经过病因的归类分析,辩症施
北京汽车生产基地是顺义区临空经济圈的主要功能区之一,自组建以来汽车基地凭借独特的地理位置优势和优惠的产业政策取得了显著的成绩。今后汽车基地要完善市政基础设施建设,
莫言的长篇小说《丰乳肥臀》通过一个农村家庭大半个世纪生活轨迹的变化来反映中国的历史变迁。《丰乳肥臀》中体现了很多古代志怪类文学的艺术特点,笔者从小说主题、原型、
转眼进入第四季度,寒风已至,猪肉保供给任务可谓是迫在眉睫当前各地大力度扶持大型养殖场已是人尽皆知,他们享受的政策、资金、土地优势是空前的,但是由于成本高,发展不会太
目的构建肝硬化腹水中医护理方案。方法在查阅文献、借鉴肝硬化(积聚)中医护理方案的基础上,初步构建了肝硬化腹水中医护理方案,并形成专家咨询问卷。对11名专家进行2轮德尔
铜仁市税务局始终把脱贫攻坚作为重点工作之一,与税收中心工作同部署、同落实、同考核,2018年以来共派出帮扶干部536人、投入扶贫资金710.36万元,帮助5768户3.91万人成功脱贫
塔中4油田CⅢ组油气藏今油水界面和古油水界面分别位于-2510m和-2610m,古油水界面呈水平状,近晚期的断裂活动使CⅢ组油藏中油向上运移,在CⅠ和CⅡ储集层聚集,CⅢ组油藏油水界
目的探讨合理情绪疗法联合团体自助模式在护理心理学教学中的应用效果。方法选取扬州大学护理学院2017级和2018级护理本科生为研究对象,将2017级设为对照组(n=51),2018级设为
曾几何时,企业只需要一个渠道即可向客户提供所有产品和服务,但如今,为了满足客户对更多渠道的需求,企业已纷纷开拓多种客户接触途径。通常,客户使用多种渠道会比只用一种渠道平均
目的了解高职实习护生死亡焦虑现状并分析其影响因素。方法采用便利抽样法,于2018年2—4月选取宁波卫生职业技术学院2015级高职实习护生323名为研究对象,采用一般资料问卷和