基于LDA主题模型的新浪微博用户兴趣研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:chester116
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国移动互联网发展日渐成熟和稳定,各个社交平台为了抢夺彼此之间的市场份额,更加注重内容的多样化,积极寻求模式上的创新和突破。虽然新浪微博在移动社交行业中继续占据头部地位,但是行业内的激烈竞争也给新浪微博的发展带来了巨大挑战。新浪微博的核心竞争力在于头部用户群体和优质的原创内容带来的传播效应,这就要求平台在当前环境下对用户需求的把控要更加精准。围绕该问题,本文针对新浪微博用户的兴趣偏好进行了相关研究。LDA(LatentDirichletAllocation)概率主题模型是由Blei等提出的三层概率结构模型,它可以通过训练得到每篇文档在主题空间上的概率分布和每个主题在词空间上的概率分布,其本身具有无监督学习的特征,不需要给出一些已知标注的语言实例,可以直接对未知语料库进行LDA建模。在很多关于新浪微博用户兴趣偏好的研究中,都是按照这种方式直接对以用户为单位建立的微博文档集进行建模和训练,得到文档集的主题词分布作为用户兴趣偏好的描述信息。本文在此基础上补充了另外一种推断方式,即利用已知语料库有监督的去训练得到一个最优模型,再利用这个训练好的最优模型,针对其他未知语料库中以用户为单位建立的文档集进行语义的挖掘和分析。其中,这个已知语料库在本文中利用新浪微博热门功能的分类标签进行构建,保证了语料在模型推断前后用词特点上具有统一性。除此之外,本文结合自身对于新浪微博平台的使用感受和新浪微博近几年的发展理念,提出了在实证研究中应该加入用户历史点赞微博来扩展用户数据集这一假定,并且通过问卷调查和实证研究说明了假定在理论上的合理性和实践上的有效性。其中关于新浪微博数据的收集,鉴于新浪微博平台存在限制访问机制,本文在Python编程语言下自行设计和开发了面向新浪微博的爬虫系统,来对不同研究需求的新浪微博数据进行收集。
其他文献
目的 探讨老年妇科肿瘤患者术前合并症的优质护理对于手术治疗效果的影响。方法 选择80例老年妇科肿瘤患者,随机分为观察组和对照组,每组各40例,对照组患者给予常规妇科围手
本文介绍了阅读疗法的功效,类型及历史,提出了图书馆开展阅读疗法服务的措施和方法.
农产品质量安全关系到消费者的健康和生命安全,农产品供应链从源头到加工和流通的任一环节都可能出现问题。构建南通农产品质量安全体系,要从农产品全程供应链出发,通过农产
近年来,负泊松比结构的研究及其应用是科学界的研究热点。负泊松比结构具有吸能性好、隔热性好等优点,在航空、交通以及医疗领域有广泛的应用。3D打印具有快速成型和个性化制
应用场光线传递方程,从鱼眼镜头的孔径光阑处,逆向追迹场光线传递方程,确定任意视场角场光线的初始位置,即光阑球差.正向追迹场光线计算鱼眼镜头系统物、像空间视场角之间的
目的:机器人辅助肝切除是近年兴起的微创操作技术,然而,与传统的腹腔镜肝切除术相比,目前还没有确切的证据证明谁具有安全有效的优势。本研究采用Meta分析法,比较机器人辅助肝切除术(robotic liver resection,RLR)和腹腔镜肝切除术(laparoscopic liver resection,LLR)治疗肝脏疾病的疗效和安全性。方法:系统检索Pubmed、Cochrane、CNKI
栓菌(Trametes)及其近缘属菌物是多孔菌中的重要类群,广泛分布于各种自然环境中。栓菌的一些种在制药与环境治理等方面有重要应用价值。目前对栓菌的分类主要建立在菌丝类型