论文部分内容阅读
随着我国移动互联网发展日渐成熟和稳定,各个社交平台为了抢夺彼此之间的市场份额,更加注重内容的多样化,积极寻求模式上的创新和突破。虽然新浪微博在移动社交行业中继续占据头部地位,但是行业内的激烈竞争也给新浪微博的发展带来了巨大挑战。新浪微博的核心竞争力在于头部用户群体和优质的原创内容带来的传播效应,这就要求平台在当前环境下对用户需求的把控要更加精准。围绕该问题,本文针对新浪微博用户的兴趣偏好进行了相关研究。LDA(LatentDirichletAllocation)概率主题模型是由Blei等提出的三层概率结构模型,它可以通过训练得到每篇文档在主题空间上的概率分布和每个主题在词空间上的概率分布,其本身具有无监督学习的特征,不需要给出一些已知标注的语言实例,可以直接对未知语料库进行LDA建模。在很多关于新浪微博用户兴趣偏好的研究中,都是按照这种方式直接对以用户为单位建立的微博文档集进行建模和训练,得到文档集的主题词分布作为用户兴趣偏好的描述信息。本文在此基础上补充了另外一种推断方式,即利用已知语料库有监督的去训练得到一个最优模型,再利用这个训练好的最优模型,针对其他未知语料库中以用户为单位建立的文档集进行语义的挖掘和分析。其中,这个已知语料库在本文中利用新浪微博热门功能的分类标签进行构建,保证了语料在模型推断前后用词特点上具有统一性。除此之外,本文结合自身对于新浪微博平台的使用感受和新浪微博近几年的发展理念,提出了在实证研究中应该加入用户历史点赞微博来扩展用户数据集这一假定,并且通过问卷调查和实证研究说明了假定在理论上的合理性和实践上的有效性。其中关于新浪微博数据的收集,鉴于新浪微博平台存在限制访问机制,本文在Python编程语言下自行设计和开发了面向新浪微博的爬虫系统,来对不同研究需求的新浪微博数据进行收集。