基于主题模型的微博热点话题发现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:wuzhenlikk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进入WEB 2.0以来,社交媒体给人们的生活带来越来越多的乐趣,人们的生活已经离不开移动互联网。同时以微博为代表的社交媒体成为公众获取时政信息、讨论社会热点以及学习交流的重要渠道。微博以其便利性及低门槛性受到公众的欢迎,与此同时,公众可以通过各种终端浏览微博话题或者发布微博信息。一些网民发表自己当时的心情与生活状态,还有一些网民发表自己对某些热点话题的见解,使得微博平台产生了各种各样杂乱无章的信息。面对各种结构的复杂信息,通过人力去发现热点话题显得不切实际。尤其是进入大数据时代以来,数据体量大,数据更新速度快以及数据的多样性和真实性给数据挖掘带来了一定的挑战。因此,研究微博的热点话题发现以及演化是一项有价值的课题。如何快速准确的发现整个微博空间中公众讨论的热点话题,并探究这些话题背后的演化规律一直是相关学者的研究目标。目前的研究存在以下不足:一是在热点话题发现方面,建模前的特征选择阶段未考虑到微博的特性,提取的特征不够精确,从而影响话题发现的效率;同时以往的研究中并没有一种适合微博特征的热点话题发现的框架;二是在热点话题演化方面没有一种结合微博话题标签实时地发现话题演化规律的模型,也没有对话题演化规律进行可视化的展示。基于此,本文做了如下改进:(1)提出一种结合微博社交性的热点话题发现框架,主要包括数据预处理、文本表示以及热点话题发现三部分。首先通过数据预处理提取出有意义的词;其次在文本表示阶段考虑了微博的社交性,借鉴H指数的思想提出词项H指数来筛选特征词,通过词项H指数选出的特征词本身就是热点词汇,提高了建模的精度又降低了建模维度,然后对特征词分别通过VSM和BTM建模,将微博表示为“文档-词”向量和“文档-主题”向量,通过文本内部的语义信息弥补了短文本面临特征稀疏的困难。在热点话题发现阶段,通过K-Means聚类算法得出微博的热点话题。最后设计评价标准以及对比实验,通过实验验证了本文提出方法的有效性。(2)提出一种微博热点话题演化模型—标签在线狄利克雷分配模型LOLDA(Label On-line Latent Dirichlet Allocation)。通过运用OLDA(On-line Latent Dirichlet Allocation)可以实时地追踪热点话题演化的优势以及微博独有的“话题标签”的特性提出适合微博的热点话题演化模型,并展示了其生成过程以及参数估计的过程。最后设计实验验证了本文提出的模型较传统模型具有更好地泛化能力。具体过程为:利用Python语言编程爬取新浪微博平台的数据,对原始数据进行数据预处理、利用本文提出的方法提取建模所需的特征词,之后利用LOLDA模型建模,最后从话题强度和话题内容两个方面来分析微博数据的热点话题演化的规律,并对其规律进行可视化展示。
其他文献
近些年来随着自然语言处理任务的不断进步和知识图谱、信息检索等研究领域的兴起,中文自然语言处理任务作为一项基础性研究取得了快速的发展,但在古文领域的研究却极少。我国
随着大数据时代的到来,数据和我们的生活密切相关.数据分析成为高速发展的新领域.基于新兴学科的论文数据,对若干新兴学科的成长轨迹进行分析会为该学科的发展以及未来的走向提供有用的信息和指导作用.本文从多方面对数据科学(data science)与人工智能(Artificial Intelligence)的论文数据进行研究,具体内容如下:(1)基于SCOPUS数据库中data science的论文数据,
医疗信息的共享安全是当前数据时代的热点问题,旨在进行正常交互数据时尽可能保证数据的真实性、完整性以及用户的隐私不被泄露。目前国内医院使用的传统电子病历系统难以实
文化意识是高中英语课程标准中提出的核心素养之一。词汇作为文化意义的载体,含有丰富的文化信息,而词典的主要描写对象是词汇。现有的英语学习者词典对词汇的文化意义关注较
基于GARCH类模型的VaR方法已被应用于诸多金融银行机构的风险研究,近年来受到了各学科的广泛关注。本文立足于利率风险度量,首先综述我国商业银行利率风险管理现状、概念和成
习近平总书记在全国卫生与健康大会(2016)上表明要把人民健康放在优先发展的战略地位,如何提高人民健康水平已上升到国家战略问题。如今,大学生体质健康水平下降已经成为全球
大型文体表演是奥运会开幕式重要组成部分,是团体操基本理念构架的基础之上经过长期的实践发展演变而产生,是奥林匹克运动的发展理念与科技相结合的体系。大型文体表演是结合
太赫兹雷达信号具有大带宽、高分辨等优势,在军事领域如空间目标探测、民用领域如安检等方面都有着十分宽广的应用前景。太赫兹目标散射特性测量是太赫兹技术发展的基础,也是
网球是一项职业化程度很高的运动,合理的选择赛事可以使运动员更高效的提升排名,成为职业网坛佼佼者,因此“选赛”成为我国近几年网球领域的一个研究方向,随着2019年ITF(国际
目的:利用三维CT重建、逆向工程等计算机辅助技术设计脊柱-骨盆联合固定中单侧双枚髂骨螺钉置钉的最优钉道,并进行有限元分析验证。为脊柱-骨盆固定术中个性化置入单侧双枚髂骨螺钉提供理论和技术支持。方法:对1名健康成年志愿者的腰2-骨盆进行薄层CT扫描,将扫描获取的影像学数据以Dicom格式导入mimics16.0软件中进行三维重建后再由solidwork2015软件建立腰2-骨盆的三维有限元模型。依照