基于LDA和随机森林的活跃微博预测研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:chicagousa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的快速发展,微博以其丰富及时的信息、舒适的用户体验在人们的生活中被广泛应用。微博已经成为人们信息交流、展示自我的一个重要平台。当下,微博平台的用户规模巨大,而且涵盖的社会阶层十分广泛。微博用户每天在微博平台产生海量内容,这些内容既有普通民众对日常生活的记录分享,也有政府、企业以及其他组织发布的关于社会事务的公告。总的来说,对社会热点事件的关注与探讨才是微博平台的主流,从这个意义来说,微博是当下社会的一个缩影。鉴于微博平台如此巨大的社会影响力,微博活跃内容的及时掌控对微博平台的内容分发控制、网络舆情管理有着及其重要的理论意义和应用价值。目前微博预测已经成为研究热点,其涉及的范畴也非常广泛。本文就活跃微博的预测进行了研究,研究的主要内容包括研究问题建模和解决问题的基于LDA和随机森林的活跃微博预测模型。对于研究问题建模,本文首先分析了和微博“互动”相关的三个操作(点赞、转发、评论),并通过权重求解的方式构建了微博互动的数学模型;然后本文分析了微博活跃度和互动值以及微博活跃度与粉丝数之间的相关性;最后给出了微博是否活跃的数学判定模型。对于活跃微博预测模型,本文首先根据影响微博活跃因素的分析以及研究特体的特殊性分析,设计了爬虫并爬取了相关微博数据。然后基于预处理后的数据集,本文利用微博活跃判定模型对微博是否活跃进行标注,构造特征集。接着本文使用LDA建模的方式的对微博博文的主题进行发掘,经过Gibbs采样之后获得文档-主题的概率分布矩阵,概率矩阵经过离散化处理之后并入原始特征集获得优化后的(即包含主题信息的)特征集。对于预测模型的算法选择,本文基于微博平台的的数据特点,对比分析了多种预测算法;然后选择了和数据特点契合度较高的随机森林模型;最后本文对随机森林算法进行了平衡化处理。最后本文在模型训练、参数调优的基础上,采用对比实验的方式对本文的活跃微博预测模型进行效果验证。实验结果表明,本文提出的基于随机森林算法和LDA主题模型的活跃微博预测模型取得了良好的预测效果,是切实可行的。
其他文献
近年来玉林市加大了旅游业的发展力度,无论景区、景点建设,还是旅游基础设施、旅游服务业都取得了显著成效,为促进玉林旅游业的发展,作者提出了通过城市旅游模式建设促进玉林
地基设计和岩土工程勘察与建筑质量之间有着必然的联系,目前建筑质量问题是社会关注的焦点,为了能够有效地提高建筑水平,我们必须要做好基本的地基设计和岩土工程勘察工作。
该文以一种有效的方法寻找出有价值的微博评论,这对于读者更高效地阅读评论,为舆情分析、文本挖掘等任务提供支持,均具有重要的应用价值。针对微博及其评论文本短小、内容发
现如今,我国的岩土工程勘察以及地基设计在建筑行业当中获得了不小的成就,可是,仍然存在不足。因为我国建筑行业起步晚,同时并没有先进的工程技术以及充足的工程技术应用的经
随着互联网和计算机技术的不断进步,信息的数量不断爆炸式增长,导致了普遍的“信息过载”问题。在信息大爆炸的今天,人们迫切需要解决的问题就是如何高效处理并使用这些信息
卡拉麦里地区石炭纪以来的岩石地层系统由三大套构造岩石地层单位构成,分别是以劈理、紧闭褶皱极为发育的卡拉麦里蛇绿混杂岩带为代表的造山带基底层系,以开阔褶皱为主要构造
地壳风化速率研究的理论基础是质量守恒原理和溶液与矿物反应动力学法则。元素在风化过程中的行为受多种因素控制 ,主要包括基岩风化量、大气沉降量、径流量、生物的输出数量
要达到培养具有良好职业道德的高技能人才的目标,高等职业教育必须高度重视学生实践能力的培养。面对新时期的学前教育专业,完善的专业实训教学体系是培养合格人才的重要保障
审计"免疫系统"论的提出,对在新的市场经济社会形势下审计理论研究和审计实务发展都提供了一个新的机会。本文从政府审计保障国家经济社会安全运行出发,提出了现代风险导向审
本文定义了广义线性变换,并研究了它的若干性质。