【摘 要】
:
微博作为目前最受欢迎的移动社交软件之一,俨然已成为社会网络舆论的焦点。在当今社会,关注度就是财富密码,有了大量的关注,人们就可以从中获取各种各样的利益,但也因此让不法分子有机可乘,比如传播假新闻、实施网络暴力等。因此很多学者对微博话题热度的预测方法进行了深入研究,这些研究也为微博平台上的社会舆情监督和网络营销带来了帮助。然而目前几乎所有关于微博话题热度预测的研究都忽略了微博话题热搜榜对话题热度的重
论文部分内容阅读
微博作为目前最受欢迎的移动社交软件之一,俨然已成为社会网络舆论的焦点。在当今社会,关注度就是财富密码,有了大量的关注,人们就可以从中获取各种各样的利益,但也因此让不法分子有机可乘,比如传播假新闻、实施网络暴力等。因此很多学者对微博话题热度的预测方法进行了深入研究,这些研究也为微博平台上的社会舆情监督和网络营销带来了帮助。然而目前几乎所有关于微博话题热度预测的研究都忽略了微博话题热搜榜对话题热度的重要影响,很多时候一个话题是否能进入热搜榜对其热度发展有着至关重要的影响,进入热搜榜的话题能够得到巨量的曝光度,可能会使其未来的热度不断激增,而没能进入热搜榜的话题,即使其初期有一定热度,但之后其热度极可能会迅速衰落下去。本文的研究重点着眼于微博话题热搜榜这一微博中的重要机制,根据话题极早期的数据去预测未来该话题能否进入热搜榜,并在此基础上预测进入热搜榜的话题是否能发展为热门话题。本文首先对微博话题热度影响因素和话题热搜榜的特点进行了深入研究和分析。通过大量统计分析,本文发现绝大部分话题在刚刚登陆热搜榜时一般会有20-40个微博或用户参与其讨论,且这些用户中有一部分是意见领袖。然后本文基于从微博平台采集的4804个话题,共192160个微博进行了实验分析,使用本文改进后的基于多元复杂时序特征提取和数据挖掘模型的方法对话题热度进行预测,实验结果表明本文的方法相较于原方法获得了更高的预测精度,最后本文还分析了在话题热度预测中起重要作用的特征。本文主要有以下几个创新点:第一,以前的研究主要偏向于预测话题未来具体某个时刻的热度,这样得到准确率不会太高,且这样的研究在现实生活中的意义也不是很大,而本文针对以前的研究中忽视的微博热搜榜这一重要机制进行研究,将话题热度分成三个等级:即不能登陆热搜榜的话题,登陆热搜榜但流行度一般的话题,登陆热搜榜且流行度很高的话题,并对其进行预测。第二,在现有的研究中预测方法大致可以分为三种:基于热度时间序列的相似比较法、基于热度时间序列的离散分解和数据挖掘模型的方法、以及基于影响因素的多元特征提取和数据挖掘模型的方法,本文所使用的方法属于其中第三种,并在以前的研究基础上对其特征提取方法做了一点改进,以前的文献中主要使用多元简单描述统计特征提取方法,该方法无法让模型充分学习话题数据的时序特征,而本文采用的多元复杂时序特征提取法,如对原始特征求排列熵、近似熵、线性回归分析、自回归系数、一阶差分平均值等,可以充分提取话题数据的非线性、周期性、波动性、不可预测性等特征,从而提高模型的预测精度。第三,另外本文还加入了一些以前的研究中没有使用过的一些新特征,比如用户的微博认证类型、微博等级以及阳光信用等级等特征,还有话题的主题文字中是否包含‘回应’、‘发声’、‘声明’等关键字特征,这些特征的加入有助于提取更多有帮助的信息。
其他文献
2008年金融危机之后我国采用的“加杠杆”措施以及2012年后资管行业政策的宽松,促进了资管行业快速发展,同时也造成行业风险积聚。为控制种种乱象,2017年11月17日,《关于规范金融机构资产管理业务的指导意见(征求意见稿)》发布,次年4月27日,资管新规正式稿发布。标志着资管行业进入统一监管的时代。虽然2021年前仍然处在资管新规的过渡期内,但资管新规的影响早已不容忽视:银行理财资产投资于标准化
随着证券交易系统信息化程度的提高和各类计算机通信技术的发展,投资者在进行投资时实现了信息获取的及时化和证券交易的便捷化。同时这也丰富了学者们进行金融研究的视角,使得他们能够更方便地使用日内高频信息进行建模和分析。在波动率的研究中,GARCH模型和SV模型一直以来都是研究的热点,然而这些模型多使用日频数据进行建模,如此一来便失去了较多日内信息,也不能对日内波动进行分段分析和预测。为了实现对日内高频数
债券违约,在我国主要是针对公司信用类债券而言,是指企业对其发行的一般企业债券、公司债券和非金融企业债务融资工具无法按时偿还本息。债券披露是发债主体和中介机构在债券存续内发布的关于发债主体各方面变动情况的信息,以数字和文本的形式对投资者做出关于企业偿债能力的说明。近年来,我国债券市场风险不断显现,债券违约事件层出不穷,不仅损害了投资者的利益也不利于市场的健康发展。本文主要研究债券披露文本特征与债券违
预算报告文本是各级政府展现一年收支情况计划的重要载体。在管理型政府向服务型政府转型过程中,政府公开的信息也越来越多,预算报告文本无疑是其中重要的公开材料,能够让民众了解到政府打算花多少钱,打算怎么花钱。预算报告文本是否规范,会影响到民众获取预算信息的效率,影响了民众获取预算信息的数量。因此,探究一份预算报告文本的规范性评价指标、当前中央和省级政府的预算报告文本规范性程度就显得非常必要,这有利于加强
本翻译实践报告的材料为非裔美国作家兼教师艾丽西娅·D·威廉斯(Alicia D.Williams)所著儿童文学作品《吉妮西丝的成长故事》(Genesis Begins Again)(节选)。该书讲述了13岁的非裔美国女孩吉妮西丝(Genesis)克服因深黑肤色、外貌、种族身份而遭受的偏见与蔑视,经历了从自我憎恨到自我认可的变化过程,最终与自己和解的故事。因该作品围绕主人公的身份迷失展开,展示了主人
中国债券市场历经40年发展,现已成为我国重要的金融市场。然而自2014年债券刚性兑付局面被打破后,债券违约也进入常态化阶段,中国债券的违约风险逐渐以更明显的方式暴露于市场参与者面前。在债券违约风险凸显的背景下,中国的信用评级质量却饱受争议,建立新的有效方法以合理识别和控制违约风险具有现实意义。本文借助被广泛应用的机器学习模型,研究债券违约及相关负面事件预测问题,以求有效识别和降低投资者面临的债券违
我国股市成立于上世纪九十年代初,从成立之初到现在已经经历了近30年的历史。在这30年里,我国股市发展速度非常之快,到目前为止沪深A股上市公司已经达到了4186家,总市值80万亿。然而在这30年的快速发展过程中,我国股市也暴露出了许许多多的问题。大量的投机行为和股市波动大是我国股市最明显的特征。不少学者将投资者的投机行为和股价波动大的问题归因于上市公司不合理的股利政策。目前我国仍然有接近三分之一的上
风险管理起源于上个世纪50年代,并于上世纪60年代正式形成,随着经济全球化的深度推进,金融风险管理的需求也在逐渐升级,自2018年3月以来的中美贸易战不仅对实体经济带来了冲击,也使得中国金融市场上的风险上升。2020年3月沙俄的石油价格战导致全球股市的震荡。2020年以来的新冠疫情致使全球经济衰退,即便根据最新的报告预测,在2021年全球经济将增长4%,但由于仍存在大量的风险,经济复苏依旧较为缓慢
【目的】从供需双方的角度了解朝阳区社区卫生服务中心医养结合养老服务的供应现状和存在的问题以及朝阳区老年人对社区卫生服务中心医养结合养老服务的需求和利用现状及影响因素,为服务的发展提供建议。【方法】本研究的方法包括政策梳理和现场调查。政策梳理方面,上网查询相关部门自2013年以来出台的医养结合养老服务的政策文件,按发文内容进行梳理。现场调查方面,采用自行设计的访谈(电子邮件调查)内容,于2019年9