基于评论与转发的微博联合主题挖掘系统的设计与实现

被引量 : 0次 | 上传用户:flscut
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,微博作为一种新的网络媒体形式,在人们获取新闻、消遣娱乐等日常网络行为中扮演着越来越重要的角色。与传统书面文章相比,微博文本简短、转发评论实时性强、话题传播速度快、关注度高,这使得微博数据成为新的热门研究对象。微博主题检测技术是研究如何对大量的微博数据信息进行管理分类,这己经成为当前微博研究中最热门的方向之一。主要工作内容如下:(1)微博文本简短、信息量少且语法随意,传统主题分类并不理想。Labeled LDA在LDA主题模型上附加类别标签,协同计算隐含主题分配量使文本分类效果有所改进,但标签在处理隐性主题或主题词频相近的微博分类上,存在一定的模糊分配。本文提出的Union Labeled LDA模型通过引入评论转发信息丰富Label标签,进一步提升标签监督下的主题词频强度,一定程度上显化隐性微博、优化同频词汇的主题分配,采用吉布斯采样的方法求解模型。(2)本文还探讨了如何快速便捷地利用微博开放平台的API接口实现获取微博数据及其评论与转发信息。设计递归算法合理地对微博进行读取和分词,并设计相应的数据库结构进行存储。另外,本文还考虑针对微博特点的数据预处理、网络符号替换和情感词扩充,使主题模型的输出更加准确,并能识别微博作者的一些情感色彩。综上所述,论文主要工作集中在通过引入评论转发信息,研究分析微博独有的结构,定量提高中心主题标签出现的频率,来改进Labeled LDA的监督训练过程,并对主题相关性进行数学定义和定量分析。系统实现环节围绕微博开放平台API的数据采集、数据预处理、Label标签的矢量叠加三个方面进行了探讨与研究,在传统主题模型方法基础上得到更准确的文章与主题、主题与词汇的概率分布。最后,对比分析新模型和传统主题模型的输出结果,并分析调整新模型自身相关性参数的设置。
其他文献
娱乐新闻节目是根据现代大众娱乐消遣需要生产出来供其消费的信息产品。随着人们日益迅速增长的文化娱乐需要,如何运用独特和另类的方法创造健康积极、多样性和创新的娱乐新
<正>针灸与方药都是中国传统医学的重要组成部分,两者虽然属于不同的治疗手段,但在辨证施治、治疗原则、禁忌及注意事项等多方面具有内涵性的联系,临床可以取得异曲同工之效[
胃食管反流病(GERD)是指胃内容物反流入食管引起不适症状和(或)并发症的一种疾病。本病是临床常见病、多发病、疑难病,长期反复发作严重影响了患者的身心健康及生活质量。中
封禅是中国历史上极具特色的文化现象之一。但前人对"封禅文献"的整理和研究还未成系统。汉代是中国历史上封禅次数最多的时期,整理研究此期的封禅文献,可以为了解封禅文化与
Control systems over the wireless network have emerged considerably and showed many benefits such as no tiresome work of wiring, simple and economical system co
作为一种新兴的网络信息传播方式,微博已经成为当代大学生思想与情感表露的一个主要平台。本研究通过对全国高校大学生微博内容的整理,从社会、个人和积极、中立、消极五个维
福柯认为,从19世纪开始,西方资本主义社会以科学话语为构形本质的真理话语建构了正常与不正常生存的界线。这是一种可以杀人的真理刀。这个新型权力就是我们今天称之为"管理
<正>第一,养成随读、随录词汇的习惯可大大延展既有的词汇库。词汇是意义字符间的精巧搭配和活用。它是一个汪洋大泽,是不着边际的。所以大家要在浓郁的读书乐趣中,持之以恒
期刊
<正>痞满为临床常见消化系统疾病,以自觉心下痞满,胸膈胀满,按之濡或硬,压之不痛或微痛为主要症状。临床多表现为虚实相兼,寒热错杂,故辨痞满须辨清寒热虚实,虚实中亦有寒热