【摘 要】
:
为了挖掘海量微博数据中潜在的语意信息,通过Gibbs采样方式,并结合Spark分布式计算框架,实现了一种LDA主题模型并行化的算法。该算法针对微博数据的特点,将3层贝叶斯概率模型
【机 构】
:
北京信息科技大学计算机学院,北京拓尔思信息技术股份有限公司
【出 处】
:
北京信息科技大学学报(自然科学版)
论文部分内容阅读
为了挖掘海量微博数据中潜在的语意信息,通过Gibbs采样方式,并结合Spark分布式计算框架,实现了一种LDA主题模型并行化的算法。该算法针对微博数据的特点,将3层贝叶斯概率模型改为用户-主题-词模型;为了满足LDA的并行化处理需求,采用了一种无冲突的数据分割方法将数据集分成了P×P个数据块,将分割好的数据块重新排序整合成P个子集,保证每个子集中均包含P个数据块,对每个子集进行并行采样。从困惑度、收敛速度及加速比3个方面对改进算法与标准LDA算法进行了对比实验,困惑度2种算法的结果接近;在收敛速
其他文献
汽车发动机故障直接影响汽车运行,需要把控常见的故障情况,做好日常维护保养,提升维修的精准度,降低维修成本,提升维修效率,为汽车运行保驾护航。从汽车发动机常见故障的诊断
利用句酷批改网强大的作文自动批阅系统的优势,本研究调查了与传统的过程写作教学法相比,基于网络辅助的写作系统的二语写作自我效能感是否发生了变化。研究结果表明:基于句
相较于印象派电影来说,印象派绘画起源得更早一些。在其把握瞬间印象、抓住事物真实感理念的基础之上印象派电影得到了长足的发展。但后继而来的先锋派电影人却没有承继印象
为了扶持小微企业的发展,我国多年来连续出台相关的税收优惠政策,执行效果良好。本文在国家出台的小微企业税收优惠政策的背景下,以广西北部湾经济区小微企业为研究对象,研究
企业文化是一个民族的重要根基,创新则是文化的灵魂。设计,作为任何创新实施的源泉,正以其独特的魅力,在各行各业中发挥着巨大的产业价值。设计肩负着国家创新和城市建设、经
植入式广告作为一种新兴的广告模式,被广泛地应用于影视作品当中。在获得经济利益的同时,也让观众们"不能承受广告之重"。《杜拉拉升职记》中的广告植入更是过多过滥、盲目植
<正>自上世纪八十年代中期以来,丹阳市养蚕环境被有毒化学物质污染而导致蚕中毒死亡或不结茧的现象常有发生。进入本世纪,生态环境污染更为严重,至2005年的六年中,丹阳市秋蚕
多元统计分析作为经典统计学发展中的重要分支,对社会宏观经济管理具有重要的作用,影响国民经济总体及其经济活动的状态。本文主要通过阐述多元经济分析方法的主要内容,探讨
目的:观察清神醒脑汤联合丙戊酸镁缓释片治疗双相情感障碍躁狂症的临床疗效。方法:选取97例双相情感障碍躁狂发作患者,随机分为两组,对照组48例,观察组49例。对照组口服丙戊