DOLDA模型设计与主题演化分析

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:sfwyb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为解决OLDA模型挖掘大规模文档主题时计算效率低下和不能发现新主题的问题,提出一种分布式的DOLDA模型(distribute online LDA,DOLDA)。建立分布式矩阵存储主题-词项,设计一种动态负载均衡策略来提升计算速度和线程调度的性能,根据Zipf定律结合主题的遗传度提出一种文档权值设置方法。在Spark分布式计算平台的实验结果表明,相比OLDA模型,DOLDA模型能够提高近16%的加速比,有效地在线分析主题的演化。
其他文献
没有一个国家能像美国那样从全球化中受益良多.经济实力迫使其它国家开放它们的市场,降低关税,接受外国直接投资,购买美国的产品并且采用美国的技术.但全球化也给美国的卓越
为加速科技成果产业化和商品化,提高技术竞争力,促进技术跨地域、跨国家、跨行业的交易,韩国政府于2000年1月颁布实施<技术转移促进法>,在计划制定、专门机构组建、经费支持
虚拟经济概论1.什么是虚拟经济虚拟经济是资本独立化运动的经济,它是用于描述以票券方式持有权益并交易权益所形成的经济活动的概念,在现代经济中,它主要指金融业.虚拟经济不
卫星遥感影像是高性能获取空间信息的应用技术,在社会经济各个领域发挥了重要作用。当卫星进入轨道后,随着在轨运行时间的增加,受外部宇宙环境和自身元器件老化等因素的影响,
2003年全球转基因作物生产概况1.主要国家转基因作物的种植面积国际农业生物工程应用技术采购管理局的统计资料显示,2003年全球共有美国、阿根廷、加拿大、中国、南非、澳大
政策和机构设置措施韩国各地方科技发展水平差距很大.这与政府的投入和政策导向有很大的关系. 20世纪90年代以前政府对地方的开发投入重点在交通、住宅、环境、水利等基础设
模糊C均值聚类算法(fuzzy C-means,FCM)存在不适定性问题,数据噪声会引起聚类失真。为此,提出一种迭代Tikhonov正则化模糊C均值聚类算法,对FCM的目标函数引入正则化罚项,推导最
2017年11月17日至11月19日,第十二届全国双语词典学学术研讨会暨第五届词典学与二语教学国际研讨会在天津市召开。本届会议由中国辞书学会双语词典专业委员会主办,河北工业大
随着全球经济化的到来,特别是中国加入WTO,为我国企业的发展创造了诸多的发展良机.然而,在发展的过程中,企业家们却面临着一个共同的困境,那就是国内企业的人才流动率居高不
以增值税转型为前奏,2004年我国将加快推进税制改革.新一轮税制改革给我们最直接最强烈的信号就是"减税",改革的总体思路中很重要的一条就是"低税率"."简税制、宽税基、低税