基于MapReduce的并行LAD模型评论主题提取算法研究

来源 :福州大学学报:自然科学版 | 被引量 : 0次 | 上传用户:cjp023
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统的潜在狄利克雷分析(LDA)模型在提取评论主题时存在着计算时间长、计算效率低的问题,提出基于MapReduce架构的并行LAD模型建立方法.在文本预处理的基础上,得到文档-主题分布和主题-特征词分布,分别计算主题相似度和特征词权重,结合k-均值聚类算法,实现评论主题提取的并行化.通过Hadoop并行计算平台进行实验,结果表明,该方法在处理大规模文本时能获得接近线性的加速比,对主题模型的建立效果也有提高.
其他文献
根据框架的最大鲁棒度的定义,给出框架的最大鲁棒度的性质,并讨论经过一些矩阵扰动后框架最大鲁棒度的变化.对fusion框架的最大鲁棒度的上界进行估计,得到经过一些特殊扰动后
课堂辩论这一教学形式的引入,为我们的语文课堂注入了一股新的活力,增添了一抹新的色彩。它以开放、灵动和新颖的特点,受到广大学生的喜爱。学生在积极的争辩中,碰撞了思维,迸发了情感,展示了个性,同时又很好地锻炼了学生的言语能力,提高了学生口语交际水平,可谓是一举数得。但在平时的教学中,笔者发现一些“变”了味的辩论,与我们的初衷相去甚远。  【案例1】《将相和》教学片段  师:如果秦王叫兵士来抢蔺相如手中