【摘 要】
:
针对传统的潜在狄利克雷分析(LDA)模型在提取评论主题时存在着计算时间长、计算效率低的问题,提出基于MapReduce架构的并行LAD模型建立方法.在文本预处理的基础上,得到文档-主
【机 构】
:
武警工程大学研究生管理大队,福州大学物理与信息工程学院
【基金项目】
:
国家自然科学基金资助项目(61471124)
论文部分内容阅读
针对传统的潜在狄利克雷分析(LDA)模型在提取评论主题时存在着计算时间长、计算效率低的问题,提出基于MapReduce架构的并行LAD模型建立方法.在文本预处理的基础上,得到文档-主题分布和主题-特征词分布,分别计算主题相似度和特征词权重,结合k-均值聚类算法,实现评论主题提取的并行化.通过Hadoop并行计算平台进行实验,结果表明,该方法在处理大规模文本时能获得接近线性的加速比,对主题模型的建立效果也有提高.
其他文献
根据框架的最大鲁棒度的定义,给出框架的最大鲁棒度的性质,并讨论经过一些矩阵扰动后框架最大鲁棒度的变化.对fusion框架的最大鲁棒度的上界进行估计,得到经过一些特殊扰动后
课堂辩论这一教学形式的引入,为我们的语文课堂注入了一股新的活力,增添了一抹新的色彩。它以开放、灵动和新颖的特点,受到广大学生的喜爱。学生在积极的争辩中,碰撞了思维,迸发了情感,展示了个性,同时又很好地锻炼了学生的言语能力,提高了学生口语交际水平,可谓是一举数得。但在平时的教学中,笔者发现一些“变”了味的辩论,与我们的初衷相去甚远。 【案例1】《将相和》教学片段 师:如果秦王叫兵士来抢蔺相如手中