【摘 要】
:
LDA(Latent Dirichlet Allocation)模型是近年来提出的一种具有文本表示能力的非监督学习模型.提出了一种基于LDA主题模型的文本相似度计算方法,该方法利用LDA为语料库建模,
【机 构】
:
北京工业大学计算机学院北京100124
论文部分内容阅读
LDA(Latent Dirichlet Allocation)模型是近年来提出的一种具有文本表示能力的非监督学习模型.提出了一种基于LDA主题模型的文本相似度计算方法,该方法利用LDA为语料库建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,挖掘隐藏在文本内的不同主题与词之间的关系,得到文本的主题分布,并以此分布来计算文本之间的相似度,最后对文本相似度矩阵进行聚类实验来评估聚类效果.实验结果表明,该方法能够明显提高文本相似度计算的准确率和文本聚类效果.
其他文献
冷战结束后,我国的边境安全环境发生了很大变化,一些新的挑战逐渐凸现,因此探讨我国新形势下的边境安全战略成为当务之急。本文从政治、经济、军事、文化等方面分析了我国边
在从军事科技转至文化精神的求学历程中,鲁迅时刻警惕科学主义者盲目追求实用效益对于民族精神的无益甚至损害,并将人的研索精神和实践力量推到人们面前。强调文明的发展应是
人群行为分析是计算机视觉领域一个新兴的研究方向,在智能视频监控、虚拟现实、视频检索等方面有着广泛的应用前景和巨大的经济价值。主要从数据库和分析方法两个方面对人群
车型的识别问题是典型的目标识别问题,根据生物视觉与模式识别理论,对车辆车型的检测与识别进行了研究,提出了基于最小错误概率的特征显著性车型识别算法。该算法对车型的多
企业经营面临诸多风险,这些风险相当部分有可能将转化为广义法律风险,从而影响企业的经营与效益。文章首先论述了风险的定义、分类、可控性和风险管理的含义、必要性及风险控
农村居民点布局的调整和格局的优化是新一轮土地利用总体规划的重要内容,对统筹城乡发展、增强区域经济等具有重要的作用,应用ARCGIS空间分析和统计功能技术以及景观指数的定
运用拉康的镜子阶段理论,对艾丽斯.沃克的小说《拥有快乐的秘密》中的女主人公塔希自我身份认同的历程进行分析,从一个全新的角度审视塔希的自我意识的苏醒过程,揭示出后现代
针对贝叶斯网络中多父节点条件概率分布参数学习问题,提出了一种适用于多态节点、模型不精确、样本信息不充分情形的参数学习方法。该方法利用因果机制独立假设,分解条件概率
以关岭-贞丰花江示范区为例,基于主成分分析模型,从生态效益、经济发展水平和社会发展水平3个方面进行评价指标的筛选以及指标权重的确定。最终确定影响生态效益的4个主要评