自然语言处理中主题模型的发展

来源 :计算机学报 | 被引量 : 0次 | 上传用户:echoifanfan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主题模型在自然语言处理领域受到了越来越多的关注.在该领域中,主题可以看成是词项的概率分布.主题模型通过词项在文档级的共现信息抽取出语义相关的主题集合,并能够将词项空间中的文档变换到主题空间,得到文档在低维空间中的表达.作者从主题模型的起源隐性语义索引出发,对概率隐性语义索引以及LDA等在主题模型发展中的重要阶段性工作进行了介绍和分析,着重描述这些工作之间的关联性.LDA作为一个概率生成模型,很容易被扩展成其它形式的概率模型.作者对由LDA派生出的各种模型作了粗略分类,并选择了各类的代表性模型简单介绍.主题模型中最重要的两组参数分别是各主题下的词项概率分布和各文档的主题概率分布,作者对期望最大化算法在主题模型参数估计中的使用进行了分析,这有助于更深刻理解主题模型发展中各项工作的联系.
其他文献
对图书馆家具及设备基本构成进行简要分析,介绍图书馆家具和设备的使用与管理现状,探讨图书馆家具及设备管理的标准化、科学化、信息化建设问题,最后对图书馆的家具及设备管
李克强总理首次提出的“互联网+”实际上是知识社会创新2.0推动下的互联网具体表现承载方式的演进,也是是创新2.0下互联网发展新形态、新业态。当今整个社会前进,知识的累积
本文试图通过研究近几年来汉字偏误分析的文章,主要参考了这方面研究的七篇文章,也参照几篇相关的论文,从而对泰国学生汉字偏误研究进行一个宏观的综述。
目的探讨B型超声在脂肪肝诊断中的应用价值。方法选取2013年10月至2014年10月在医院电诊科行B型超声检查的86例脂肪肝患者资料,对其临床及影像资料进行分析。结果 86例脂肪肝
雌激素减少导致的骨丢失增加是绝经后骨质疏松症的主要发病原因,OPG-RANKL-RANK系统的发现是骨骼生理研究领域的重大进展,作为雌激素对骨骼作用的中间环节,在绝经后骨质疏松
数据关联是Web服务的输入输出数据之间存在的对应关系,它反映了服务与服务在业务逻辑上的相关性,这种相关性信息对于服务组装、服务发现等任务具有重要的意义.已有的数据关联
双胎输血综合征是双胎妊娠的一个主要并发症,主要发生于单卵单绒毛膜双胎妊娠,围产儿死亡率极高。现代治疗技术的应用明显减少了双胎死亡率和脑瘫等严重并发症的发生率。早期
普莱西案确立了美国公共教育种族隔离的合法性,它的产生植根于美国南方公共教育的发展过程之中。内战之前,美国南方公共教育的萌芽中就包含着种族隔离的因素;重建时期,尽管南方白
在商业广告中 ,人们经常使用音乐这一表现手段来唤起消费者的感情共鸣 ,并进一步把他们的注意力引导到广告所要推销的商品或所提供的服务信息上。商业广告音乐不仅影响着消费
<正> 2002年初,美国陆军从通用汽车公司/通用动力公司地面系统分公司防务集团那里接收了首辆LAV Ⅲ 型8×8轻型轮式装甲车(美国至少将订购2131辆),该车将交付目前正在组建中