【摘 要】
:
LDA(Latent Dirichlet Allocation)模型是近年来提出的一种能够提取文本隐含主题的非监督学习模型.通过在传统LDA模型中融入文本类别信息,文中提出了一种附加类别标签的LDA模
【机 构】
:
中国科学院软件研究所,中国科学院研究生院
【基金项目】
:
国家自然科学基金项目(60773027);国家自然科学基金重点项目(60736044);国家“八六三”高技术研究发展计划重点项目基金(2006AA010108)资助~~
论文部分内容阅读
LDA(Latent Dirichlet Allocation)模型是近年来提出的一种能够提取文本隐含主题的非监督学习模型.通过在传统LDA模型中融入文本类别信息,文中提出了一种附加类别标签的LDA模型(Labeled-LDA).基于该模型可以在各类别上协同计算隐含主题的分配量,从而克服了传统LDA模型用于分类时强制分配隐含主题的缺陷.与传统LDA模型的实验对比表明:基于Labeled-LDA模型的文本分类新算法可以有效改进文本分类的性能,在复旦大学中文语料库上micro-F1提高约5.7%,在英文语料库20newsgroup的comp子集上micro-F1提高约3%.
其他文献
航天技术的进步极大拓展了人类认识太空的广度和深度,随着人类对太空开发和利用程度的不断加深,空间已经成为一种战略资源和高地,现代卫星通信、遥感、定位等技术离不开空间
介绍了目前正在使用的X-射线成像屏、X-CT和PET等核医学成像技术的原理及其探头对无机闪烁体的性能要求,展示了几种最有发展前景的无机闪烁晶体——硅酸镥(LSO)、铝酸镥(LuAP
用快速凝固方法成功地获取了宽100mm、厚0.1mm 的 Cu-12Al-4Ni 形状记忆合金带。用DSC 法测得热弹性马氏体相变温度为 M_s=286℃、M_f=258℃、A_s=266℃、A_f=284℃。用透射
近几年,一项独立于公证业务的非诉讼法律服务,已在公证行业中悄然兴起。国务院批转的《关于深化公证工作改革的方案》中指出:“公证机构要改变单一证明的工作方式,努力拓展
研究了 TiFe_xCry 三元合金的贮氢性能。通过微机处理得到了放氢量、一次活化率与合金成份之间的定量关系,并对晶格参数和电子浓度的变化进行了讨论。
随着社会经济的不断发展,人力资源配置精细化趋势日益明显,随之而来的问题也将会出现,而在一定程度上,体育人力资源配置的总体情况还不能满足当前的现状,主要表现在数量的不
事实问题与法律问题的区分对于知识产权审判有重要意义,也是我国知识产权审判长期面临的难题。原因在于审判实践中,事实问题与法律问题往往相互交织,事实与法律的混合问题广
<正>民意与司法既是一个热点话题,也是一个难点问题,特别是近年来发生的"许霆案"、"药家鑫案"、"韩群凤案"、"李昌奎案"等一系列案件更是将两者推上了风口浪尖。此情此景引得
小微企业在促进社会经济发展、解决社会就业方面发挥着越来越重要的作用,但近年来小微企业贷款风险暴露严重,加剧了小微企业融资难等问题,各商业银行等金融机构纷纷利用大数
网格是开放的分布式系统,具有自治、动态和可扩展特性.在 Internet环境下实现网格系统必须解决大规模资源共享与协同问题,也就是如何将 Internet上无序的资源有序组织的问题.