基于种子词汇的话题标签抽取研究

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:c1b2n3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统话题模型用词项概率分布表示话题,在可解释性上存在很大的不足。该文在Latent Dirichlet Allocation(LDA)的结果上提出了一种基于种子词汇的话题标签抽取方法。首先根据提出的权重计算公式抽取每个话题的种子词,然后,采用bootstrapping思想,迭代产生包含种子词汇的关键短语集合,最后根据短语的完整性和泛化度选择话题标签。该文对两会报告话题和新闻事件话题进行实验,通过结果展示和人工评测,该方法抽取的话题标签能够较准确地表达话题的语义信息。
其他文献
高中物理已经具备了一定的难度,我们高中生在解题的过程中经常会遇见一些问题。现在,在老师的引导下利用推理法,有效提升了解题效果。因此,本文针对推理法在高中物理解题中的应用做出了进一步探究,对归类推理的应用、类比推理的应用、演绎推理的应用给出了具体的分析。  在高中的物理学习中,知识结构和内容会相对更复杂一些,经常会出现比较繁琐的计算,我们在解题的过程中会遇到各种各样的困难。所以,为了将自己的解题能力
互联网技术的飞速发展,把人们带入了信息时代.开放、自由、国际化的互联网给政府机构、企事业单位带来了革命性的改革和开放,不仅提高了办事效率和市场反应能力,也使之更具竞
藏语句子边界的正确识别是藏文文本处理首先要解决的问题。而藏语书面语中标点符号的特殊性是造成藏语句子边界识别困难的主要原因。该文主要对现代书面藏语中常见的以藏语助