论文部分内容阅读
关键词是代表文章重要内容的一组词。对文本聚类、分类、自动摘要等起重要的作用。此外,它还能使人们便捷浏览和获取信息。现实中大量文本不包含关键词,自动提取关键词技术有也因此重要意义和价值。本文分析了关键词提取的三个重要方面:1、候选的选取;2、候选信息的分析。3、基于所获信息的关键词提取算法。
围绕着这三个方面,首先本文介绍了LDA模型及其参数估计方法。结合主题模型的生成过程,提出了首先利用主题模型进行关键词提取的算法。然后,提出了一种基于词义相似度提取关键词的算法。通过在网络上检索解释词语对应文本,计算文本的相似度来获得词义相似度。利用聚类算法将词语分成类别,在每个类别中选择代表性的词作为关键词。最后,本文使用无参数贝叶斯模型尝试解决候选选取的相关问题。
在信息选取方面,本文考虑在统计信息之外,在引入词义信息方面进行了相关尝试。研究了基于LDA的主题分析技术以及通过网络获取词语的解释文本来计算词语间的相似度。
在算法方面,本文研究了利用主题模型生成过程,以及结合词语自身特征提
取关键词的算法。本文还研究了基于文本间的相似度。使用聚类技术,将候选词分为重要类别,综合词义表示与统计特征,从每个类别中选出一个代表词作为关键词。
在候选提取阶段,未登录词对分词会造成的影响,为了尝试解决非登陆词识别问题,文还研究了基于贝叶斯的无指导分词。探索了Dirichlet过程,以及层次Dirichlet过程的应用。