论文部分内容阅读
针对Kert算法在中文主题关键短语提取结果精确率低、短语歧义性强和主题刻画能力弱等问题,提出一种基于Kert改进后的中文主题关键短语提取算法。该方法首先引入L统计量重构原分词算法,使得原分词算法具备一定的新词识别能力以减少分词后的词语歧义性,然后使用顺序合并代替Kert中的频繁模式增长(FP-Growth)解决候选关键短语集合中短语语序颠倒的问题,最后在此基础上加入改进后的约束排序算法后提出更加有效的中文主题关键短语提取算法。通过与多组近年比较经典的主题关键短语提取算法的对比实验表明:改进算法在提取的精确