论文部分内容阅读
为提升文本关键词提取准确率和效率,提出一种基于LightGBM的文本关键词提取方法。该方法通过TF-IDF提取候选关键词,利用Word2Vec计算词向量,并采用特征工程,对候选关键词进行特征提取,再经由LightGBM算法将关键词提取转换为二分类问题。通过实验对比TF-IDF算法、TextRank算法、LDA算法及LightGBM算法对文本关键词提取的准确率P、召回率R及F1。结果表明,当TopN取2~5时,F1平均值比最优方法提升4.8%。该方法抽取效果整体上均优于实验选取的对比方法,证明将特征工程与L