论文部分内容阅读
针对目前少数民族语言方面热点关键词提取算法研究较少,而且精度和效率不高这一问题,提出一种哈萨克文网络热点关键词提取方法。将预处理后得到的文本利用多重因子加权改进的TF-IDF算法进行关键词提取,后续根据其位置和频率信息进行关键词组配,得到候选热点关键词集合;结合TF-PDF算法和媒体关注度思想,构造关键词热度评分标准公式KHD(Keywords Hot Degree),实现对热点关键词的提取。实验结果证明此方法可行有效,并且在提取精度和效率上都有显著提高。