论文部分内容阅读
关键词在文本聚类/分类、自动摘要、信息检索等领域具有重要地位,然而当前互联网上的众多新闻网页没有提供关键词,人工标注关键词代价巨大,并且大多数已有的关键词自动提取算法都需要建立在人工标注的训练集之上,因而难以实用。由于关键词是文章中较重要且主题关联较凝聚的词的集合,因此提出一种基于密度聚类模式的中文新闻网页关键词提取方法,根据词语之间的共现信息,对网页分词后的词语进行聚类,在分析词语关联度的基础上提取出反映新闻主题的关键词。通过大量随机新闻网页实验结果表明,与单纯的TF/IDF(词频和文档频率倒数的乘积)