基于词语网络的关键字提取策略研究

被引量 : 0次 | 上传用户:zhyjrr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关键字是表述文档中心内容的词汇,是计算机系统标引论文内容特征的词汇,是便于信息系统汇集以供读者检索的词汇。关键字提取是文本挖掘领域的一个分支,是文档检索、文档比较、摘要生成、文档分类和聚类的基础性工作。关键字提取算法可分为两类:基于训练集的关键字提取策略和不需要训练集的关键字提取策略。基于训练集的方法将关键字提取视为分类问题,通过将文档中出现的词语划分到关键字类或非关键字类,再从关键字类中选择若干个词语作为关键字,该类算法由Peter.D.Turney首次提出,其技术已日趋成熟。不需要训练集的算法,可分为以下四类:基于统计的方法,如频率统计;基于词语图的方法,如KeyGraph;基于词语网络的方法,如中介性指标(BC,Betweenness Centrality);基于SWN的方法;上述四种方法都是建立在词频统计基础上。基于统计的方法简单快速,能够提取高频词语,却忽略对文档具有重要意义但出现频率不高的词语,因此提取的关键字具有片面性。基于词语图的方法需要设定的参数过多,如顶点数、边数等,因而常造成边界上的取舍问题,影响算法的稳定性和精度。基于SWN的方法是以平均距离长度为关键字提取依据,而SWN理论以连通图为基础,故对非连通的文档结构图,无法衡量顶点的重要性,也无法正确地提取文档关键字。本文主要研究基于词语网络的关键字提取算法,在分析已有基于词语网络的关键字提取算法的基础上,针对存在问题,提出一个新的基于词语网络的英文文档关键字提取策略,采用节点删除指标度量顶点(词语)的重要性。所提取的关键字不仅包括高频单词和短语,而且包括对文档中心内容贡献大但出现频率不高的单词和短语。实验数据来自KEA和Extractor算法中的测试数据集,及世界著名的科技出版集团之一——德国施普林格提供的学术期刊及电子图书的论文为测试数据。以论文作者提供的关键字为基准,采用平均准确率和平均召回率作为衡量提取效果的依据,通过将本文算法的实验结果与TF和BC算法的实验结果相比较,证明了本文算法的正确性和有效性。
其他文献
<正>自理性,是一种对孩子终身发展有用的素质,是一种非常重要的素质。儿童成长的最终目标就是成为独立生存、适应环境的个体。有人认为:目前在我国,独生子女普遍以升学为目的
虚拟现实正在成为一种新的计算手段,它在国防、科学研究、工程设计和制造业等许多重要领域有着广泛的应用前景。从交互的观点看,虚拟现实是一类新出现的三维用户界面(3D UI),
随着新课改的推行,一改往日思品枯燥课堂无味的现状,应用活动课教学形式,为思品课堂注入新鲜血液。作者将活动课作为思想品德课堂教学的关键环节看待,转变思想观念,探索活动
复杂地形条件下天然气管道泄漏H2S扩散不仅会造成较大的资源浪费和巨大的经济损失,还有可能导致严重的人员伤亡。迄今为止,仍然不可能推荐一个具体模式对复杂地形条件下H2S扩
不平衡发展、推进城镇化是宁乡当前面临的客观现实和发展要求,加快城镇化进程是解决农业大县宁乡县“三农”问题的最重要最有效的方法。城镇化也是建设和谐社会,走向现代化不
<正>在推进我国社会工作的职业化、专业化进程中,我们越来越认识到社会工作民间化运作的重要性,而政府如何主导,民间机构如何运作都需要我们不断地进行反思与评估。因此,政府
罗伯特·布莱松不仅是法国著名的导演,也是世界非常具有特色的导演之一,他发展了简约、严峻、内省的风格。许多年里,布莱松在选题上改变了很多,但是这种风格只是稍微改变了一
全氟类有机化合物(Perfluorinated compounds,PFCs)广泛应用于工业和民用产品,该类化合物具有高能量的C-F共价键,难以被水解、光解、微生物降解及动物体代谢,具有持久性、生
随着主动隔振控制技术的发展,对作动器的要求越来越高,这催生了智能材料作动器的诞生和发展。利用超磁致伸缩材料制作的作动器具有许多优越的性能,但其自身也存在一些比较突
作为我国北方地区主要营林树种和重要用材树种的白桦(Betula platyphylla Suk),其变色问题严重影响成材制品的品质。为了探求白桦变色本质,消除变色隐患,有效降低行业经济损