基于词语网络的关键字提取策略研究

被引量 : 0次 | 上传用户：zhyjrr

【摘要】

：

关键字是表述文档中心内容的词汇,是计算机系统标引论文内容特征的词汇,是便于信息系统汇集以供读者检索的词汇。关键字提取是文本挖掘领域的一个分支,是文档检索、文档比较

【作者】

：

阚洳沂

【发表日期】

：

2008年期

【关键词】

：

词语网络共现分析节点删除指标关键字提取中介性指标

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

关键字是表述文档中心内容的词汇,是计算机系统标引论文内容特征的词汇,是便于信息系统汇集以供读者检索的词汇。关键字提取是文本挖掘领域的一个分支,是文档检索、文档比较、摘要生成、文档分类和聚类的基础性工作。关键字提取算法可分为两类:基于训练集的关键字提取策略和不需要训练集的关键字提取策略。基于训练集的方法将关键字提取视为分类问题,通过将文档中出现的词语划分到关键字类或非关键字类,再从关键字类中选择若干个词语作为关键字,该类算法由Peter.D.Turney首次提出,其技术已日趋成熟。不需要训练集的算法,可分为以下四类:基于统计的方法,如频率统计;基于词语图的方法,如KeyGraph;基于词语网络的方法,如中介性指标(BC,Betweenness Centrality);基于SWN的方法;上述四种方法都是建立在词频统计基础上。基于统计的方法简单快速,能够提取高频词语,却忽略对文档具有重要意义但出现频率不高的词语,因此提取的关键字具有片面性。基于词语图的方法需要设定的参数过多,如顶点数、边数等,因而常造成边界上的取舍问题,影响算法的稳定性和精度。基于SWN的方法是以平均距离长度为关键字提取依据,而SWN理论以连通图为基础,故对非连通的文档结构图,无法衡量顶点的重要性,也无法正确地提取文档关键字。本文主要研究基于词语网络的关键字提取算法,在分析已有基于词语网络的关键字提取算法的基础上,针对存在问题,提出一个新的基于词语网络的英文文档关键字提取策略,采用节点删除指标度量顶点(词语)的重要性。所提取的关键字不仅包括高频单词和短语,而且包括对文档中心内容贡献大但出现频率不高的单词和短语。实验数据来自KEA和Extractor算法中的测试数据集,及世界著名的科技出版集团之一——德国施普林格提供的学术期刊及电子图书的论文为测试数据。以论文作者提供的关键字为基准,采用平均准确率和平均召回率作为衡量提取效果的依据,通过将本文算法的实验结果与TF和BC算法的实验结果相比较,证明了本文算法的正确性和有效性。

其他文献

基于小学生自理能力的研究

<正>自理性,是一种对孩子终身发展有用的素质,是一种非常重要的素质。儿童成长的最终目标就是成为独立生存、适应环境的个体。有人认为:目前在我国,独生子女普遍以升学为目的

期刊

生活自理能力教育者

虚拟环境中基于语义的三维交互技术研究及应用

虚拟现实正在成为一种新的计算手段,它在国防、科学研究、工程设计和制造业等许多重要领域有着广泛的应用前景。从交互的观点看,虚拟现实是一类新出现的三维用户界面(3D UI),

学位

虚拟现实三维交互技术三维用户界面多通道交互双手交互

如何使初中思品活动课增添新机

随着新课改的推行,一改往日思品枯燥课堂无味的现状,应用活动课教学形式,为思品课堂注入新鲜血液。作者将活动课作为思想品德课堂教学的关键环节看待,转变思想观念,探索活动

期刊

初中思品活动课重要地位具体实施

天然气管道泄漏H2S扩散及影响区域的数值模拟与分析

复杂地形条件下天然气管道泄漏H2S扩散不仅会造成较大的资源浪费和巨大的经济损失,还有可能导致严重的人员伤亡。迄今为止,仍然不可能推荐一个具体模式对复杂地形条件下H2S扩

学位

天然气泄漏H2S扩散PUGdiff软件泄漏速率气象条件复杂地形

不平衡发展的宁乡县域城镇化对策研究

不平衡发展、推进城镇化是宁乡当前面临的客观现实和发展要求,加快城镇化进程是解决农业大县宁乡县“三农”问题的最重要最有效的方法。城镇化也是建设和谐社会,走向现代化不

学位

不平衡发展宁乡城镇化对策研究

政府服务购买的“机构评估”

<正>在推进我国社会工作的职业化、专业化进程中,我们越来越认识到社会工作民间化运作的重要性,而政府如何主导,民间机构如何运作都需要我们不断地进行反思与评估。因此,政府

期刊

服务购买结构层次民间化服务水平协议机构评估社工服务

执著的独行者

罗伯特·布莱松不仅是法国著名的导演,也是世界非常具有特色的导演之一,他发展了简约、严峻、内省的风格。许多年里,布莱松在选题上改变了很多,但是这种风格只是稍微改变了一

学位

罗伯特·布莱松模特特写宗教主题陀思妥耶夫斯基

全氟类有机污染物的污染状况及其生态毒理研究进展

全氟类有机化合物(Perfluorinated compounds,PFCs)广泛应用于工业和民用产品,该类化合物具有高能量的C-F共价键,难以被水解、光解、微生物降解及动物体代谢,具有持久性、生

期刊

全氟类化合物PFOAPFOS环境污染毒理学效应

超磁致伸缩作动器优化及主动隔振控制研究

随着主动隔振控制技术的发展,对作动器的要求越来越高,这催生了智能材料作动器的诞生和发展。利用超磁致伸缩材料制作的作动器具有许多优越的性能,但其自身也存在一些比较突

学位

主动隔振超磁致伸缩作动器结构优化有限元分析最小均方在线辨识虚拟仿真

白桦木材生物变色机理及防治研究

作为我国北方地区主要营林树种和重要用材树种的白桦(Betula platyphylla Suk),其变色问题严重影响成材制品的品质。为了探求白桦变色本质,消除变色隐患,有效降低行业经济损

学位

白桦变色机理化学成分变色菌拮抗菌生物学特性

基于词语网络的关键字提取策略研究

其他学术论文