基于词跨度的网页关键词提取方法研究

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:yzxiaow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关键词常用于标引论文主要内容,信息检索系统利用关键词搜集以供读者查阅。而当今社会是互联网时代,网页上的信息量巨大,网络应用也越来越丰富,关键词的重要性更加突出。国外对于网页关键词提取的研究起步较早,美国IBM公司的H.P.Luhn首先提出关键词自动标引,时至今天,已有近60年的发展历程。ADM公司的Turney首次将遗传算法和C4.5决策树机器学习方法应用在关键短语的自动提取。网页关键词自动提取方法的研究围绕网页的特殊性,依据网页跟普通文本的不同,充分利用网页自带的各种标记对网页关键词进行自动提取。常用的关键词提取算法有基于统计的方法、基于语义的方法和基于词语网络的方法,本文在已有算法的基础上给出了一种基于词跨度的网页关键词提取方法,依靠网页面的特殊性,充分利用网页中的各种标识对文本进行分析,然后利用词语在文章内容中第一次出现的位置和最后一次出现的位置以及该词在文中出现过的段落数与全文段落总数的比值等因素,改进了算法的权重计算公式,有利于降低局部关键词对提取结果的影响,同时本文算法还充分考虑了词频因子,词性因子,词位置因子,词长因子,是否出现在提示词之后等多种特征因子,通过对这些因子进行权重计算提取关键词。另外,本算法所生成的高频组合词的应用也有利于提高算法的精确度。传统的算法由于考虑的因素较少,考虑的特征项也不多,因而整体效果不如本文的算法。实验结果表明:与传统算法相比,本文的算法在召回率和准确率上有了明显的提高,且随着测试集数量的增多,测试效果越明细。同时对于不同长度和类型的文本,本文算法都表现出了较强的稳定性,并没有针对某一特定类型的测试集出现实验结果急剧恶化的现象。
其他文献
当今是图像爆炸式增长的时代,急切需要与之相适应的图像管理和检索能力。图像标注不仅可以为普通用户提供与之使用习惯更加符合的以Web图像搜索为代表的图像检索服务,还将为
目前市场上的报表工具种类很多、功能各异,大多提供了类型和样式定制功能。这些报表工具基于静态存储数据的数据库表,而此类静态数据库表不支持企业的业务扩展或变化。为了在
Petri网是建模和分析的工具,它的主要特性包括:并行,不确定性,异步和分步描述能力和分析能力。它既有直观的图形表示,又有深刻的数学内涵和基础。Petri网的结构理论的思想是
随着人们对软件安全问题的重视,软件漏洞的检测方法越来越成熟。鉴于静态检测误报率高和动态检测漏报率高等缺陷,有专家学者提出了静动态结合的漏洞检测思想,利用静态检测的
针对当前省级气象资料管理中存在布局分散、内容重复,以及缺乏统一规范等问题,本论文在总结和借鉴MDSS数据库系统设计和建设经验的基础上,基于气象资料分类编码和命名规范,应用气
移动AdHoc网络是一种新型分布式无线网络,是由一组带有无线收发装置的移动终端组成的多跳临时性自治系统。它具有良好的移动性和组网的灵活性,因而成为目前网络研究的热点。AdH
在信息时代,大量信息给人们带来方便的同时,也带来了一系列问题,比如,信息量过大,超过了人们掌握、消化的能力;一些信息真伪难辨,给信息的正确运用带来困难;信息组织形式的不
远程维护技术是利用网络在异地对现场设备进行监测,并根据监测数据调用网上诊断资源或异地专家知识,进行故障诊断和设备维护的技术。本课题是国家“863计划”——安全结构智
嵌入式系统发展到今天,已不再是简单的逻辑控制和采集转换功能。带有操作系统管理功能的嵌入式操作系统已成为嵌入式系统软件的中心。在信息爆炸的今天,需要处理越来越多的数
伴随着计算机技术、特别是网络技术的飞速发展,地理信息系统的应用愈加广泛,用户所需要获取和处理的空间数据量迅速增加。但空间数据源存在异地性和异构性等特点,如何屏蔽数