面向专利文本的信息抽取技术研究

来源 :沈阳航空工业学院 沈阳航空航天大学 | 被引量 : 0次 | 上传用户:atian_net
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
专利的技术方案信息是专利信息的重要组成部分,是专利作者创新精髓,是专利保护的主要对象。然而技术方案信息是以自由文本的形式存在,因此如何将技术方案信息转化为计算机可处理、可读、可理解的结构化形式便成为亟待解决的问题。  本文将自然语言处理领域中信息抽取技术应用于中文专利摘要文本,对其中的技术方案信息予以抽取,并采用结构化的形式对其进行描述。本文在对专利摘要文本的特点进行分析的基础上,提出专利摘要文本信息抽取策略并确定了专利摘要文本信息抽取流程。采用基于线性组合核函数的方法对专利文本语句进行分类,将专利摘要语句分为描述主题信息的语句、描述结构及运作特征的语句和描述性能优点的语句,划定信息抽取的范围。为了线性组合核函数权重的确定问题,本文提出了一种基于多目标规划思想的权重优化方法。根据同类样例相似性较高,异类样例相似性较低的原则,确定优化模型。通过对模型求解,获得线性组合核函数权重。针对专利主题词抽取问题,利用专利标题的特点采用完全无指导的方法构建信息抽取模板,抽取专利主题词。基于此种方法,减少了人工构建模板或是标注语料的时间和劳动量。针对技术关键词关系抽取问题,采用基于核函数的关系抽取方法。将特征分为需精确匹配特征和需近似匹配特征两类,分别定义相似性计算方法,并将相关联的特征使用特征节点进行整合,在此基础之上定义核函数。解决基于特征向量方法中,特征相互独立缺少联系的问题和通过点积计算某些特征相似性的不合理性。  本文的方法在抽取主题词实验中F值达到91.20%,在关键词关系抽取的试验中F值达到82.43%。
其他文献
当今社会随着人们生活水平的提高以及生活习惯、饮食习惯的改变,肿瘤的发病率和死亡率在不断上升,已成为威胁人类健康的最主要疾病。肿瘤早期的诊断和个性化治疗是减少肿瘤患
神经外科导航系统(Neurosurgery Navigation System)是现代影像技术、立体定向技术与先进的计算机技术相结合的产物,它的主要功能包括:在术前通过手术规划与模拟,可以减少手术
随着遥感影像的空间分辨率不断提高,传统的基于像素的信息提取技术已不能很好地提取影像中的土地信息,它产生的专题图中土地完整性差并且混分、错分现象严重,同时无法解决“同谱异物”与“同物异谱”的问题。根据高分辨率遥感影像的特点,本文以对象为最小的操作单元进行农村地区土地信息提取,对象通过影像分割得到。针对现有的对象分割技术在分割过程中出现的精度缺陷与自动化程度低等问题,提出了一种基于多特征数据融合与对象
GCC是GNU中的旗舰产品,也是开源世界的重量级产品,大多数开源产品都是基于这个编译器的。GCC是一个编译器的集合,其中的C++编译器就是G++。GCC采用前端、后端相结合的方式,前
剪接体内含子的发现已有30余年,但目前对其进化机制和进化动力学的了解很贫乏。学术界对内含子的进化问题一直存在争议,其中之一就是内含子得失率。内含子的进化研究方法常是用
无线传感器网络作为进化计算中崭新的一章,已经被证明了对诸多的领域,如国防安全、监控、环境监测、农业、以及医疗,起到了巨大的推动作用。由于它在物理世界以及数字世界之间的
关联规则挖掘是数据挖掘中的重要内容之一,旨在发现大量数据中项集之间的关联或相关关系。将关联规则挖掘技术应用于Web使用挖掘中,可以更有效地组织和管理网站,找出站点用户
无线自组织网是近年来随着无线通信技术的飞速发展而出现的一种新型网络,网络中所有节点可以任意移动,网络拓扑结构动态变化,节点间以多跳协作的方式进行通讯。作为无需基础
下一代互联网为用户带来了丰富多彩的用户体验,但同时庞大的网络流量也给网络管理人员及服务提供商带来了巨大的挑战。流量监测是保障网络可控性的基础。目前传输速率为10Gbp