面向复杂语义的专利本体构建方法研究

被引量 : 2次 | 上传用户:luzhengnan801106
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
专利数据涵盖了世界上95%的最新技术、发明,专利数量和质量已经成为一个企业、行业乃至国家经济竞争力的标志。对专利数据进行有效地利用,可以为企业研发决策提供支持,使企业有效地节省重复开发的成本。随着人们知识产权意识的增强,专利数据增长迅猛,往往与同一项技术相关的专利数量较多,形成了一个专利群,其中的专利在实现原理或技术细节上存在着不同程度的相似性。在数据呈爆炸性增长的现代社会,人们期望以最便捷的方式获得所需要的信息。已有的专利分析方法未考虑关键词之间的语义关系,这类方法主要基于技术关键字进行统计分析,将专利文档建模为由关键字对应的权重构成的向量,以向量空间模型计算专利文档之间的相似性。然而,基于这一模型无法甄别专利群中的不同专利间使用的语义相同或相近的不同技术关键词。因此,如果在分析过程中考虑专利中语义信息的利用,将会获得比较好的分析效果。本项目将研究包含丰富语义关系的专利构成信息的抽取,并通过本体组织和管理这些结构数据,试图基于专利结构相关语义知识进行深入的专利分析。由于从专利文档中抽取信息以文本理解为基础,虽然已有一些研究工作以信息处理技术为支撑实现了经济、生物、化学等领域的数据抽取并通过本体来管理,但这些方法不适用于从中文专利文档中抽取实体关系和这些实体关系的组织和管理。这是因为专利结构信息获取过程及专利分析应用中存在着一些特有问题:(1)专利文档蕴含丰富的结构相关的实体关系数据,建模专利结构本体时需要对专利中包含的概念及其关系建立分类,以尽可能全面、有效地反映专利结构中的实体间语义关系的差别和特性;(2)文本中描述了专利组成部分之间的物理位置关系和动态关系,文本表达灵活,句子结构复杂,而且其中还出现大量描述实体名称和关系特征的单个技术专利独有的新技术术语,实体关系可能包含在短语、句子或多个句子之间。从中文专利文档抽取实体关系应该考虑所有这些因素;(3)利用专利结构本体进行专利分析时,将考虑每个专利的实体语义关系对分析结果的影响。这一过程将会非常复杂。但是,另一方面,每个专利从申请到获批都经过反复审核、修改,因此专利数据符合书写规范、数据质量高。尽管不同技术领域的专利文档所描述的新技术千差万别,但它们对专利技术的描述却表现出很多共同点:①专利文档引入了很多以基本术语为中心词的新合成技术术语:②描述专利技术的构成时遵循一定的时空顺序;③在描述新技术实现时,对其中的加工处理相关的实体关系进行了描述。利用文档具有的以上优势特征,解决从专利文档中实体语义关系的抽取问题是有意义的,它将为进行深入语义分析、挖掘领域技术专利知识提供高质量的数据。基于这一思路,我们研究了有效的专利技术本体建模和数据获取方法,并应用本体知识进行专利分析。针对专利文档书写质量高、所描述的技术新颖等特点,本文研究了专利结构本体构建的方法和应用,主要完成了以下工作:(1)技术结构相关概念及其语义关系建模基于关系实例是本体概念和关系的最直观表现的思想,给出了对关系实例进行数据分析、挖掘的方法:通过层次聚类获得语义关系基本分类;利用分类结果对专利结构图中的语义关系赋予关系类型标记,挖掘关系结构图中的频繁模式;进而根据频繁模式,分析专利中与实体关联的不同类型关系的共现情况,最终决定专利本体类及其关系的模式信息;最后,给出了基于本体中已有类及关系的推理规则,通过这些规则可利用已有关系实例获得专利中的隐含实体语义关系。通过实验证明所提出的建模方法可减少专利本体建模的时间花费,这一建模能很好地涵盖领域实体关系类型,便于有效组织和管理专利结构相关知识。(2)基于自学习的专利结构数据获取方法研究中充分利用了反映专利遵循书写规范文档的各级文本模式特征,提出了一种利用专利文档中实现关系特征词和实体关系的抽取。在文本预处理阶段,通过统计学习,获得关系实例在对应文本段中表现各种模式特征如:字词搭配、短语构成、句间关系等形成的多级模式规则;然后,给定少量实体实例关系作为种子,基于种子关系实例具有的语义特征构造初始的关系抽取模板,通过自学习方法抽取多元实体关系;最后,通过文本段解析过程获得句间隐含的实体关系。(3)专利知识数据的典型应用在专利分析典型示范应用方面,给出了基于贪婪算法的专利技术结构对比分析的方法,进而提出了基于相似子结构自底向上计算专利相似性的方法;进而基于专利结构相似性对专利进行聚类分析,分析专利权人的技术相似度。实验结果证明了专利结构知识可提高专利分析结果的准确性。(4)专利本体的构建与应用实现实现了本体构建过程,包括:利用本体工具建立通过实例挖掘获得的专利模式;从文档抽取各类关系特征词、句子构成模式等信息;从文档抽取关系实例。最后,提出了基于专利权人相似性的专利知识实现了用户合作伙伴推荐的新型专利分析方法。
其他文献
分析当代小说叙述的中国模式,是对自身文学传统的一次回望。在讲述中国故事、传播中国声音的时代背景之下,从叙述学角度梳理自身文学传统也是有其重要意义的。中国当代小说叙
目的 解决布鲁克microflex LT MALDI-TOF质谱仪在临床微生物学实验室丝状真菌鉴定中样本处理技术操作繁琐,耗时较长的弊端,建立一种快速、简便的丝状真菌质谱鉴定样本前处理
本文发展了一种简洁高效的金催化立体选择性构建β-艾杜七碳糖苷键的方法。以全苄基保护的艾杜七碳糖邻己炔基苯甲酸酯3作为供体,6-OH裸露的苄基葡萄糖甲苷4作为受体,以多种
新疆的黄伞(Phonliota adiposa (Fr.) Quél.)主要分布于天山、阿勒泰山区的河谷阔叶林,是食药兼优且具有较高商品价值的珍稀食用菌。新疆褐顶环柄菇(Lepiota promineus (Fr.) Sa
宋代史籍中出现的“吃菜事魔”一词与摩尼教的关系,以及摩尼教与宋元以降东南沿海一带农民起义的关系问题,历来倍受学术界的关注,并出现了一批有价值的研究成果。虽如此,学界
当今世界,各国之间的交流日益频繁,语言作为交流的重要工具在国际交往中发挥着巨大的作用。作为书面语言的一种,政治文献对于国家之间的外交十分重要,而各国国防白皮书的出版
美苏冷战的始末———简析前苏驻美大使多勃雷宁回忆录《信赖》胡征庆多勃雷宁在1962年被赫鲁晓夫任命为苏驻美大使,他曾与美六届总统打过交道,直至1986年被戈尔巴乔夫召回,担任主管国际
增粘树脂乳液是正在发展中的水基橡胶压敏粘合剂的主要组分之一。本文介绍了增粘树脂的若干乳化方法,并介绍了羧基丁苯橡胶胶乳、天然橡胶胶乳及丙烯酸酯乳液与增粘树脂乳液
广西佛子冲铅锌矿田有两种不同的矿化类型 ,一种以浅色闪锌矿为标志 ,矿体呈层状、似层状产出 ,产状与地层一致 ,矿石具典型的同生构造 ,代表了成矿第一世代 ;另一种以铁闪锌
尿毒症血液透析患者普遍存在多种并发症,患者营养不良、脂质代谢紊乱、贫血、心血管疾病、透析相关性低血压、骨胳肌病、胰岛素抵抗及炎症状态等需要及时予以纠正。左旋肉碱