论文部分内容阅读
专利数据涵盖了世界上95%的最新技术、发明,专利数量和质量已经成为一个企业、行业乃至国家经济竞争力的标志。对专利数据进行有效地利用,可以为企业研发决策提供支持,使企业有效地节省重复开发的成本。随着人们知识产权意识的增强,专利数据增长迅猛,往往与同一项技术相关的专利数量较多,形成了一个专利群,其中的专利在实现原理或技术细节上存在着不同程度的相似性。在数据呈爆炸性增长的现代社会,人们期望以最便捷的方式获得所需要的信息。已有的专利分析方法未考虑关键词之间的语义关系,这类方法主要基于技术关键字进行统计分析,将专利文档建模为由关键字对应的权重构成的向量,以向量空间模型计算专利文档之间的相似性。然而,基于这一模型无法甄别专利群中的不同专利间使用的语义相同或相近的不同技术关键词。因此,如果在分析过程中考虑专利中语义信息的利用,将会获得比较好的分析效果。本项目将研究包含丰富语义关系的专利构成信息的抽取,并通过本体组织和管理这些结构数据,试图基于专利结构相关语义知识进行深入的专利分析。由于从专利文档中抽取信息以文本理解为基础,虽然已有一些研究工作以信息处理技术为支撑实现了经济、生物、化学等领域的数据抽取并通过本体来管理,但这些方法不适用于从中文专利文档中抽取实体关系和这些实体关系的组织和管理。这是因为专利结构信息获取过程及专利分析应用中存在着一些特有问题:(1)专利文档蕴含丰富的结构相关的实体关系数据,建模专利结构本体时需要对专利中包含的概念及其关系建立分类,以尽可能全面、有效地反映专利结构中的实体间语义关系的差别和特性;(2)文本中描述了专利组成部分之间的物理位置关系和动态关系,文本表达灵活,句子结构复杂,而且其中还出现大量描述实体名称和关系特征的单个技术专利独有的新技术术语,实体关系可能包含在短语、句子或多个句子之间。从中文专利文档抽取实体关系应该考虑所有这些因素;(3)利用专利结构本体进行专利分析时,将考虑每个专利的实体语义关系对分析结果的影响。这一过程将会非常复杂。但是,另一方面,每个专利从申请到获批都经过反复审核、修改,因此专利数据符合书写规范、数据质量高。尽管不同技术领域的专利文档所描述的新技术千差万别,但它们对专利技术的描述却表现出很多共同点:①专利文档引入了很多以基本术语为中心词的新合成技术术语:②描述专利技术的构成时遵循一定的时空顺序;③在描述新技术实现时,对其中的加工处理相关的实体关系进行了描述。利用文档具有的以上优势特征,解决从专利文档中实体语义关系的抽取问题是有意义的,它将为进行深入语义分析、挖掘领域技术专利知识提供高质量的数据。基于这一思路,我们研究了有效的专利技术本体建模和数据获取方法,并应用本体知识进行专利分析。针对专利文档书写质量高、所描述的技术新颖等特点,本文研究了专利结构本体构建的方法和应用,主要完成了以下工作:(1)技术结构相关概念及其语义关系建模基于关系实例是本体概念和关系的最直观表现的思想,给出了对关系实例进行数据分析、挖掘的方法:通过层次聚类获得语义关系基本分类;利用分类结果对专利结构图中的语义关系赋予关系类型标记,挖掘关系结构图中的频繁模式;进而根据频繁模式,分析专利中与实体关联的不同类型关系的共现情况,最终决定专利本体类及其关系的模式信息;最后,给出了基于本体中已有类及关系的推理规则,通过这些规则可利用已有关系实例获得专利中的隐含实体语义关系。通过实验证明所提出的建模方法可减少专利本体建模的时间花费,这一建模能很好地涵盖领域实体关系类型,便于有效组织和管理专利结构相关知识。(2)基于自学习的专利结构数据获取方法研究中充分利用了反映专利遵循书写规范文档的各级文本模式特征,提出了一种利用专利文档中实现关系特征词和实体关系的抽取。在文本预处理阶段,通过统计学习,获得关系实例在对应文本段中表现各种模式特征如:字词搭配、短语构成、句间关系等形成的多级模式规则;然后,给定少量实体实例关系作为种子,基于种子关系实例具有的语义特征构造初始的关系抽取模板,通过自学习方法抽取多元实体关系;最后,通过文本段解析过程获得句间隐含的实体关系。(3)专利知识数据的典型应用在专利分析典型示范应用方面,给出了基于贪婪算法的专利技术结构对比分析的方法,进而提出了基于相似子结构自底向上计算专利相似性的方法;进而基于专利结构相似性对专利进行聚类分析,分析专利权人的技术相似度。实验结果证明了专利结构知识可提高专利分析结果的准确性。(4)专利本体的构建与应用实现实现了本体构建过程,包括:利用本体工具建立通过实例挖掘获得的专利模式;从文档抽取各类关系特征词、句子构成模式等信息;从文档抽取关系实例。最后,提出了基于专利权人相似性的专利知识实现了用户合作伙伴推荐的新型专利分析方法。