论文部分内容阅读
专利文献是具有经济价值、技术价值的战略性信息。据世界知识产权组织统计,全世界90%以上的发明创造信息都是首先通过专利文献反映出来的,90%~95%的研发成果包含在专利文献中。专利地图是一种重要的专利分析工具,能够将大量专利文献通过搜寻、筛选、分类、归纳及分析等步骤进行消化,并用直观的图表呈现出来,有助于启发技术人员的思路,激发新的创意,进而发现新的技术领域。
国内外的专利地图研究及相关软件有很多,这些软件在形成专利地图的关键性过程“专利文本相似度度量”上,大都采用基于向量空间模型的文本相似度算法。考虑到专利文献的覆盖面广,低频词、生僻词较多,单纯依靠向量空间模型来进行专利文本相似度计算,达到的效果有限。为此有必要引入领域本体,对专利文献进行语义层面上的分析。本文的主要研究和贡献如下:
(1)在探讨和分析各种本体构建方法的基础上,遵循本体构建的一般原则,归纳出构建领域本体的步骤,并借鉴WordNet已有的结构,利用现有的本体构建工具,构建了生物医药方向的领域本体。
(2)提出了基于领域本体的文本相似度算法,该方法利用改进的Lesk词语消岐算法对专利文本中的大量专业术语进行消歧,选择合适的语义,再利用领域本体中语义的层次关系计算词汇语义相似度。同时以此为基础,使用匈牙利相似矩阵算法计算文本相似度。实验表明,该方法能显著提高文本相似度计算精度。
(3)在上述内容的基础上,本文讨论了专利地图可视化技术,提出了以专利相似度和IPC分类号为横纵坐标的散点结构专利地图;以词汇语义和词频为基础生成了技术效应专利地图,并实现了专利地图的可视化。
(4)最后,将本文设计的技术方案应用于基因疫苗领域的专利文献分析,对专利地图的实用性和科学性进行实证研究。