论文部分内容阅读
【摘 要】专利分析是现代企业运行中的一个重要技术基础。常见的专利分析方法可分为基于统计、内容和数字挖掘等多种方法,每种方法的目标、方法和过程均不同,为了方便科技人员选择使用,本文对常用的专利分析方法进行综述。
【关键词】专利分析;引文分析;数据挖掘;内容分析
专利作为技术信息最有效的载体,对于知识产权战略的实施和企事业单位的研发活动具有重要的意义[1,2]。据世界知识产权组织(WIPO)的统计,全世界每年有 95%~98%的发明创造成果都可以在专利文献中查到[3]。
随着世界技术竞争的日益激烈, 各国企业纷纷开展专利战略研究[4], 其核心正是专利分析, 即对专利说明书、专利公报中大量零碎的专利信息进行分析、加工、组合, 并利用统计学方法和技巧使这些信息转化为具有总揽全局及预测功能的竞争情报, 从而为企业的技术、产品及服务开发中的决策提供参考[5]。
通过专利分析,可以了解技术的发展现状和趋势, 获知重要的研究机构、发明人,找到核心的技术,为科技创新、知识产权保护等提供参考。技术研发人员可以充分利用专利信息攻克技术难关、避免重复研发,同时还可以进行专利侵权预警专利规避等工作[6~8]。
专利分析不仅是企业争夺技术的前提, 更是企业发展其技术策略, 评估竞争对手的技术实力的手段[9]。因此, 专利分析已经成为企业战略与竞争分析中一种独特而实用的分析方法,已经成为企业竞争情报常用分析方法之一。
本文对各种专利分析方法进行综述,对情报分析人员根据具体需要,快速掌握和选择合适的专利分析方法具有重要意义。
一、基于统计的专利分析
采用统计学方法分析专利主要有专利信息定量分析法,专利信息定性分析法和专利信息拟定量分析法。
(一)专利信息定量分析
专利信息定量分析是研究专利文献的重要方法之一[10],是建立在数学,统计学,运筹学,计量学,计算机等学科的基础之上,通过数学模型和图表等方式,从不同角度研究专利文献中所记载的技术信息。
定量分析的主要方法有时间序列法、频次排序法、利用拉布福德文献分散定律确定核心技术法和技术发展生命周期法。生命周期法是企业常用的方法,该方法一般可以把技术发展过程分为萌芽阶段,生长阶段,成熟阶段和衰老阶段四个阶段。通过统计学中的相关统计参数对上述各个阶段进行定量度量如下[11]。
(1) 技术生产率γ:γ=■
式中a表示当年发明专利申请数,A表示追溯5年的发明专利申请累计数。连续计算数年,若γ值递增,说明该技术处在萌芽生长阶段。
(2)技术成熟系数?琢:?琢=■
式中a同上,b表示当年实用新型专利申请数,连续计算数年,?琢值递减时,反应技术日趋成熟。
(3)技术衰老系数?茁:?茁=■
式中a, b同上,c表示当年外观设计专利或商标申请数,连续计算数年,当?茁值递减时,表示该技术日趋陈旧。
(4)新技术特征系数N:N=■
式中γ表示技术生产率,?琢表示技术成熟系数。系数N表示某项技术新兴和衰老的总和指标,N值越大,新技术特性越强,预示其越具有发展潜力。
(二)专利信息定性分析[6]
专利信息定性分析是指通过对专利文献内在特征,即对专利技术内容进行归纳和演绎,分析与综合以及抽象与概括等分析,了解和分析某技术发展状况的方法。其基本过程为:
图中的流程并非单向过程,各步骤之间可以循环和反复。如,涉及的数据挖掘过程如果有新的之前没有考虑到的问题,则可以重新准备数据;数据挖掘过程中,如发现数据选择过多,也可以重新数据选择。
(三)专利信息拟定量分析
针对不同的分析目的,分析人员需要采用定量与定性相结合的分析方法,即拟定量分析方法[12]。本方法通常由数据统计入手,然后,进行全面,系统的技术分类和比较研究,再进行针对性的量化分析,最后,进行高度科学抽象的定性描述,使整个分析过程由宏观到微观。专利信息中比较常见的拟定量分析方法有专利引文分析方法和数据挖掘等方法。
专利引文分析:专利引文指在目标专利文件被其他专利作为引用文献列出的情况分析。公开时间早,并且接近本领域的核心技术的专利,引证率相对较高,因此,引证率高的专利也常常视为本领域内核心专利。因此,可以根据专利的引证关系,引证时间和技术族谱等综合分析专利。
专利数据挖掘[13]: 数据挖掘是从大量数据中挖掘隐含的、未知的、对决策有潜在价值的知识和规则。这些知识与规则蕴含了数据库中一组对象之间的特定关系,揭示的有用信息可为科学研究、经营决策、市场策划、经济邪测、工业控制提供依据。
数据挖掘的主要采用关联规则、聚类分析、序列摇式、分类等。关联规则是寻找在同一个事件中出现的不同项的相关性。聚类是把一组个体按照相似性归成若干类别,其目的是使得属于同一类别的个体之间的距离尽可能的小,而不同类别的个体间的距离尽可能的大。序列模式和关聆规则相似,其目的也是挖掘数据之间的联系,但序列模式分析的侧重点在于分析数据间的前后序列关系。分类要解决的问题是为一个事件或对象归类。
二、基于自然语言处理的专利分析方法
(一)语义标注方法
语义标注首先分成按照内容的标注方法、按照结构的标注方法与多策略混合的方法。
1.基于内容的方法
以内容理解为主, 主要从文档内容入手进行标注, 采用基于自然语言处理与机器学习技术, 通过各种方法提取句子的模式, 從而进行自然语言处理。通常无结构化文档,直接采用基于内容的方法来进行标注[14]。
这种方法主要从内容上进行分析、提取与识别出有用的语义信息,并用标签进行标注。根据采取技术的不同,进一步分为基于自然语言处理的方法和基于机器学习的方法。自然语言处理,技术包括去除停止词、分词、取词根、词性标注、语法分析、句法分析、短语识别、命名实体识别、指代消解和司义消歧等。 2.基于结构的方法
以结构化分析为主, 主要是从文档结构着手, 结合文档的结构特征来进行标注[15], 常采用一些结构化分解方案或文档模板来进行语义标注如在word文档中的文档结构信息标题层次、样式等。
基于结构的方法主要适用于结构化文档。多策略混合方法是综合内容和结构两个层面来标注,特别适合半结构化文档基于内容的方法是语义标注常用的方法之一。
三、基于文本挖掘的专利分析方法
文本挖掘是指为了发现知识, 从文本数据中抽取隐含的、以前未知的、潜在有用的模式的过程[16]。主要目标是获得文本的主要内容涉及的主题、类属、关键内容等,目前具体实现技术主要有如下几种[17]:
(一)特征抽取
文本特征分为一般特征和数字特征,其中一般特征主要包括名词和名词短语;数字特征主要包括日期、时间、货币以及单纯数字信息。特征是概念的外在表现形式,特征抽取是识别潜在概念结构的重要基础。
(二)主题标引
利用传统的关键词标引技术来标引文本,影响文本标引的质量,导致同义标引词的泛滥,影响检索的查全率。同时也会影响特征抽取的准确度。利用主题词标引代替关键词标引可以提高标引的质量,对改善文本的检索效果十分有益。
(三)文本分类
文本分类的任务是基于内容将自然语言文本自动分配给预定义的类别。文本分类技术类似于数据库挖掘中的分类技术,不同之处在于它需要预先对文本进行特征抽取,它利用文本特征向量对文本进行分类。
(四)文本聚类
聚类就是将一个数据对象的集合分组成为多个类或簇。它的分析并不依赖于已知类标记的数据对象。在通常情况下,聚类的训练数据样本没有类标记,它要划分的类是未知的,通过聚类可以产生这种类标记。文本聚类是对给定的文本集根据文本相似度进行聚类的方法。
(五)自动摘要
自动摘要是利用计算机分析文章的结构,找出文章的主题语句,然后经过整理、组合、修饰,构成文摘的过程。人工编制复杂、量大而且费时,随着互联网的发展,对Web资源信息量巨大,人工编制文摘成本非常高,因此,可以采用软件进行自动摘要。
自动摘要的前提是计算机能够找到关键语句,这要求专利书写严格按照格式规范,要求搜索软件不断更新,具有自动学习功能等。
四、总结
随着科技迅猛的发展,知识越来越成为经济的重要增长点。专利分析已经成为了科技发展和企业获取竞争优势的有效方法。本文对基于统计,自然语言处理,文本挖掘等专利分析方法进行介绍与总结,阐述了专利分析的方法和相关应用。为不同领域科技人员进行专利分析提供了基础。
作者简介:顾建红(1976-),女,民族:汉,籍贯(精确到市):江苏常州,研究方向:专利。
参考文献:
[1]覃兴.运用专利分析进行竞争对手跟踪的方法研究[J].产业与科技论坛,2017,16(03):71-72.
[2]宋巧枝,方曙.专利信息分析方法在企业战略制定中的应用[J].现代情报,2007,(10):193-195.
[3]董微微.专利分析方法对技术路线图制定的支撑作用研究——基于技术创新视角[J].现代情报,2017,37(02):44-51.
[4]张世玉.技术层面专利组合分析方法优化及其应用研究[D].吉林大学,2015.
[5]李向阳,张亚非,基于语义标注的信息抽取,解放军理工大学学报自然科学版,2008
[6]王朝霞,冯培恩,邱清盈专利知识获取及其支持概念创新设计的方法研究,浙江大学,2009
[7]彭茂祥,李浩.基于大数据视角的专利分析方法与模式研究[J/OL].情报理论与实践,2016,39(07):108-113.
[8]刘彤,杨冠灿,侯元元.基于多重关系整合的专利网络分析方法研究与应用[J/OL].情报理论与实践,2016,39(02):59-63.
[9]陆勤虎.基于专利分析方法的区域科技创新能力比较研究[D].天津大学,2009.
[10]李阳.基于专利分析的技术机会识别方法与应用研究[D].北京协和医学院,2013.
[11]郭婕婷,肖国华.专利分析方法研究[J].情报杂志,2008,(01):12-14+11.
[12]陈卓.论专利信息统计分析技术及预测分析方法[J].中国发明与专利,2015,(10):91-92
[13]李飞.基于内容挖掘的专利信息分析的方法体系及应用研究[D].南京理工大学,2008.
[14]黎江.基于专利文献的技术机会分析方法研究[D].中国科学院研究生院(文献情报中心),2008.
[15]劉澎.大数据在专利信息分析中的应用研究[D].江苏科技大学,2016.
[16]李飞.基于内容挖掘的专利信息分析的方法体系及应用研究[D].南京理工大学,2008.
[17]方曙.基于专利信息分析的技术创新能力研究[D].西南交通大学,2007.
【关键词】专利分析;引文分析;数据挖掘;内容分析
专利作为技术信息最有效的载体,对于知识产权战略的实施和企事业单位的研发活动具有重要的意义[1,2]。据世界知识产权组织(WIPO)的统计,全世界每年有 95%~98%的发明创造成果都可以在专利文献中查到[3]。
随着世界技术竞争的日益激烈, 各国企业纷纷开展专利战略研究[4], 其核心正是专利分析, 即对专利说明书、专利公报中大量零碎的专利信息进行分析、加工、组合, 并利用统计学方法和技巧使这些信息转化为具有总揽全局及预测功能的竞争情报, 从而为企业的技术、产品及服务开发中的决策提供参考[5]。
通过专利分析,可以了解技术的发展现状和趋势, 获知重要的研究机构、发明人,找到核心的技术,为科技创新、知识产权保护等提供参考。技术研发人员可以充分利用专利信息攻克技术难关、避免重复研发,同时还可以进行专利侵权预警专利规避等工作[6~8]。
专利分析不仅是企业争夺技术的前提, 更是企业发展其技术策略, 评估竞争对手的技术实力的手段[9]。因此, 专利分析已经成为企业战略与竞争分析中一种独特而实用的分析方法,已经成为企业竞争情报常用分析方法之一。
本文对各种专利分析方法进行综述,对情报分析人员根据具体需要,快速掌握和选择合适的专利分析方法具有重要意义。
一、基于统计的专利分析
采用统计学方法分析专利主要有专利信息定量分析法,专利信息定性分析法和专利信息拟定量分析法。
(一)专利信息定量分析
专利信息定量分析是研究专利文献的重要方法之一[10],是建立在数学,统计学,运筹学,计量学,计算机等学科的基础之上,通过数学模型和图表等方式,从不同角度研究专利文献中所记载的技术信息。
定量分析的主要方法有时间序列法、频次排序法、利用拉布福德文献分散定律确定核心技术法和技术发展生命周期法。生命周期法是企业常用的方法,该方法一般可以把技术发展过程分为萌芽阶段,生长阶段,成熟阶段和衰老阶段四个阶段。通过统计学中的相关统计参数对上述各个阶段进行定量度量如下[11]。
(1) 技术生产率γ:γ=■
式中a表示当年发明专利申请数,A表示追溯5年的发明专利申请累计数。连续计算数年,若γ值递增,说明该技术处在萌芽生长阶段。
(2)技术成熟系数?琢:?琢=■
式中a同上,b表示当年实用新型专利申请数,连续计算数年,?琢值递减时,反应技术日趋成熟。
(3)技术衰老系数?茁:?茁=■
式中a, b同上,c表示当年外观设计专利或商标申请数,连续计算数年,当?茁值递减时,表示该技术日趋陈旧。
(4)新技术特征系数N:N=■
式中γ表示技术生产率,?琢表示技术成熟系数。系数N表示某项技术新兴和衰老的总和指标,N值越大,新技术特性越强,预示其越具有发展潜力。
(二)专利信息定性分析[6]
专利信息定性分析是指通过对专利文献内在特征,即对专利技术内容进行归纳和演绎,分析与综合以及抽象与概括等分析,了解和分析某技术发展状况的方法。其基本过程为:
图中的流程并非单向过程,各步骤之间可以循环和反复。如,涉及的数据挖掘过程如果有新的之前没有考虑到的问题,则可以重新准备数据;数据挖掘过程中,如发现数据选择过多,也可以重新数据选择。
(三)专利信息拟定量分析
针对不同的分析目的,分析人员需要采用定量与定性相结合的分析方法,即拟定量分析方法[12]。本方法通常由数据统计入手,然后,进行全面,系统的技术分类和比较研究,再进行针对性的量化分析,最后,进行高度科学抽象的定性描述,使整个分析过程由宏观到微观。专利信息中比较常见的拟定量分析方法有专利引文分析方法和数据挖掘等方法。
专利引文分析:专利引文指在目标专利文件被其他专利作为引用文献列出的情况分析。公开时间早,并且接近本领域的核心技术的专利,引证率相对较高,因此,引证率高的专利也常常视为本领域内核心专利。因此,可以根据专利的引证关系,引证时间和技术族谱等综合分析专利。
专利数据挖掘[13]: 数据挖掘是从大量数据中挖掘隐含的、未知的、对决策有潜在价值的知识和规则。这些知识与规则蕴含了数据库中一组对象之间的特定关系,揭示的有用信息可为科学研究、经营决策、市场策划、经济邪测、工业控制提供依据。
数据挖掘的主要采用关联规则、聚类分析、序列摇式、分类等。关联规则是寻找在同一个事件中出现的不同项的相关性。聚类是把一组个体按照相似性归成若干类别,其目的是使得属于同一类别的个体之间的距离尽可能的小,而不同类别的个体间的距离尽可能的大。序列模式和关聆规则相似,其目的也是挖掘数据之间的联系,但序列模式分析的侧重点在于分析数据间的前后序列关系。分类要解决的问题是为一个事件或对象归类。
二、基于自然语言处理的专利分析方法
(一)语义标注方法
语义标注首先分成按照内容的标注方法、按照结构的标注方法与多策略混合的方法。
1.基于内容的方法
以内容理解为主, 主要从文档内容入手进行标注, 采用基于自然语言处理与机器学习技术, 通过各种方法提取句子的模式, 從而进行自然语言处理。通常无结构化文档,直接采用基于内容的方法来进行标注[14]。
这种方法主要从内容上进行分析、提取与识别出有用的语义信息,并用标签进行标注。根据采取技术的不同,进一步分为基于自然语言处理的方法和基于机器学习的方法。自然语言处理,技术包括去除停止词、分词、取词根、词性标注、语法分析、句法分析、短语识别、命名实体识别、指代消解和司义消歧等。 2.基于结构的方法
以结构化分析为主, 主要是从文档结构着手, 结合文档的结构特征来进行标注[15], 常采用一些结构化分解方案或文档模板来进行语义标注如在word文档中的文档结构信息标题层次、样式等。
基于结构的方法主要适用于结构化文档。多策略混合方法是综合内容和结构两个层面来标注,特别适合半结构化文档基于内容的方法是语义标注常用的方法之一。
三、基于文本挖掘的专利分析方法
文本挖掘是指为了发现知识, 从文本数据中抽取隐含的、以前未知的、潜在有用的模式的过程[16]。主要目标是获得文本的主要内容涉及的主题、类属、关键内容等,目前具体实现技术主要有如下几种[17]:
(一)特征抽取
文本特征分为一般特征和数字特征,其中一般特征主要包括名词和名词短语;数字特征主要包括日期、时间、货币以及单纯数字信息。特征是概念的外在表现形式,特征抽取是识别潜在概念结构的重要基础。
(二)主题标引
利用传统的关键词标引技术来标引文本,影响文本标引的质量,导致同义标引词的泛滥,影响检索的查全率。同时也会影响特征抽取的准确度。利用主题词标引代替关键词标引可以提高标引的质量,对改善文本的检索效果十分有益。
(三)文本分类
文本分类的任务是基于内容将自然语言文本自动分配给预定义的类别。文本分类技术类似于数据库挖掘中的分类技术,不同之处在于它需要预先对文本进行特征抽取,它利用文本特征向量对文本进行分类。
(四)文本聚类
聚类就是将一个数据对象的集合分组成为多个类或簇。它的分析并不依赖于已知类标记的数据对象。在通常情况下,聚类的训练数据样本没有类标记,它要划分的类是未知的,通过聚类可以产生这种类标记。文本聚类是对给定的文本集根据文本相似度进行聚类的方法。
(五)自动摘要
自动摘要是利用计算机分析文章的结构,找出文章的主题语句,然后经过整理、组合、修饰,构成文摘的过程。人工编制复杂、量大而且费时,随着互联网的发展,对Web资源信息量巨大,人工编制文摘成本非常高,因此,可以采用软件进行自动摘要。
自动摘要的前提是计算机能够找到关键语句,这要求专利书写严格按照格式规范,要求搜索软件不断更新,具有自动学习功能等。
四、总结
随着科技迅猛的发展,知识越来越成为经济的重要增长点。专利分析已经成为了科技发展和企业获取竞争优势的有效方法。本文对基于统计,自然语言处理,文本挖掘等专利分析方法进行介绍与总结,阐述了专利分析的方法和相关应用。为不同领域科技人员进行专利分析提供了基础。
作者简介:顾建红(1976-),女,民族:汉,籍贯(精确到市):江苏常州,研究方向:专利。
参考文献:
[1]覃兴.运用专利分析进行竞争对手跟踪的方法研究[J].产业与科技论坛,2017,16(03):71-72.
[2]宋巧枝,方曙.专利信息分析方法在企业战略制定中的应用[J].现代情报,2007,(10):193-195.
[3]董微微.专利分析方法对技术路线图制定的支撑作用研究——基于技术创新视角[J].现代情报,2017,37(02):44-51.
[4]张世玉.技术层面专利组合分析方法优化及其应用研究[D].吉林大学,2015.
[5]李向阳,张亚非,基于语义标注的信息抽取,解放军理工大学学报自然科学版,2008
[6]王朝霞,冯培恩,邱清盈专利知识获取及其支持概念创新设计的方法研究,浙江大学,2009
[7]彭茂祥,李浩.基于大数据视角的专利分析方法与模式研究[J/OL].情报理论与实践,2016,39(07):108-113.
[8]刘彤,杨冠灿,侯元元.基于多重关系整合的专利网络分析方法研究与应用[J/OL].情报理论与实践,2016,39(02):59-63.
[9]陆勤虎.基于专利分析方法的区域科技创新能力比较研究[D].天津大学,2009.
[10]李阳.基于专利分析的技术机会识别方法与应用研究[D].北京协和医学院,2013.
[11]郭婕婷,肖国华.专利分析方法研究[J].情报杂志,2008,(01):12-14+11.
[12]陈卓.论专利信息统计分析技术及预测分析方法[J].中国发明与专利,2015,(10):91-92
[13]李飞.基于内容挖掘的专利信息分析的方法体系及应用研究[D].南京理工大学,2008.
[14]黎江.基于专利文献的技术机会分析方法研究[D].中国科学院研究生院(文献情报中心),2008.
[15]劉澎.大数据在专利信息分析中的应用研究[D].江苏科技大学,2016.
[16]李飞.基于内容挖掘的专利信息分析的方法体系及应用研究[D].南京理工大学,2008.
[17]方曙.基于专利信息分析的技术创新能力研究[D].西南交通大学,2007.