论文部分内容阅读
关键词: 专利质量; 机器学习; 区块链; 专利质量分析; 分类预测
日趋激烈的国际竞争大部分围绕着科技展开,科技能反映一个国家的创新能力,而专利是科技创新能力的集中体现。专利中蕴含着丰富的技术、法律和经济信息,能引领国家的创新发展。自2018年开始的中美贸易争端多在专利领域角逐,尤其高科技企业华为屡屡遭美国打压,究其原因就是华为拥有许多核心专利,美国绕不开华为高质量的核心专利的布局。专利已经成为我国的高科技企业提高核心竞争力的利器,我国采取一系列激励性政策鼓励专利的申请,逐渐超越占据申请量前3的美、德、日,一跃成为世界第一专利大国并逐渐产生国际影响[1]。然而,在数量激增的背后,我国的专利质量还有待提高。低质量的专利会阻碍科技进步,浪费申请、审查、授权的人力、物力和财力。专利竞赛理论[2]认为,专利质量比专利数量更重要,高质量的专利能产生较大的经济和法律价值。因此,专利质量的提升是我国从专利大国迈向专利强国的必经之路。提高专利质量的重要前提是明确什么样的专利是高质量专利以及对已经申请的海量专利的质量分类进行初步研判。为此,本研究在专利质量的内涵界定与特征刻画的基础上,以新兴产业的区块链技术为例,运用机器学习方法对专利质量进行分析与分类预测。
学界关于专利质量没有统一的内涵,现有研究主要从3个视角阐述专利质量:基于专利审查员审查的专利质量;基于专利申请者申请的专利质量;基于专利使用者获得许可或者转让的专利质量。基于专利审查员审查的专利质量取决于专利审查员的业务素质[3],本身具备较强专业背景的审查员能进行完整而全面的检索,且审查过程把关严格则授权后的专利质量高。基于申请者申请的专利质量与技术本身高度相关[4],该视角的专利质量较能反映专利质量的内在本质并且能增强风险共担者的信心。基于使用者获得许可或者转让的专利质量从使用者使用专利以后的竞争力来表征[5],如荷兰的阿斯麦在获得一些国家的专利授权后生产的用于制造高精度芯片的光刻机在全球市场具有极强的竞争力,则这些授权的专利质量较高。本研究根据研判专利质量需要考虑专利的时间跨度[6]、专利涉及的产业类型[7]以及可操作性[8]界定专利质量为基于技术本身的专利质量。
1文献综述
国内外基于构建专利质量指标体系刻画专利质量特征的研究主要以专利范围、专利引证、专利维持以及其他专利质量指标体系来评估专利质量。
基于专利范围的专利质量指标体系主要包括技术保护范围和区域保护范围,其中,技术保护范围是专利技术覆盖的范围,涉及专利权利要求数量、国际专利分类号个数;区域保护范围是申请专利的国家和地区,包含专利家族数量、专利优先权、美国专利数量、专利合作条约申请数量。权利要求数量能表征专利质量,权利要求数量越多,专利质量越高[9]。国际专利分类号个数反映专利宽度,其数量越多则技术覆盖范围越广,创新的集成度越高,与专利质量成正相关关系[10]。由此可见,该类指标能表征早期以及后续的专利质量。专利家族数量也叫同族专利数量,由于专利具有区域性,某类专利若想保持竞争力就需要在不同国家和地区申请一系列专利从而形成专利家族,实验证明专利家族数量与专利质量具有一致性[11]。专利优先权数量[12]、美国专利数量[13]、专利合作条约申请数量[14]均与专利质量具有正相关关系,但是美国专利数量和专利合作条约申请数量指标只测度后续的专利质量,无法测度早期的专利质量。基于此,本研究采用专利权利要求数量、国际专利分类号个数、专利家族数量、专利优先权构建专利质量指标体系。
基于专利引证的专利质量指标体系借鉴文献计量学指标体系,主要包括引用和被引用专利质量指标。其中,引用指标也叫后向引用[15],反映专利技术对先前技术的依赖程度,包括引用专利文献和引用科学文献次数;被引用指标也叫前向引用[16],反映专利技术对后续技术的启发程度,包括被引用专利文献和被引用科学文献次数。后向引用与科学关联度密切相关,引用次数多则科学关联度强,专利质量也就越高[17]。前向引用次数多则对后续申请专利影响大,具有较高的技术和经济价值[18]。前向和后向引用指标均在一定程度上揭示专利质量特征,由于专利从申请到授权至少需要18个月,早期专利如果采用前向引用指标则不能评估专利质量,而后向引用指标适合于早期和后续专利的质量评估。鉴于此,本研究采用后向引用指标来构建专利质量指标体系。
基于专利维持的专利质量指标体系主要包括专利寿命和专利有效率。一般情况下,专利寿命维持越长,专利有效率保持越高,专利质量越高。但是由于专利具有时效性,这些指标只能评估后续专利质量,无法表征早期专利质量。
其他专利质量指标主要包括代理人数量[19]、申请人数量[20]、发明人数量[21]、说明书页数[22]、技术循环周期[23]、诉讼次数[24]等。代理人数量、申请人数量、发明人数量、说明书页数越多,则专利技术的复杂度越高,创造性越强,需要团队来完成申请工作,往往授权后的专利质量也就越高。诉讼次数反映专利授权后的法律活跃度,诉讼次数多的专利属于重点专利,其法律、技术和经济价值也就越高。专利技术循环周期反映专利借鉴专利文献的平均年龄,能体现专利技术更新速度,专利技术循环周期越短,专利的竞争力越强,其质量越高。代理人数量、申请人数量、发明人数量、说明书页数、技术循环周期均适合早期和后续的专利质量评估,诉讼次数适于后续的专利质量评估。因此,本研究采用代理人数量、申请人数量、发明人数量、说明书页数、技术循环周期构建专利质量指标体系。
综上所述,可以从专利引证、专利范围以及其他指标构建专利质量指标体系,这些指标体系又包括單指标和多指标并在一定程度上能表征专利质量[25]。一些学者基于专利质量指标体系运用不同方法对专利质量进行评估,这些方法主要集中在传统的统计学[26]、文献计量学[27]、专家打分[28]等方面,也有部分方法关注机器学习[29-30]方面。当处理海量专利质量信息时,传统方法带有一定的主观性,人工成本高,效率和精度会打折扣并且需要一些先验性理论。由于资源限制,其可操作性有时也会受到一定制约,如只能获取一些后续专利质量指标数据进行事后评估而不能进行事前预估。部分研究运用机器学习单一模型方法[31]对专利质量进行评估研究,其指标选取的层次划分清晰度和实验结果精度有进一步提高的空间。基于此,本研究以新兴产业的区块链技术为例,根据专利质量指标选取的科学性、易操作性原则筛选出属于专利引证、专利范围以及其他指标体系的专利权利要求数量、国际专利分类号个数、专利家族数量、专利优先权、引用专利文献次数、引用科学文献数量、代理人数量、申请人数量、发明人数量、说明书页数、技术循环周期质量指标,运用机器学习的组合模型提取出区块链技术专利质量的主要特征并对区块链技术专利质量进行分类预测,以期为专利审查员节省精力、提高效率,并为专利申请者提前进行专利布局提供参考。 2研究方法
本研究提出一个结合自组织映射(Self-organizationMapping—SOM)、核主成分分析(KernalPrincipalComponentsAnalysis—KPCA)和支持向量机(SupportVectorMachine—SVM)的区块链技术专利质量自动分类模型。该质量分类模型分两个阶段实现:第一阶段是区块链技术专利分析和质量分类的界定,第二阶段是区块链技术专利质量分类模型的建立,如图1所示。在第一阶段,本研究从国家知识产权专利数据库中收集与区块链技术相关的专利数据,然后基于自组织映射将区块链技术专利聚类成几个质量组,并通过每个质量组的质量指标来界定每一组的质量等级。第二阶段,本研究首先基于核主成分分析从区块链技术专利数据集提取主要特征,然后基于支持向量机分类器并利用区块链技术专利质量的非线性特征建立区块链技术专利质量的分类模型,以提高分类效果。最后,本研究预测区块链技术专利质量的分类,并评估区块链技术专利质量分类的效果。具体过程如图1所示:
2.1区块链技术专利质量的分析与界定
2.1.1区块链技术专利数据的收集和区块链技术专利质量特征的处理
从国家知识产权局获得区块链技术专利数据,国家知识产权局提供区块链技术专利的相关信息,包括分类号、说明书、著录项目和摘要等。本研究的区块链技术专利质量特征使用最小—最大法进行标准化处理。
2.1.2基于自组织映射的区块链技术专利质量分析
相较于K-means算法,自组织映射接近人脑自组织特性。该算法在聚类过程中引入竞争邻域,通过某个神经元及邻近神经元的竞争关系来动态调整权重,经过若干次调整得到聚类结果。该算法相对欧式距离作为聚类判定有一定程度的改进,因此本研究选取该聚类算法。本研究使用自组织映射对区块链技术专利质量进行分析和分类的界定以区分不同的质量组。该自组织映射神经网络结构由输入层和输出层组成,其中输入层神经元个数设置为11,输出层神经元个数为9,初始学习率为0.8,迭代次数为1000。
本研究按照以下步骤使用自组织映射将各类区块链技术专利质量进行分组:
第一步:初始化类神经网络,并随机为链接值赋予权重。
第二步:将各项区块链专利质量的特征作为输入变量,并记录每项数据与其他项数据的邻近关系。接着通过欧几里得距离计算各特征向量与各神经元的链接权重,所得最短距离的神经元称为优胜神经元。
第三步:以优胜神经元为中心,调整优胜神经元及邻近神经区域的权重链接向量。
第四步:反复进行第二步和第三步,直到满足设定的收敛条件,完成所有质量的分组。根据每项区块链专利数据的专利质量指标,将具有相似质量指标的专利分组在一起。
2.2预测区块链技术专利质量的分类
2.2.1核主成分分析萃取区块链技术专利质量特征
核主成分分析可以过滤区块链技术专利数据噪声、降低数据维数,有助于提高分类模型的预测准确率并减少运算时间。将所有区块链技术专利数据依据公开年份分为训练数据和测试数据,并对训练数据集中的区块链技术专利质量特征进行核主成分分析,提取出区块链技术专利质量的特征值。
本研究首先利用核函数将原始数据映射至高维的特征空间中,将具有11个维度的区块链专利质量特征通过核函数进行转换,并计算该核函数的核矩阵,接着找出特征空间中的平均中心点,再将核矩阵去中心化。将去中心化后的核矩阵代入主成分分析公式计算,求解特征值,得到其特征值及对应的特征向量。通过区块链专利特征数据的平均中心萃取出非线性关系的主成分并得到新的特征向量以及区块链专利质量的主要的特征值。
2.2.2预测区块链技术专利质量的分类
训练支持向量机的输入变量为经过核主成分分析得到的区块链专利质量特征。首先使用核函数将测试数据转换至高维度的向量空间,并在训练过程中利用支持向量与边界找寻最佳的线性超平面。
使用区块链技术专利训练数据建立非线性支持向量机分类模型时,若将区块链专利训练数据分到不合适的质量组,会影响分类模型的效果。因此需适当地选择超平面与目标函数并建立分类模型。
建立预测区块链技术专利质量分类的模型后,从区块链专利训练数据集中抽取一部分测试的区块链专利数据进行区块链专利质量的分类。采用从训练数据中所取得的核函数、特征向量在非线性的区块链技术专利质量特征空间中进行区块链技术专利质量的转换并萃取主要特征。
2.2.3区块链技术专利质量分类效果评价
为评价区块链技术专利质量分类效果,用混淆矩阵记录区块链技术专利质量的分类情况。表1中,混淆矩阵的4个主要元素用于表征测试集的区块链技术专利质量分类情况,其中真正向(TruePositive-TP)表示属于类别k所有的区块链技术专利,被正确分类到该类别的区块链技术专利数量;真负向(TrueNegative-TN)表示屬于非类别k所有的区块链技术专利,被正确分类到非类别k的区块链技术专利数量;伪正向(FalsePositive-FP)表示属于非类别k所有的区块链技术专利,被错误分类到类别k的区块链技术专利数量;伪负向(FalseNegative-FN)表示属于类别k所有的区块链技术专利,被错误分类到非类别k的区块链技术专利数量。
基于表1,本研究用正确率(Accuracy-AC)、精度(Precision-PR)和召回率(Recall-RE)3个分类评价指标评估区块链技术专利质量分类的效果,3个评价指标公式如下:
3实验结果
本研究设计一系列测试来评估提出的自组织映射—核主成分分析—支持向量机(SOM-KPCASVM)组合模型。本实验有3组参数,一是时间尺度上有5年、10年、20年3个不同时期的区块链技术专利数据集;二是区块链技术专利质量组的数量有3种,即3个质量组、5个质量组和7个质量组;最后,特征提取的数目有4个百分点,分别是40%、60%、80%和100%。 3.1区块链技术专利数据集与统计分析
本研究从国家知识产权局收集时间跨度从2001—2020年的21496项中国区块链技术专利数据。图2的统计数据显示2001—2020年与中国区块链技术相关的年度申请专利,从统计图可以看出近年来中国区块链专利数量增长迅速,之所以到2020年出现下滑是因为统计的是2020年的前几个月,但比2019年同时期的要多。截至2020年7月9日,中国共有33个省级行政区申请区块链专利,其中广东、北京、浙江、上海、江苏、山东、四川、福建、湖北、陕西、安徽、重庆、湖南、河南、天津占据全部区块链技术专利申请量90%以上,而这些省级行政区大多位于长三角、珠三角、京津冀三大经济带上,这也间接反映经济发达区的区块链技术专利申请量较大。
为探究实验合理性,本研究设置3个时间段处理区块链技术专利数据集,3个时间段分别为短期(ShortTerm-ST)、中期(MiddleTerm-MT)和长期(LongTerm-LT),其中:
短期(ST)组(2016—2020):21344项。
中期(MT)组(2011—2020):21432项。
长期(LT)组(2001—2020):21496项。
根据前文梳理的专利质量指标体系,筛选出表征区块链技术专利质量的11个特征,如表2所示,专利组的质量分数由这11个特征经式(4)计算所得。这些特征作为自组织映射的输入变量,将区块链技术专利质量聚类到不同的质量组中。
其中,groupk表示第k个专利质量组,在第k个质量组中有a项专利数据和b个质量特征,且第x项专利的第y个特征值为kxy。
3.2区块链技术专利质量分析结果
本研究基于自组织映射界定分组的区块链技术专利质量类别。其中,区块链技术专利数量是影响区块链技术专利质量分组数量的一个重要因素。为对区块链技术专利质量进行适当的聚类,本研究设计不同的质量组,即3个质量组(3QG)、5个质量组(5QG)和7个质量组(7QG)。此外,本研究还对每组区块链技术专利进行探究,并检查每个专利的质量指标,以确保分类的一致性。表3显示3个不同的区块链技术专利质量组的分类情况,其中3个质量组短期(ST)数据分析的最低质量分数为0.0799,属于低质量组(G1);中等质量分数为0.5580,属于分类的中等质量组(G2);最大质量分数为1.1545,因此属于优质组(G3)。由上述分析可知,所有G1组均为劣质专利,且在不同时期的平均质量最低。所有G3在3QG、G5在5QG以及G7在7QG是最高的区块链专利质量组。本研究分别在短期(ST)、中期(MT)和长期(LT)3个数据集划分训练数据集和测试数据集,所有不同年份的数据都使用2018—2020年区块链技术专利数据作为测试数据来验证模型效果。训练数据的年度范围各不相同,短期数据集的训练数据范围为2013—2017年,中期数据集的训练数据集为2008—2017年,长期数据集的年度训练数据范围为2001—2017年。在训练数据集中,以区块链技术专利的质量特征作为输入变量训练区块链技术专利质量分类器,然后通过测试数据进行区块链技术专利质量分类预测。表4阐明训练集和测试集的区块链技术专利数量分布情况,其中包括3个不同组的区块链技术质量分类指标值差异与3个不同年份范围的数据。
在模型效果评估阶段,使用不同类型的核函数提取出不同的区块链技术专利质量特征会影响区块链专利质量预测的效果。本研究采用3种方法,即:①用于核主成分分析的高斯核函数(Gauss);②用于核主成分分析的多项式核函数(Poly);③非核主成分分析(Non-KPCA)建立支持向量机的分类模型并评估不同的区块链技术专利质量特征提取方法的效果。高斯核函数(Gauss)和多项式核函数(Poly)提取不同比例的主要成分并进一步观察不同比例的主要成分对效果的影响。表5比较高斯核函数和多项式核函数对3个不同年度数据集的可解释性。当高斯核函数取前40%的主成分时,3个数据集的专利质量特征解释率分别为52.16%、54.23%和48.72%;采用前80%的主成分时,解释率分别高达92.45%、95.01%和92.21%。当多项式核函数取40%的主成分时,解释量分别达到90.17%、93.26%和91.82%;当主成分占80%时,各数据集的解释率达到92%以上。从这一结果可以判断,利用多项式核函数分析核主成分可以有效地降低区块链技术专利质量特征的维数。
基于上述分析,本研究验证自组织映射—核主成分分析—支持向量机(SOM-KPCA-SVM)的效果,并评估选取40%、60%、80%、100%的主成分的效果,以混淆矩阵计算各组区块链技术专利质量每个类别的准确率(AC)、精度(PR)、召回率(RE),此处表示各区块链专利质量组的平均准确率、平均精度与平均召回率。表6为自组织映射—核主成分分析—支持向量机(SOM-KPCA-SVM)采用高斯核函数(Gauss)萃取区块链专利特征的分类效果,在短期数据集中取前80%的主成分时具有较高的准确率;中期取60%或取80%的主成分时能有较高的准确率;长期则需取前60%的主成分可得到较高的准确率。由该表可得知,不同区块链专利质量组在短期均具有较高的准确率,接着是中期,最后是长期,可见数据量过多会影响分类的准确性,若分组过多即聚类数目大,其准确率会下降。
表7为自组织映射—核主成分分析—支持向量机(SOM-KPCA-SVM)采用多项式核函数(Poly)萃取区块链技术专利质量特征的分类效果,大部分的测试集均在取前60%以上的主成分时可得到较高的准确率。相较于高斯核函数,多项式核函数能有效萃取出区块链技术专利质量重要信息并显著降低数据维度。
表8为采用非核主成分分析、高斯核函数以及多项式核函数的分类效果比较表,不同的萃取方法,其预测模型分类的正确率也有差异。在短期,相较于非核主成分分析与高斯核函数,多项式核函数的分类正确率较高。在中期,分3组时,多项式核函数的分类正确率较高;分5组时,高斯核函数与多项式核函数的正确率比使用非核主成分分析的正确率高;分7组时,非核主成分分析效果较好。在长期,使用多项式核函数的正确率均为最高。由表9可知,建立模型时使用多项式核函数方法较为优异并且可以有效地提高预测正确率。此外,该实验通过精细化分类和特征提取,有效地提高了预测精度,其分类性能比类似实驗[32]的分类性能要好。因此,本研究的机器学习组合模型可以对区块链技术专利质量进行分类预测。 4研究结论
本研究在界定专利质量含义并构建专利质量指标体系基础上,以新兴产业的区块链技术专利为例,运用机器学习的组合模型进行专利质量分析和分类预测,对学术界和产业界客观评价当前区块链技术专利质量和捕捉潜在专利价值信息具有一定参考价值。对区块链技术专利质量的分析与分类预测研究有以下结论:
1)区块链技术专利质量分类组的数量差异会影响分析的合理性。当采用3组进行聚类时,这些组在区块链技术专利质量上的相似度太高,因此组之间的差异小;采用7组聚类时又产生由于分组较多导致的对比混乱问题;分5组聚类时,各组内区块链技术专利质量较为接近,并且不同的区块链技术专利质量组间差异明显。
2)非线性特征变换能提高分类性能。在非线性特征变换中,多项式核函数的准确率、精度和召回率高于高斯核函数。
3)不同核函数提取的不同的主要专利质量特征会影响实验的精度。
4)本研究提出的专利质量分类模型相较于之前单一机器学习模型能在缺少事后(专利授权后)指标的情况下判定早期(新申请)的专利质量类型。因此,本研究可能会帮助专利申请者提前进行专利布局。此外,本研究的自动专利质量分析和分类尽可能减少专利审查员的人工处理时间并提高部分专利申请者对市场趋势的反应灵敏度。
本研究提出基于机器学习的专利质量分析和分类预测的自组织映射—核主成分分析—支持向量机(SOM-KPCA-SVM)模型。一方面,自组织映射可以区分不同区块链技术专利质量组间的質量指标差异,具有一定的统计学意义;另一方面,核主成分分析有效地改变区块链技术专利文献的非线性特征空间以提高分类效果。此外,支持向量机建立一个有效的区块链技术专利质量问题分类模型,该模型可以在短时间内确定区块链技术专利质量类别并提高分析效率。综上所述,本研究使用区块链技术专利的21496项专利数据集并结合11个专利质量特征来训练自组织映射—核主成分分析—支持向量机(SOM-KPCA-SVM)模型,最后使用3306项区块链技术专利历史数据来测试模型。该实验在区块链技术专利质量分类预测中的准确率达87.26%,表明通过增加区块链专利质量评估的其他标准和因素,可以进一步完善区块链技术专利质量分类预测的方法。本研究在一定程度上帮助专利审查员提高业务素质,协助专利申请者提前进行专利布局并启发未来的专利使用者产品研发的方向。本研究未来可以在专利质量指标的选取以及模型的优化上进行深度探索。
日趋激烈的国际竞争大部分围绕着科技展开,科技能反映一个国家的创新能力,而专利是科技创新能力的集中体现。专利中蕴含着丰富的技术、法律和经济信息,能引领国家的创新发展。自2018年开始的中美贸易争端多在专利领域角逐,尤其高科技企业华为屡屡遭美国打压,究其原因就是华为拥有许多核心专利,美国绕不开华为高质量的核心专利的布局。专利已经成为我国的高科技企业提高核心竞争力的利器,我国采取一系列激励性政策鼓励专利的申请,逐渐超越占据申请量前3的美、德、日,一跃成为世界第一专利大国并逐渐产生国际影响[1]。然而,在数量激增的背后,我国的专利质量还有待提高。低质量的专利会阻碍科技进步,浪费申请、审查、授权的人力、物力和财力。专利竞赛理论[2]认为,专利质量比专利数量更重要,高质量的专利能产生较大的经济和法律价值。因此,专利质量的提升是我国从专利大国迈向专利强国的必经之路。提高专利质量的重要前提是明确什么样的专利是高质量专利以及对已经申请的海量专利的质量分类进行初步研判。为此,本研究在专利质量的内涵界定与特征刻画的基础上,以新兴产业的区块链技术为例,运用机器学习方法对专利质量进行分析与分类预测。
学界关于专利质量没有统一的内涵,现有研究主要从3个视角阐述专利质量:基于专利审查员审查的专利质量;基于专利申请者申请的专利质量;基于专利使用者获得许可或者转让的专利质量。基于专利审查员审查的专利质量取决于专利审查员的业务素质[3],本身具备较强专业背景的审查员能进行完整而全面的检索,且审查过程把关严格则授权后的专利质量高。基于申请者申请的专利质量与技术本身高度相关[4],该视角的专利质量较能反映专利质量的内在本质并且能增强风险共担者的信心。基于使用者获得许可或者转让的专利质量从使用者使用专利以后的竞争力来表征[5],如荷兰的阿斯麦在获得一些国家的专利授权后生产的用于制造高精度芯片的光刻机在全球市场具有极强的竞争力,则这些授权的专利质量较高。本研究根据研判专利质量需要考虑专利的时间跨度[6]、专利涉及的产业类型[7]以及可操作性[8]界定专利质量为基于技术本身的专利质量。
1文献综述
国内外基于构建专利质量指标体系刻画专利质量特征的研究主要以专利范围、专利引证、专利维持以及其他专利质量指标体系来评估专利质量。
基于专利范围的专利质量指标体系主要包括技术保护范围和区域保护范围,其中,技术保护范围是专利技术覆盖的范围,涉及专利权利要求数量、国际专利分类号个数;区域保护范围是申请专利的国家和地区,包含专利家族数量、专利优先权、美国专利数量、专利合作条约申请数量。权利要求数量能表征专利质量,权利要求数量越多,专利质量越高[9]。国际专利分类号个数反映专利宽度,其数量越多则技术覆盖范围越广,创新的集成度越高,与专利质量成正相关关系[10]。由此可见,该类指标能表征早期以及后续的专利质量。专利家族数量也叫同族专利数量,由于专利具有区域性,某类专利若想保持竞争力就需要在不同国家和地区申请一系列专利从而形成专利家族,实验证明专利家族数量与专利质量具有一致性[11]。专利优先权数量[12]、美国专利数量[13]、专利合作条约申请数量[14]均与专利质量具有正相关关系,但是美国专利数量和专利合作条约申请数量指标只测度后续的专利质量,无法测度早期的专利质量。基于此,本研究采用专利权利要求数量、国际专利分类号个数、专利家族数量、专利优先权构建专利质量指标体系。
基于专利引证的专利质量指标体系借鉴文献计量学指标体系,主要包括引用和被引用专利质量指标。其中,引用指标也叫后向引用[15],反映专利技术对先前技术的依赖程度,包括引用专利文献和引用科学文献次数;被引用指标也叫前向引用[16],反映专利技术对后续技术的启发程度,包括被引用专利文献和被引用科学文献次数。后向引用与科学关联度密切相关,引用次数多则科学关联度强,专利质量也就越高[17]。前向引用次数多则对后续申请专利影响大,具有较高的技术和经济价值[18]。前向和后向引用指标均在一定程度上揭示专利质量特征,由于专利从申请到授权至少需要18个月,早期专利如果采用前向引用指标则不能评估专利质量,而后向引用指标适合于早期和后续专利的质量评估。鉴于此,本研究采用后向引用指标来构建专利质量指标体系。
基于专利维持的专利质量指标体系主要包括专利寿命和专利有效率。一般情况下,专利寿命维持越长,专利有效率保持越高,专利质量越高。但是由于专利具有时效性,这些指标只能评估后续专利质量,无法表征早期专利质量。
其他专利质量指标主要包括代理人数量[19]、申请人数量[20]、发明人数量[21]、说明书页数[22]、技术循环周期[23]、诉讼次数[24]等。代理人数量、申请人数量、发明人数量、说明书页数越多,则专利技术的复杂度越高,创造性越强,需要团队来完成申请工作,往往授权后的专利质量也就越高。诉讼次数反映专利授权后的法律活跃度,诉讼次数多的专利属于重点专利,其法律、技术和经济价值也就越高。专利技术循环周期反映专利借鉴专利文献的平均年龄,能体现专利技术更新速度,专利技术循环周期越短,专利的竞争力越强,其质量越高。代理人数量、申请人数量、发明人数量、说明书页数、技术循环周期均适合早期和后续的专利质量评估,诉讼次数适于后续的专利质量评估。因此,本研究采用代理人数量、申请人数量、发明人数量、说明书页数、技术循环周期构建专利质量指标体系。
综上所述,可以从专利引证、专利范围以及其他指标构建专利质量指标体系,这些指标体系又包括單指标和多指标并在一定程度上能表征专利质量[25]。一些学者基于专利质量指标体系运用不同方法对专利质量进行评估,这些方法主要集中在传统的统计学[26]、文献计量学[27]、专家打分[28]等方面,也有部分方法关注机器学习[29-30]方面。当处理海量专利质量信息时,传统方法带有一定的主观性,人工成本高,效率和精度会打折扣并且需要一些先验性理论。由于资源限制,其可操作性有时也会受到一定制约,如只能获取一些后续专利质量指标数据进行事后评估而不能进行事前预估。部分研究运用机器学习单一模型方法[31]对专利质量进行评估研究,其指标选取的层次划分清晰度和实验结果精度有进一步提高的空间。基于此,本研究以新兴产业的区块链技术为例,根据专利质量指标选取的科学性、易操作性原则筛选出属于专利引证、专利范围以及其他指标体系的专利权利要求数量、国际专利分类号个数、专利家族数量、专利优先权、引用专利文献次数、引用科学文献数量、代理人数量、申请人数量、发明人数量、说明书页数、技术循环周期质量指标,运用机器学习的组合模型提取出区块链技术专利质量的主要特征并对区块链技术专利质量进行分类预测,以期为专利审查员节省精力、提高效率,并为专利申请者提前进行专利布局提供参考。 2研究方法
本研究提出一个结合自组织映射(Self-organizationMapping—SOM)、核主成分分析(KernalPrincipalComponentsAnalysis—KPCA)和支持向量机(SupportVectorMachine—SVM)的区块链技术专利质量自动分类模型。该质量分类模型分两个阶段实现:第一阶段是区块链技术专利分析和质量分类的界定,第二阶段是区块链技术专利质量分类模型的建立,如图1所示。在第一阶段,本研究从国家知识产权专利数据库中收集与区块链技术相关的专利数据,然后基于自组织映射将区块链技术专利聚类成几个质量组,并通过每个质量组的质量指标来界定每一组的质量等级。第二阶段,本研究首先基于核主成分分析从区块链技术专利数据集提取主要特征,然后基于支持向量机分类器并利用区块链技术专利质量的非线性特征建立区块链技术专利质量的分类模型,以提高分类效果。最后,本研究预测区块链技术专利质量的分类,并评估区块链技术专利质量分类的效果。具体过程如图1所示:
2.1区块链技术专利质量的分析与界定
2.1.1区块链技术专利数据的收集和区块链技术专利质量特征的处理
从国家知识产权局获得区块链技术专利数据,国家知识产权局提供区块链技术专利的相关信息,包括分类号、说明书、著录项目和摘要等。本研究的区块链技术专利质量特征使用最小—最大法进行标准化处理。
2.1.2基于自组织映射的区块链技术专利质量分析
相较于K-means算法,自组织映射接近人脑自组织特性。该算法在聚类过程中引入竞争邻域,通过某个神经元及邻近神经元的竞争关系来动态调整权重,经过若干次调整得到聚类结果。该算法相对欧式距离作为聚类判定有一定程度的改进,因此本研究选取该聚类算法。本研究使用自组织映射对区块链技术专利质量进行分析和分类的界定以区分不同的质量组。该自组织映射神经网络结构由输入层和输出层组成,其中输入层神经元个数设置为11,输出层神经元个数为9,初始学习率为0.8,迭代次数为1000。
本研究按照以下步骤使用自组织映射将各类区块链技术专利质量进行分组:
第一步:初始化类神经网络,并随机为链接值赋予权重。
第二步:将各项区块链专利质量的特征作为输入变量,并记录每项数据与其他项数据的邻近关系。接着通过欧几里得距离计算各特征向量与各神经元的链接权重,所得最短距离的神经元称为优胜神经元。
第三步:以优胜神经元为中心,调整优胜神经元及邻近神经区域的权重链接向量。
第四步:反复进行第二步和第三步,直到满足设定的收敛条件,完成所有质量的分组。根据每项区块链专利数据的专利质量指标,将具有相似质量指标的专利分组在一起。
2.2预测区块链技术专利质量的分类
2.2.1核主成分分析萃取区块链技术专利质量特征
核主成分分析可以过滤区块链技术专利数据噪声、降低数据维数,有助于提高分类模型的预测准确率并减少运算时间。将所有区块链技术专利数据依据公开年份分为训练数据和测试数据,并对训练数据集中的区块链技术专利质量特征进行核主成分分析,提取出区块链技术专利质量的特征值。
本研究首先利用核函数将原始数据映射至高维的特征空间中,将具有11个维度的区块链专利质量特征通过核函数进行转换,并计算该核函数的核矩阵,接着找出特征空间中的平均中心点,再将核矩阵去中心化。将去中心化后的核矩阵代入主成分分析公式计算,求解特征值,得到其特征值及对应的特征向量。通过区块链专利特征数据的平均中心萃取出非线性关系的主成分并得到新的特征向量以及区块链专利质量的主要的特征值。
2.2.2预测区块链技术专利质量的分类
训练支持向量机的输入变量为经过核主成分分析得到的区块链专利质量特征。首先使用核函数将测试数据转换至高维度的向量空间,并在训练过程中利用支持向量与边界找寻最佳的线性超平面。
使用区块链技术专利训练数据建立非线性支持向量机分类模型时,若将区块链专利训练数据分到不合适的质量组,会影响分类模型的效果。因此需适当地选择超平面与目标函数并建立分类模型。
建立预测区块链技术专利质量分类的模型后,从区块链专利训练数据集中抽取一部分测试的区块链专利数据进行区块链专利质量的分类。采用从训练数据中所取得的核函数、特征向量在非线性的区块链技术专利质量特征空间中进行区块链技术专利质量的转换并萃取主要特征。
2.2.3区块链技术专利质量分类效果评价
为评价区块链技术专利质量分类效果,用混淆矩阵记录区块链技术专利质量的分类情况。表1中,混淆矩阵的4个主要元素用于表征测试集的区块链技术专利质量分类情况,其中真正向(TruePositive-TP)表示属于类别k所有的区块链技术专利,被正确分类到该类别的区块链技术专利数量;真负向(TrueNegative-TN)表示屬于非类别k所有的区块链技术专利,被正确分类到非类别k的区块链技术专利数量;伪正向(FalsePositive-FP)表示属于非类别k所有的区块链技术专利,被错误分类到类别k的区块链技术专利数量;伪负向(FalseNegative-FN)表示属于类别k所有的区块链技术专利,被错误分类到非类别k的区块链技术专利数量。
基于表1,本研究用正确率(Accuracy-AC)、精度(Precision-PR)和召回率(Recall-RE)3个分类评价指标评估区块链技术专利质量分类的效果,3个评价指标公式如下:
3实验结果
本研究设计一系列测试来评估提出的自组织映射—核主成分分析—支持向量机(SOM-KPCASVM)组合模型。本实验有3组参数,一是时间尺度上有5年、10年、20年3个不同时期的区块链技术专利数据集;二是区块链技术专利质量组的数量有3种,即3个质量组、5个质量组和7个质量组;最后,特征提取的数目有4个百分点,分别是40%、60%、80%和100%。 3.1区块链技术专利数据集与统计分析
本研究从国家知识产权局收集时间跨度从2001—2020年的21496项中国区块链技术专利数据。图2的统计数据显示2001—2020年与中国区块链技术相关的年度申请专利,从统计图可以看出近年来中国区块链专利数量增长迅速,之所以到2020年出现下滑是因为统计的是2020年的前几个月,但比2019年同时期的要多。截至2020年7月9日,中国共有33个省级行政区申请区块链专利,其中广东、北京、浙江、上海、江苏、山东、四川、福建、湖北、陕西、安徽、重庆、湖南、河南、天津占据全部区块链技术专利申请量90%以上,而这些省级行政区大多位于长三角、珠三角、京津冀三大经济带上,这也间接反映经济发达区的区块链技术专利申请量较大。
为探究实验合理性,本研究设置3个时间段处理区块链技术专利数据集,3个时间段分别为短期(ShortTerm-ST)、中期(MiddleTerm-MT)和长期(LongTerm-LT),其中:
短期(ST)组(2016—2020):21344项。
中期(MT)组(2011—2020):21432项。
长期(LT)组(2001—2020):21496项。
根据前文梳理的专利质量指标体系,筛选出表征区块链技术专利质量的11个特征,如表2所示,专利组的质量分数由这11个特征经式(4)计算所得。这些特征作为自组织映射的输入变量,将区块链技术专利质量聚类到不同的质量组中。
其中,groupk表示第k个专利质量组,在第k个质量组中有a项专利数据和b个质量特征,且第x项专利的第y个特征值为kxy。
3.2区块链技术专利质量分析结果
本研究基于自组织映射界定分组的区块链技术专利质量类别。其中,区块链技术专利数量是影响区块链技术专利质量分组数量的一个重要因素。为对区块链技术专利质量进行适当的聚类,本研究设计不同的质量组,即3个质量组(3QG)、5个质量组(5QG)和7个质量组(7QG)。此外,本研究还对每组区块链技术专利进行探究,并检查每个专利的质量指标,以确保分类的一致性。表3显示3个不同的区块链技术专利质量组的分类情况,其中3个质量组短期(ST)数据分析的最低质量分数为0.0799,属于低质量组(G1);中等质量分数为0.5580,属于分类的中等质量组(G2);最大质量分数为1.1545,因此属于优质组(G3)。由上述分析可知,所有G1组均为劣质专利,且在不同时期的平均质量最低。所有G3在3QG、G5在5QG以及G7在7QG是最高的区块链专利质量组。本研究分别在短期(ST)、中期(MT)和长期(LT)3个数据集划分训练数据集和测试数据集,所有不同年份的数据都使用2018—2020年区块链技术专利数据作为测试数据来验证模型效果。训练数据的年度范围各不相同,短期数据集的训练数据范围为2013—2017年,中期数据集的训练数据集为2008—2017年,长期数据集的年度训练数据范围为2001—2017年。在训练数据集中,以区块链技术专利的质量特征作为输入变量训练区块链技术专利质量分类器,然后通过测试数据进行区块链技术专利质量分类预测。表4阐明训练集和测试集的区块链技术专利数量分布情况,其中包括3个不同组的区块链技术质量分类指标值差异与3个不同年份范围的数据。
在模型效果评估阶段,使用不同类型的核函数提取出不同的区块链技术专利质量特征会影响区块链专利质量预测的效果。本研究采用3种方法,即:①用于核主成分分析的高斯核函数(Gauss);②用于核主成分分析的多项式核函数(Poly);③非核主成分分析(Non-KPCA)建立支持向量机的分类模型并评估不同的区块链技术专利质量特征提取方法的效果。高斯核函数(Gauss)和多项式核函数(Poly)提取不同比例的主要成分并进一步观察不同比例的主要成分对效果的影响。表5比较高斯核函数和多项式核函数对3个不同年度数据集的可解释性。当高斯核函数取前40%的主成分时,3个数据集的专利质量特征解释率分别为52.16%、54.23%和48.72%;采用前80%的主成分时,解释率分别高达92.45%、95.01%和92.21%。当多项式核函数取40%的主成分时,解释量分别达到90.17%、93.26%和91.82%;当主成分占80%时,各数据集的解释率达到92%以上。从这一结果可以判断,利用多项式核函数分析核主成分可以有效地降低区块链技术专利质量特征的维数。
基于上述分析,本研究验证自组织映射—核主成分分析—支持向量机(SOM-KPCA-SVM)的效果,并评估选取40%、60%、80%、100%的主成分的效果,以混淆矩阵计算各组区块链技术专利质量每个类别的准确率(AC)、精度(PR)、召回率(RE),此处表示各区块链专利质量组的平均准确率、平均精度与平均召回率。表6为自组织映射—核主成分分析—支持向量机(SOM-KPCA-SVM)采用高斯核函数(Gauss)萃取区块链专利特征的分类效果,在短期数据集中取前80%的主成分时具有较高的准确率;中期取60%或取80%的主成分时能有较高的准确率;长期则需取前60%的主成分可得到较高的准确率。由该表可得知,不同区块链专利质量组在短期均具有较高的准确率,接着是中期,最后是长期,可见数据量过多会影响分类的准确性,若分组过多即聚类数目大,其准确率会下降。
表7为自组织映射—核主成分分析—支持向量机(SOM-KPCA-SVM)采用多项式核函数(Poly)萃取区块链技术专利质量特征的分类效果,大部分的测试集均在取前60%以上的主成分时可得到较高的准确率。相较于高斯核函数,多项式核函数能有效萃取出区块链技术专利质量重要信息并显著降低数据维度。
表8为采用非核主成分分析、高斯核函数以及多项式核函数的分类效果比较表,不同的萃取方法,其预测模型分类的正确率也有差异。在短期,相较于非核主成分分析与高斯核函数,多项式核函数的分类正确率较高。在中期,分3组时,多项式核函数的分类正确率较高;分5组时,高斯核函数与多项式核函数的正确率比使用非核主成分分析的正确率高;分7组时,非核主成分分析效果较好。在长期,使用多项式核函数的正确率均为最高。由表9可知,建立模型时使用多项式核函数方法较为优异并且可以有效地提高预测正确率。此外,该实验通过精细化分类和特征提取,有效地提高了预测精度,其分类性能比类似实驗[32]的分类性能要好。因此,本研究的机器学习组合模型可以对区块链技术专利质量进行分类预测。 4研究结论
本研究在界定专利质量含义并构建专利质量指标体系基础上,以新兴产业的区块链技术专利为例,运用机器学习的组合模型进行专利质量分析和分类预测,对学术界和产业界客观评价当前区块链技术专利质量和捕捉潜在专利价值信息具有一定参考价值。对区块链技术专利质量的分析与分类预测研究有以下结论:
1)区块链技术专利质量分类组的数量差异会影响分析的合理性。当采用3组进行聚类时,这些组在区块链技术专利质量上的相似度太高,因此组之间的差异小;采用7组聚类时又产生由于分组较多导致的对比混乱问题;分5组聚类时,各组内区块链技术专利质量较为接近,并且不同的区块链技术专利质量组间差异明显。
2)非线性特征变换能提高分类性能。在非线性特征变换中,多项式核函数的准确率、精度和召回率高于高斯核函数。
3)不同核函数提取的不同的主要专利质量特征会影响实验的精度。
4)本研究提出的专利质量分类模型相较于之前单一机器学习模型能在缺少事后(专利授权后)指标的情况下判定早期(新申请)的专利质量类型。因此,本研究可能会帮助专利申请者提前进行专利布局。此外,本研究的自动专利质量分析和分类尽可能减少专利审查员的人工处理时间并提高部分专利申请者对市场趋势的反应灵敏度。
本研究提出基于机器学习的专利质量分析和分类预测的自组织映射—核主成分分析—支持向量机(SOM-KPCA-SVM)模型。一方面,自组织映射可以区分不同区块链技术专利质量组间的質量指标差异,具有一定的统计学意义;另一方面,核主成分分析有效地改变区块链技术专利文献的非线性特征空间以提高分类效果。此外,支持向量机建立一个有效的区块链技术专利质量问题分类模型,该模型可以在短时间内确定区块链技术专利质量类别并提高分析效率。综上所述,本研究使用区块链技术专利的21496项专利数据集并结合11个专利质量特征来训练自组织映射—核主成分分析—支持向量机(SOM-KPCA-SVM)模型,最后使用3306项区块链技术专利历史数据来测试模型。该实验在区块链技术专利质量分类预测中的准确率达87.26%,表明通过增加区块链专利质量评估的其他标准和因素,可以进一步完善区块链技术专利质量分类预测的方法。本研究在一定程度上帮助专利审查员提高业务素质,协助专利申请者提前进行专利布局并启发未来的专利使用者产品研发的方向。本研究未来可以在专利质量指标的选取以及模型的优化上进行深度探索。