融合知识信息的领域专利质量等级预测

来源 :北京信息科技大学 | 被引量 : 0次 | 上传用户:yao080803
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,知识产权、技术创新成为国家、企业竞争的重要因素。越来越多的国家意识到掌握技术核心就能在科技竞争中立于不败之地。随着世界范围内对专利知识产权重视程度的逐步提升,中国的专利申请量也呈现迅速增长趋势,稳居世界第一[1]。然而,中国专利现阶段存在量多而质不精的问题,与此同时,目前我国的专利质量主要依靠领域内专家进行人工评估,为了避免大量人力物力的耗费,课题结合时下最先进的深度学习及自然语言处理技术对专利质量等级的自动预测展开进一步研究。近年来,通过构建技术功效矩阵进行专利布局、核心专利挖掘、技术主题关联分析等内容成为专利方向的热点话题,本文旨在将专利技术功效矩阵作为知识信息维度的一项评估指标用于专利质量等级预测的模型研究,为此还对构成功效矩阵的功效词抽取和技术主题抽取等前序工作展开研究,具体研究工作如下:(1)提出一种多特征融合的专利功效短语抽取模型:为保障后续研究工作的高质量进行,实验对专利功效短语抽取的准确率和召回率提出了更高的要求。文章基于Bert+Bi LSTM+CRF的整体框架,利用Bert模型对文本进行向量化,融合偏旁部首、五笔、词长+词性等特征,接着输入到Bi LSTM或Transformer进行编码,最后使用CRF解码得到对应输入的标签序列,从而得到专利功效短语。实验采用新能源汽车领域的专利文本作为训练数据,尝试组合不同的特征进行实验,实验结果表明,提出的偏旁部首、五笔、词长+词性等特征与神经网络结合抽取专利功效短语的模型在准确率、召回率、F1值上均取得了明显提升,其最优结果F1值达到91.44%,相较于使用主流抽取模型Bert+Bi LSTM+CRF提升了2.34%,证明了多特征融合在功效短语抽取任务上的有效性。(2)提出基于改进版Albert预训练模型的主题词抽取模型:专利市场中包含的巨大价值和核心竞争力推动着各种数据分析技术的发展。其中,技术主题词的提炼与抽取作为专利研究的基础工作,其抽取效果直接影响到专利战略的分析与制定,对后续研究起到至关重要的作用。文章致力于在前人研究的基础上,结合各项先进技术及模型,寻找能够提升专利主题词抽取效果的研究方法。首先利用自建新能源专利语料构建主题词词库作为实验数据,再基于Albert预训练语言模型,Bert中文预训练模型嵌入字向量,融合Bi LSTM进行主题词抽取,其抽取效果得到了显著的提升,最优抽取效果达到81%。(3)提出融合知识信息的领域专利质量等级预测模型:文章将抽取的技术主题与功效短语通过K-Means算法进行聚类,根据其聚类结果进一步构建专利技术功效矩阵。技术功效矩阵表示该技术主题下具有不同功效成果的专利规模,一定程度上反映了专利技术的创新点和空白点。文章通过增加知识信息(包括知识挖掘和领域知识)维度,将技术功效规模作为一项新的评价指标,在一定理论研究的基础上,结合其他维度(包括时间维度、技术维度、法律维度等)进行专利质量的预测。也就是说对于一篇专利,会将文本信息和数字量化指标以及技术功效矩阵进行向量的拼接后利用迁移学习模型对专利进行等级预测。实验表明,融入知识信息的专利质量等级的分类效果得到了进一步提升,其F1值达到75%。综上所述,本课题利用自然语言处理技术和深度学习中最先进的模型,融合专利领域内知识信息特征,从多个维度构建专利质量等级预测模型。该模型可以对海量的专利文献进行质量等级的自动预测,为国家、企业及高校等机构对于专利技术方向的把握提供了有力支撑,为后续专利质量的研究工作开创了崭新的思路。
其他文献
编译错误是新手程序员在编程过程中不可避免遇到的一类错误,其中编译器报错信息通常是协助解决编译错误的主要参考内容。然而,新手程序员因经验不足而难以理解报错信息,进而无法顺利定位并修复错误。研究表明,无法及时解决编译错误会显著降低新手程序员的学习热情。程序错误自动修复技术可以在一定程度上修复编译错误,但仅仅修复错误并不能帮助新手程序员理解错误产生的原因并提升编程能力。基于程序员解决编译错误的过程,改进
学位
深度学习技术使医学影像分类准确率得到显著的提升。高性能深度学习模型需要大规模、高质量标注数据集训练,由医学专家标注构建数据集成本高、耗时久,且无法保证标注同质性,难以满足模型训练的需求。众包、在线搜索等标注方式成本较低,但会产生大量标注噪音,导致模型分类准确率下降。标注数量和质量已经成为制约深度学习在医学影像分类中进一步发展的因素之一。标注噪音鲁棒的方法通过调整损失函数、添加正则项或特殊的训练策略
学位
静电放电是通讯设备应用中很重要的产品可靠性要求。本文通过一个具体的案例,分析介绍了仿真的方法和作用。通过仿真直观地展现静电放电时产品的状态,并根据仿真结果迭代计算,最终分析出更好的解决方案。
会议
在食品数量安全得到保障之后,人们越发关注食品质量安全,在食品营养和卫生方面提出了更高的要求。然而近年来,国内外食品安全事件频发,如美国的沙门氏菌病危机、中国的镉污染大米以及欧洲的二恶英鸡污染事件等,不仅引发了公众恐慌,而且给各国造成了严重的经济损失。因此,为保障食品质量安全,降低食品安全事故发生率,预防食品中的营养不均衡风险和环境污染风险对人体健康造成的危害,本文以机器学习算法为核心,以食品安全检
学位
红外成像具有可夜间成像、穿透性强、能识别伪装等显著优点,逐步走进了人们的视野,其具体应用场景也在不断被发掘。随着对红外成像系统的深入研究,现如今,红外成像系统在现代军事或民用领域均发挥着不可或缺的作用。在红外图像处理领域,小目标检测具有重要的意义。但是,随着红外成像距离的不断增大,导致了目标信号愈发变弱,噪声信号出现的概率大大增加,图像背景杂波干扰严重。并且在远距离成像的情况下,小目标在红外图像中
学位
近年来,随着计算机视觉技术的快速发展,以深度学习为代表的模型驱动类方法在素描人脸合成领域发挥了巨大作用,但也存在一些不可忽视的问题。传统素描人脸合成方法生成的人脸轮廓清晰度不足,纹理粗糙,轮廓内的面部特征细节有所缺失。同时,图像中存在着明显的粗糙像素点,素描风格缺乏真实感。为了解决上述问题,本文提出了特征级联模块,并在此基础上作了针对性改进,主要贡献概括如下:1、提出了一种基于特征滤波的生成对抗网
学位
车联网作为第五代移动通信技术(5th-Generation Communication Technology,5G)的重要应用之一,其应用服务有着多样化的服务质量(Quality of Service,Qo S)需求。随着联网车辆的增加,车联网中频谱资源愈发稀缺,采用正交多址接入方式,难以有效利用频谱资源。5G车联网引入了非正交多址接入(Non-orthogonal Multiple Access
学位
核心素养的培养是目前高中化学教学的核心任务。以核心素养为导向,从高中化学实验教学现状入手,引入项目化实验教学,并在此基础上提出“立足素养,明确目标”“依据目标,构建路线”“取材生活,巧设情境”“任务驱动,合作探究”“分享体验,认知深化”“尊重地位,多元评价”等教学策略,为培养学生化学学科及科学领域的核心素养提供了方法支持。
期刊
MIMO体制毫米波雷达凭借高距离分辨率、无速度盲点、覆盖区域广、全天候工作等优势越来越广泛地被应用在智能安防领域中。在以雷达为中心的安防系统中,邻近多目标跟踪问题解决的关键在于雷达检测数据处理算法。本文主要研究了雷达检测数据处理算法中的数据关联算法,通过对经典数据关联算法进行改进,提升了邻近多目标的跟踪准确率,并设计了一个基本的MIMO雷达多目标跟踪软件,本文具体的工作总结如下:(1)针对多目标跟
学位
高中化学知识相对抽象,学生理解的难度较大。教师需要在教学观念和模式等方面加强创新,灵活利用高中化学实验探究式教学模式去构建高效的高中化学教学课堂,让学生在开放性的氛围中,学习到更多更全与更加实用的知识技能,满足素质教育和新课改的要求。本文主要对高中化学实验探究式教学模式的构建意义和对策进行阐述,希望对高中化学实验教学效果改革起到积极参照作用。
期刊