中文专利辅助写作技术研究

来源 :北京信息科技大学 | 被引量 : 0次 | 上传用户:allen75
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
专利是世界上最大的技术信息源,包含了世界百分之九十以上的科技信息;作为知识产权的核心要素,集中体现了科学技术的发展水平,专利不仅是企业乃至各国争相掌握的重要资源,更是能促进人类科技成果普及、推动科技创新的重要动力。基于专利进行分析,可以了解领域发展现状,及时把握技术发展热点和趋势,以便更好的发现技术机会和进行战略布局,从而有效的提高企业的竞争能力。但是,专利撰写工作量巨大,除了要描述清楚技术信息外,还包含了大量经济和法律信息,此外编写语言也要严格规范,语句和词语使用要严谨,严防侵权。这使得专利的编写一直是专利申请者申请专利路上的一道难题。本文在自建的新能源汽车专利数据集上深度探索专利文本数据特点,以辅助写作为目标深入研究辅助写作相关的关键词抽取技术、文本分类技术以及相似度计算这三大关键技术。本文提出的专利辅助写作相关技术均为具有针对性的技术方法,实验结果表明,本文方法在专利数据集上均取得了更好的实验效果,对专利深加工、专利侵权以及构建专利辅助写作系统等下游研究具有重要意义。本文的主要创新和贡献点如下:(1)提出了一种融合义原与五笔特征的中文专利关键词抽取方法。通过将BERT向量与义原向量和五笔向量进行融合,来捕捉输入序列的语义特征和字形特征,再以词频为权重对特征向量进行赋值,丰富了特征表示的全局信息,最后通过Bi LSTMCRF模型来完成针对专利数据集的关键词抽取任务。实验结果表明,本文方法针对专利文本所抽取的关键词更具原文代表性,效果优于其他基线模型,本文方法!值达到了84.90%。(2)提出了一种基于特征融合的中文专利文本分类方法。通过提取新的重要专有名词更新词表,将经过BERT预训练得到的句子向量与重要专有名词向量进行融合,并将专有名词的TF-IDF值作为权重值进一步与句子向量进行特征融合,改善了专利文本因存在大量未登录词而造成的分类结果不理想的问题。实验结果表明,本文方法针对专利文本的分类效果优于其他基线模型。本文方法!值达到了81.23%。(3)提出了一种结合专利外部特征的WIA-MA-Tree-LSTM相似度计算方法。通过将多头注意力机制与Tree-LSTM结合的方式,将专利文本(W)用依存关系树表示,并在其基础上引入专利的外部特征,同时将文本对中一段文本的特征作为另一段文本的外部特征输入。首先第一层MA-Tree-LSTM通过多头注意力机制引入专利的发明者(I)与申请人(A)信息作为外部特征,第二层MA-Tree-LSTM将文本对中一段文本的特征作为另一段文本的外部特征输入作用在Tree-LSTM的子节点上,赋予子节点不同的权重计算出文本对的相似度值,以此完成文本对的相似度计算任务。使文本对在考虑了专利申请信息中包含的隐藏关联的同时更关注两者相似的部分,改善了现有方法缺乏语义结构信息导致精度低的问题。实验结果表明,本文方法针对专利数据集的相似度计算结果更加准确,优于其他基线模型。本文方法Pearson相关系数达到了0.71,同时均方误差低至0.29。综上所述,本文针对新能源汽车领域专利数据集的特点,应用深度学习方法深入研究了专利辅助写作任务中的关键性技术,包括对专利基本信息和摘要进行关键词抽取、文本分类和相似度计算等技术。本文所述模型一定程度上解决了专利辅助写作技术中的部分难题,对专利辅助写作的下游研究具有重要意义。本文的研究成果对于提高专利申请书写效率、有效避免专利侵权和有效利用研究资源,避免重复性技术研究都具有重要的意义。
其他文献
深度学习技术使医学影像分类准确率得到显著的提升。高性能深度学习模型需要大规模、高质量标注数据集训练,由医学专家标注构建数据集成本高、耗时久,且无法保证标注同质性,难以满足模型训练的需求。众包、在线搜索等标注方式成本较低,但会产生大量标注噪音,导致模型分类准确率下降。标注数量和质量已经成为制约深度学习在医学影像分类中进一步发展的因素之一。标注噪音鲁棒的方法通过调整损失函数、添加正则项或特殊的训练策略
学位
静电放电是通讯设备应用中很重要的产品可靠性要求。本文通过一个具体的案例,分析介绍了仿真的方法和作用。通过仿真直观地展现静电放电时产品的状态,并根据仿真结果迭代计算,最终分析出更好的解决方案。
会议
在食品数量安全得到保障之后,人们越发关注食品质量安全,在食品营养和卫生方面提出了更高的要求。然而近年来,国内外食品安全事件频发,如美国的沙门氏菌病危机、中国的镉污染大米以及欧洲的二恶英鸡污染事件等,不仅引发了公众恐慌,而且给各国造成了严重的经济损失。因此,为保障食品质量安全,降低食品安全事故发生率,预防食品中的营养不均衡风险和环境污染风险对人体健康造成的危害,本文以机器学习算法为核心,以食品安全检
学位
红外成像具有可夜间成像、穿透性强、能识别伪装等显著优点,逐步走进了人们的视野,其具体应用场景也在不断被发掘。随着对红外成像系统的深入研究,现如今,红外成像系统在现代军事或民用领域均发挥着不可或缺的作用。在红外图像处理领域,小目标检测具有重要的意义。但是,随着红外成像距离的不断增大,导致了目标信号愈发变弱,噪声信号出现的概率大大增加,图像背景杂波干扰严重。并且在远距离成像的情况下,小目标在红外图像中
学位
近年来,随着计算机视觉技术的快速发展,以深度学习为代表的模型驱动类方法在素描人脸合成领域发挥了巨大作用,但也存在一些不可忽视的问题。传统素描人脸合成方法生成的人脸轮廓清晰度不足,纹理粗糙,轮廓内的面部特征细节有所缺失。同时,图像中存在着明显的粗糙像素点,素描风格缺乏真实感。为了解决上述问题,本文提出了特征级联模块,并在此基础上作了针对性改进,主要贡献概括如下:1、提出了一种基于特征滤波的生成对抗网
学位
车联网作为第五代移动通信技术(5th-Generation Communication Technology,5G)的重要应用之一,其应用服务有着多样化的服务质量(Quality of Service,Qo S)需求。随着联网车辆的增加,车联网中频谱资源愈发稀缺,采用正交多址接入方式,难以有效利用频谱资源。5G车联网引入了非正交多址接入(Non-orthogonal Multiple Access
学位
核心素养的培养是目前高中化学教学的核心任务。以核心素养为导向,从高中化学实验教学现状入手,引入项目化实验教学,并在此基础上提出“立足素养,明确目标”“依据目标,构建路线”“取材生活,巧设情境”“任务驱动,合作探究”“分享体验,认知深化”“尊重地位,多元评价”等教学策略,为培养学生化学学科及科学领域的核心素养提供了方法支持。
期刊
MIMO体制毫米波雷达凭借高距离分辨率、无速度盲点、覆盖区域广、全天候工作等优势越来越广泛地被应用在智能安防领域中。在以雷达为中心的安防系统中,邻近多目标跟踪问题解决的关键在于雷达检测数据处理算法。本文主要研究了雷达检测数据处理算法中的数据关联算法,通过对经典数据关联算法进行改进,提升了邻近多目标的跟踪准确率,并设计了一个基本的MIMO雷达多目标跟踪软件,本文具体的工作总结如下:(1)针对多目标跟
学位
高中化学知识相对抽象,学生理解的难度较大。教师需要在教学观念和模式等方面加强创新,灵活利用高中化学实验探究式教学模式去构建高效的高中化学教学课堂,让学生在开放性的氛围中,学习到更多更全与更加实用的知识技能,满足素质教育和新课改的要求。本文主要对高中化学实验探究式教学模式的构建意义和对策进行阐述,希望对高中化学实验教学效果改革起到积极参照作用。
期刊
近年来,知识产权、技术创新成为国家、企业竞争的重要因素。越来越多的国家意识到掌握技术核心就能在科技竞争中立于不败之地。随着世界范围内对专利知识产权重视程度的逐步提升,中国的专利申请量也呈现迅速增长趋势,稳居世界第一[1]。然而,中国专利现阶段存在量多而质不精的问题,与此同时,目前我国的专利质量主要依靠领域内专家进行人工评估,为了避免大量人力物力的耗费,课题结合时下最先进的深度学习及自然语言处理技术
学位