基于BERT的中文专利分类方法研究

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:passtestall
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
专利作为科技知识的载体,蕴含了丰富的技术、功能、效应等知识。在发明问题解决理论中,使用效应知识可以打破思维惯性,加速产品创新。因此,要建立效应-专利的检索方式,充分利用专利中的效应知识。目前挖掘专利与效应对应关系的方法以概念图匹配为主,存在匹配容错性差的问题。近两年来,用机器学习处理文本分类问题得到广泛关注,本文以效应为标签,对专利文本进行分类来建立二者之间的联系。专利文本维度高,噪声大,为了能更好的进行特征提取和文本表示,提高分类准确率,主要工作如下:(1)改进了传统的互信息特征选择算法,引入平衡因子、类内频度、类内分散度和特征词在专利文本中出现的位置信息。通过专利效应分析,构建了基于效应的特征词表,利用特征词表再一次进行特征选择,利用文本相似度计算的方式对专利文本进行分类。(2)传统的文本表示都是基于词频统计,忽略了语义关系,深度学习网络模型能够自动学习到上下文语义信息,但需要大规模的数据进行训练,目前标注了效应标签的数据集较少。为满足深度学习的需求,本文引入了预模型机制,首先利用大规模无标签的语料进行学习,学习文本特征参数,然后根据文本分类任务对模型进行微调。(3)本文构建了基于BERT(Bidirectional Encoder Representations from Transformers)的文本分类框架,训练了基于中文分词的专利文本预模型,通过读取8000篇无标记的专利文本,利用双向结构获取上下文信息,同时利用Transformer的深度模型结构,预测被随机MASK的词,联系上下文来学习句子内部关系。利用训练好的预模型,读取有标签的专利文本进行训练,并利用验证集调整参数,保存最佳模型参数,调用softmax分类器得到结果并进行评价。实验使用的语料包括100条物理类效应,人工分析了3000篇专利及其所属的效应,作为数据集,进行实验。本文以准确率和召回率为文本分类评价指标,设置了多组对比实验。实验结果表明,使用引入特征词表的多特征互信息特征选择算法进行文本分类的结果,明显优于传统特征选择算法。利用中文专利文本训练的BERT预模型得到的结果要明显优于传统机器学习算法和深度神经网络模型,且在不损失精度的情况下,节省了时间成本。
其他文献
硝基烷烃和二元羧酸广泛应用于材料、医药、染料、农药、表面活性剂和润滑剂等精细化学品的制造。其中,硝基环己烷不仅是一种性能良好的有机溶剂和高能染料,而且还能加氢还原
背景肺癌是目前全球范围内最常见的恶性肿瘤之一,非小细胞肺癌(non-small lung cancer NSCLC)约占整体肺癌的80%,其中肺腺癌占比最高。I-II期NSCLC患者首选治疗方式为手术切除,部分IIIB期以及IV期则以同步化放疗、靶向治疗以及免疫治疗为主,不推荐外科手术治疗;对于ⅢA期非小细胞肺癌,目前的主要治疗方式仍有较大争议,有学者认为该分期较晚,手术治疗对于患者损伤较大,无法
自科举取士以来,中国形成一套完备的考试机制,有悠久的考试传统。现代以来,各类考试更是体系完备。高考作为众多考试中最为重要的一项,无论是对于国家人才的选拔还是对于考生自身都有着十分重大的意义。语文作为基础学科被列为重要考试科目,一直受社会各界关注。由于中国有着浩如烟海的古诗词,最能体现中国的文化和审美,因此古诗词在高考语文中成为必考题,主要考查学生对优秀古诗词的阅读分析、鉴赏评价能力。目的是提高学生
水系锌离子电池因具有高安全性、低成本、无污染等特点,在大型储能领域显示出巨大的应用前景。然而,锌负极在充放电循环过程中产生锌枝晶,出现缓慢腐蚀及钝化等现象,导致电池短路、胀气和循环寿命降低等问题。为了解决这些问题,本论文构筑了三明治结构的三维多孔铟-锌-铟电极和包含高析氢过电位金属锡和铅的锌基合金电极;并研究了其作为负极,Mn_2O_3或MnO_2作为正极的锌离子水系全电池性能。主要研究内容如下:
随着信息技术和互联网技术的不断发展,柔性制造系统(flexible manufacturing system,简称FMS)已经成为制造业的重要发展方向。与传统的制造系统相比,柔性制造系统更为复杂,为了保证系统稳定高效运行、实现制造系统更深层次的柔性化,智能调度环节尤为重要。因此本文将围绕柔性制造系统中的智能调度展开研究。首先,针对柔性制造系统生产调度的柔性化问题,论文提出了遗传退火算法和有向无环图
行星变速箱是车辆传动装置的重要组成部分,通过改变传动比和传递大功率满足不同挡位不同行驶条件下的要求。由于行星变速箱结构复杂并且运行工况环境恶劣,内部齿轮等部件经常出现故障,所以开展对于行星变速箱的故障诊断技术研究是非常有必要的,这对于保证车辆传动装置运行的安全性和可靠性意义重大。针对行星变速箱的故障诊断问题,本文研究了一种深度学习方法——深度置信网络(DBN)在行星变速箱典型故障诊断中的应用。首先
近年来,我国经济进入了高速发展期,在常态化的发展趋势下,企业的发展正处于结构调整的关键时期,通过对产业优化,强化对创新产业的发展,来不断的优化我国经济发展的新途径。商
模具是工业之母,是制造业极为重要的基础装备。模具的传统制造方法存在一些弊端,如生产周期长、成本高、工艺繁琐、复杂异型模具加工极为困难,不能满足个性化需求,而采用增材制造制备模具可以弥补传统制造方法的不足。因此,本文拟探索H13钢和18Ni300钢的可打印性,通过对其增材制造的控形(状)和控性(能)研究,了解其成形规律,弄清增材制造中这两种钢的凝固过程及其对相变、性能的影响,为H13钢和18Ni30
农村教师质量是制约我国农村教育发展的重要因素,农村教师培训是国家提高农村教师专业水平、发展农村教育的有力措施。农村教师培训的效果却尚存争议,农村小学教师作为参加培训的主体之一,其参加培训的动力是取得良好培训效果的前提。但受限农村教师个体和场域规则多种因素制约,农村小学教师参加培训的动力较低甚至较难生成。因此深入了解农村教师参与培训的态度、探究培训动力生成机制十分重要。本研究以场动力理论和成人学习理
空间谱估计作为阵列信号处理理论的核心研究领域,特别是随着移动无线通信技术的逐步快速演进,它广泛应用于诸如智能网联车、无人机、无人艇等领域用以实现多智能体的位置感知、协作传输等功能。本论文针对空间谱估计理论中的波达方向(Directionof-Arrival,DOA)参数估计问题,着重研究了矩阵重构技术在两种不同信号模型场景下的具体实现形式。对于不相关信号和相干信号混合存在的场景,利用加权子空间拟合