基于BERT模型的中文期刊文献自动分类实践研究

来源 :图书馆杂志 | 被引量 : 0次 | 上传用户:zhoulijun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Google AI团队发布的BERT模型在多项自然语言处理任务中取得了研究成果,但在中文文献自动分类领域尚有待探索。本文旨在探索BERTbase中文基础模型在中文社科、科技期刊文献分类上的实际分类效果,指出模型在实际应用中存在的问题并提出解决方法。本文选取R大类(医药、卫生)、TG大类(金属学与金属工艺)、F大类(经济)、J大类(艺术)共1 745 000条数据作为训练语料,并以另外9 610条数据作为测试样本,利用BERT模型分别对社科、科技期刊文献进行分类研究。测试结果表明BERT模型在社科文献中的四级准确率为76.95%,科技文献为68.55%。之后引入惩罚策略,为实际工作中免检数据阈值的设定提供参考。BERTbase模型在《全国报刊索引》实际分类标引工作中有一定可行性,基本满足当前网络环境下中文文献自动分类的需求。
其他文献
针对目前用户画像构建算法不足,提出一种基于全词BERT的集成用户画像方法,以有效地解决目前算法中存在特征构建和泛化问题.该方法采用多种方式构建特征,使用多分类器的集合对不同形式文本进行标签分类,同时使用梯度上升算法确定集成学习中基分类器的权重参数.实验结果表明,所提出的方法与其他混合模型方法相比,泛化性和准确性均有较大提升.
在工程教育认证理念的指导下,精细化学与合成化学课程改革以OBE理念为导向,从多方位构筑了具有显著工程特点以及具有自我革新能力的课程体系教学构架及评价反馈构架,引入了“3模块6过程7能力”的改革机制,并用于教学过程中。实施效果表明新的课程改革措施显著促进了学生各项工程能力的培养,并且随着实施年份的增加,学生的目标达成度有了稳定提升,促进了工程认证理念下轻化工程专业人才的培养。
拉曼-米激光雷达高低阶拉曼通道的几何因子因不同通道光学器件和探测器的性能差异并非完全一致,会引入近地面温度测量误差,针对这一问题,提出一种修正测温通道残余几何因子的方法.该方法首先通过探空温度和标定的归一化光谱透过率计算得到高低阶拉曼信号的有效微分散射截面之比,然后从拉曼信号比值中求解出残余几何因子廓线.利用北京理工大学激光雷达实验室研制的转动拉曼-米激光雷达系统的探测数据,实验验证了该方法的有效
胚胎冷冻保存是胚胎移植过程中重要的步骤之一,在地方牛品种遗传资源保护方面具有广泛的应用价值。当前胚胎冷冻技术有3种,一是慢速冷冻法,二是快速冷冻法,三是玻璃化冷冻法,冷冻保护剂可分为细胞内液冷冻保护剂、细胞外液冷冻保护剂与抗冻蛋白。该文综述了国内外牛胚胎冷冻技术及冷冻保护剂的研究进展,旨在为相关从业人员提供技术参考。
满族嬷嬷人剪纸诠释了神秘而古老的原始艺术形式和人类情感,不仅再现了人类文化发展中的时代精神,还在民族艺术文化传承中体现出重要的作用。文章从符号学角度对满族嬷嬷人剪纸艺术技法、工艺特点、象征意蕴等方面展开剖析,并在此基础上揭示其独特的艺术特征和地域文化。
<正>党的二十大是在全党全国各族人民迈上全面建设社会主义现代化国家新征程、向第二个百年奋斗目标进军的关键时刻召开的一次十分重要的大会。习近平总书记代表十九届中央委员会所作的报告,主题鲜明、思想深邃,高屋建瓴、气势磅礴,通篇闪耀着马克思主义的真理光芒,是新时代坚持和发展中国特色社会主义的政治宣言和行动纲领,是马克思主义的纲领性文献。
期刊
运用江苏省大学生重点创新项目(非接触式汽车车窗智能防夹技术》对《车用单片机原理应用实习》课程内容进行设计和规划。根据非接触式汽车智能防夹系统的研究方法对该课程的教学内容进行合理的细化分配,设计课程中典型的教学案例,让学生有自主的设计思维。
<正> 该机系背负动力、软轴传动、手提式采茶机。用于经过修整具有一定采摘面的茶树上进行茶叶采摘。该机已进行大面积生产考核,可望在今年投入新产品试制。整机由背负动力、软轴组件与采茶机头三大部分组成。减速器装在背负动力上,软轴将动力传递到机头传动箱,驱动凸轮机构,使刀片作往复运动,采切茶叶。凸轮轴直接带动扫叶轮旋转,将采摘下来的茶叶扫集于口袋内。本机能一机二配,既是往复切割式,也可改装为螺旋滚切式,扩
期刊
课程思政建设是落实立德树人根本任务的关键环节,是新时代教育改革背景下提出的创新教育理念。通过充分挖掘蕴含在能源化学专业知识中的思政资源,实现课程教学与思政教育的完美结合,培养学生的爱国奋斗精神、工匠精神、创新意识、人文精神及文化自信精神等,推动专业教学由知识导向型向能力和素质导向型转变。