基于图表示学习的试题知识点自动标注方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:neverdrop920
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
试题知识点标注是指标注试题中用到的知识点的过程。在智能化教育背景下,智能题库的构建是智能化教育的基础,智能题库的构建离不开试题知识点标注。但现有试题知识点自动标注模型存在标签空间稀疏和数据集标签样本分布不均衡的问题,导致当前试题知识点自动标注模型的准确度还不够高,模型的鲁棒性还不够强。因此,研究基于深度学习的试题知识点自动标注模型,使其能够准确地标注试题中运用的知识点,进而应用到实际的智能化教育场景中去,具有重要的研究意义。针对当前基于深度学习的试题知识点自动标注模型的研究现状和问题,本文从引入知识点标签信息的角度进行研究,基于图表示学习中的两种方法构建了两种不同的标注模型。本文的主要研究内容如下:(1)本文通过爬虫从百度题库中收集了四个科目(历史,地理,政治,生物)的高中试题文本数据来作为实验的数据集,数据集中总共包含29813条试题文本数据。并根据试题文本的特殊性专门构建了适合试题文本的预处理方法。(2)提出了一种基于节点嵌入方法的两阶段试题知识点自动标注模型。该模型利用DeepWalk模型来获得蕴含知识点标签结构信息的节点嵌入,通过预训练语言模型来获得蕴含知识点标签文本信息的文本嵌入,通过混合两种嵌入的方式来得到最终的文本表示向量。该模型在一定程度上降低了标签空间的稀疏性,能够实现较好的试题知识点自动标注效果。(3)提出了一种基于图卷积神经网络的端到端试题知识点自动标注模型。通过图卷积神经网络同时引入知识点标签中的语义信息和结构信息来作为知识点标注模型的分类器层,并结合Skip Connection来使得模型更快初始化。引入Focal Loss作为损失函数,减少样本分布不均衡问题给模型学习带来的影响,帮助模型更好的学习样本数量少的标签,达到了更好的标注效果。以上模型能够自动的从数据集中学习到试题文本的特征,具有较好的泛化能力。通过消融实验和对比实验证明,所构建的模型能够解决试题知识点自动标注任务中存在的标签空间稀疏、数据集样本分布不均衡的问题,在多个评价指标上优于先进的试题知识点标注模型。模型能够将试题中用到的知识点自动、完整、准确地标注出来,减少人力资源和时间花销,帮助促进智能化教育发展。
其他文献
在基于深度学习的计算机视觉研究中,为了更好的提升视觉效果,通常需要使用大规模的数据来学习训练网络模型。然而,大规模的数据都非常依赖大量的人力进行标注,因此花费非常昂贵。为了使得在标注样本数据不足的情况下也能训练出性能较好的网络模型,近年来,大量的方法被学者们提出。其中自监督学习就是通过大量无标注的样本数据进行自监督训练,来学习样本自身的数据特征的一种方法。针对具体实际问题往往通过迁移学习方法对网络
学位
为了解AMBBR一体化装置处理农村生活污水启动调试过程中脱氮除磷特性,以贵州兴仁周边农村生活污水为处理对象,采用接种闷曝法进行挂膜,研究该装置调试过程中水质变化。同时,将间歇曝气与连续曝气处理效果进行比较,分析设备运行过程中出现的问题并提出相应解决办法。由连续运行检测数据可知,农村生活污水经设备处理后COD、NH3-N、TN和TP分别可以稳定到40、7、10、0.54 mg/L左右。连续曝气和间歇
期刊
随着互联网的高速发展,各类文本数据呈现爆炸式增长,信息过载问题日益严峻。面对海量的结构化文本(如知识图谱、软件代码)或非结构化文本(如新闻、社交媒体),如何快速、有效地从中获取关键信息并将其组织成精简连贯的语言表达形式变得尤为重要。作为缓解信息过载及提高信息获取效率的关键技术之一,自动技术旨在实现文本内容的自动提炼总结,以生成包含关键信息的语言描述。尽管现有主流的自动摘要方法在摘要任务中取得了较大
学位
一直以来,风险管理始终是贯穿于银行经营发展中的一个重要话题。银行在经营过程中面临包括信用风险在内的各类风险,而信用风险是最为主要的一类风险。近年来,各家银行对信用风险的管理日益成熟,手段和方式日益多样化,风险管理也逐步从粗放向精细化的管理模式转变。而信用风险限额管理,作为信用风险管理中的一项重要手段,也越来越受到银行的重视。本文从信用风险及信用风险限额的基本概念入手,研究探讨相关的理论、银行业监管
学位
任务型人机对话系统是指在垂直领域中能够帮助用户完成特定任务的对话系统,口语理解作为任务型人机对话系统的组成模块,主要的作用是将非结构化的自然语言文本转换为机器能够理解的结构化信息。准确理解用户对话中的语义信息是帮助用户完成任务的基础,因此口语理解的好坏直接影响对话系统的性能。口语理解主要包含意图识别与槽填充两个子任务,意图识别用于捕捉用户的意图;槽填充任务用来抽取用户传递的重要信息。近年来,基于深
学位
从全球发展的历程来看,经济是国家之本。纵观我国工业进程的快速推进和高新技术的腾飞,经济和环境一体化趋势逐渐明朗,生态安全和环境问题逐渐被暴露。随着石油等不可再生资源的日益减少,汽车作为现代人生活的不可或缺的交通工具,同时在“十四五规划”纲要中明确指出对绿色生态环境的远景目标,新能源汽车产业作为我国战略性的新兴产业之一,其发展必然离不开科技创新的驱动。在历经11年政府大幅补贴的市场培育过程后,选择新
学位
近年来,国内外经济环境日益变化,中国的银行业金融机构迎来了前所未有的巨大挑战,商业银行特别是中小型的城市商业银行的生存空间日益狭窄,如何及时转变经营思路、找准发展方向、实现精细化管理和差异化竞争是中小商业银行在经营管理中需要尽快解决的问题。全面预算管理和内部资金转移定价(以下简称FTP)是国内外商业银行广泛使用的两种管理工具。全面预算管理作为一种行之有效的战略管理和实施工具,可以有效推动各项经营生
学位
村镇银行是我国农村金融机构改革发展的一大尝试和创新,自2007年全国首家村镇银行——四川仪陇惠民村镇银行成立以来,村镇银行在践行国家乡村振兴战略,助推脱贫攻坚,普惠农村金融市场等方面逐渐发挥了重要作用。在农村信贷业务发展方面,村镇银行将市场定位在服务“三农”“支农支小”,用其特有的、适合农村市场的信贷技术以及决策半径短、审批流程快的信贷服务优势,逐渐在农村金融市场占有一席之地,其“小而美”和“小而
学位
我国《公司法》第142条2018年10月修订后,以上市公司回购股份定价区间为切入点,对回购股份进行研究,不仅在理论层面有创新意义,也在实践层面有指导意义,从打造资本市场良好生态的层面,更有着重要的全局意义。本文以上市公司回购股份为大背景,从回购股份定价区间切入,研究以下两个问题:第一,回购股份是否总是传递上市公司股价被低估的信号?第二,上市公司回购股份的定价区间,受到哪些因素的影响,这些因素的影响
学位
研究表明,基于深度学习的命名实体识别模型的性能通常取决于训练数据的质量。在某些特定的领域,对数据进行标注通常需要标注人员具备一定该领域的相关知识,这极大地增加了标注数据的难度,所以在这些特定的领域可用于训练的标注数据相对来说比较少。为了快速获得训练数据,通常可以利用远程监督来自动标注数据,但由于词典等知识库的覆盖范围有限,远程监督产生的数据中通常包含较多的噪声数据。此外,即使是人工标注的数据集,由
学位