基于教育数据的先修关系识别与有序知识图谱构建

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lhbneil
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类学习知识往往遵循由简单到复杂,由基础到尖端的“先修”顺序。错误的学习顺序不仅会加大学习难度,而且容易因为不理解学科概念,“望文生义”,误入歧途。然而这样正确高效学习的顺序往往很难获得,需要领域专家在完成相关方向的探索后进行手工标注。这意味着得到一门学科的“先修”顺序,不仅需要大量的专家投入时间精力,而且往往在时效上难以辅助对前沿研究方向的探索。本文以从学科相关文本中自动化抽取先修关系为切入点,通过在文本中标注出高质量短语,然后设计算法将其中课程概念抽出,并融合多种信息源进行分类,从而提高先修关系识别的性能,并构建了有序网络展示平台。主要进行了以下四项研究工作:(1)基于预训练模型的高质量短语抽取方法。得益于其精心设计的神经网络框架,预训练语言模型能够高效利用互联网中大量的无监督语料,吸收其中隐含的知识。因此,直接使用预训练模型构建高质量短语抽取模型能够在不需要额外语料的情况下,引入人类社会中的常识知识。相比传统的短语抽取方法,基于预训练模型的方法在教育数据上取得了较好效果。(2)基于图传播算法的课程相关概念抽取方法。同一个学科的概念在名称上往往具有一定的相关性与相似性,且在教育语料中也会经常共现。因此,通过图传播算法在设计好的图结构上进行计算,能够更好地抽取出高质量短语集合中,属于同一门课程的学科概念。实验结果证明了该方法的有效性。(3)融合多源信息的先修关系识别方法。人类在进行两个概念的先修性判断时,往往依赖于固定几种类型的信息。单独使用其中一种,则识别效果就会受到影响。针对这个问题,提出了一个融合多源信息的先修关系识别模型,对不同种类的信息进行表示与交互,提升了先修关系识别的效果。实验表明了该方法的有效性。(4)有序知识图谱构建。本课题将上述研究成果集成到展示系统,来模拟在实际使用场景中先修关系组成的有序网络的效果。为了更客观地评价系统效果,使用了人工与自动评价的方式。另外,也分析了系统存在的问题,为未来的工作方向提供指导。
其他文献
学位
在计算机视觉领域,图像分类任务的待分类样本通常来自不同的基础类别(如车、狗、鸟、树等),然而在很多实际应用场景下需要对这些基础类别做进一步分类,这种分类的粒度相较于一般分类任务更为细致,所以称其为细粒度图像分类。因为细粒度图像分类任务区分的是同一基础类别下的子类,子类之间的差异性比与基础类别之间的差异性小很多,且往往体现在细小的局部,这成为细粒度分类任务的难点所在,同时图像噪声、拍摄角度和光照等因
跨语言词嵌入指不同语种的单词对应的表示处于相同的向量空间之中,从而可以方便地度量不同语种的词之间的相似程度,无监督跨语言词表示学习旨在不借助任何的外界跨语言信息来进行跨语言词表示的学习。现有的无监督跨语言词表示学习虽然取得了一定的成果,但仍然存在着不足之处。缺点之一便是自学习步骤中的双语翻译词典获取方法较为简单,不能为后续迭代步骤提供高置信度的双语关联信息,影响了自学习过程的学习效果,并对最终获得
肺癌是最常见的癌症之一,它的发病率和死亡率增长很快。针对不同肺癌亚型,其治疗方案区别很大,如鳞癌以放疗为主;而腺癌则以化疗为主。当前,肺癌分型主要依靠人工诊断,导致效率低,精度差。本文使用病人的CT和PET图像作为数据集,利用深度学习方法训练模型完成对肺癌类型的自动划分。论文中使用Res Net50作为特征提取网络,分别实现只使用CT图像或PET图像以及共同使用CT和PET图像作为输入进行分类,观
在人们对太空领域进行探索与利用的同时,空间技术迎来了长远的发展,出现了新的空间技术需求,例如空间站的维修、卫星回收、释放以及维护等。此外,在经历了近一个世纪频繁的太空活动之后,空间中充斥着很多太空垃圾,它们对未来的航空航天存在很大的威胁。另外,航天器所使用的宇航级CPU工作环境恶劣,面临宇宙辐射以及超过300摄氏度的温差的挑战,故宇航级CPU发展缓慢,现今国内外使用的宇航级CPU计算能力普遍低下,
舆情是社会民意的集中反映。网络舆情来源广泛,传播速度快,且海量多样。为了帮助政府机构、社会媒体能够在海量舆情文本中更有效率的掌握舆情发展动向,需要根据蕴含的信息对舆情文本进行准确的划分。相较于有监督方法,无监督的聚类算法不需要大量标注的数据,能在低人力成本的条件下得到相对理想的性能,是舆情划分的有效方法。近些年,融合表示学习和聚类目标的深度聚类算法得到了广泛关注并取得了出色的性能。现有的深度聚类算
随着大数据的流行,越来越多的分布式计算框架(比如Hadoop、Spark等)被应用到实际的大数据应用中。为了解决大数据平台下的数据管理核心问题,将传统数据管理系统中的核心查询操作扩展到大数据平台是非常有必要的。现有Spark内置的查询操作是针对Spark SQL的内置数据类型设计且实现的算法并不全面;另一方面,针对Spark平台面向数据管理核心查询操作的综合评测工作并不多且难以满足特定环境下的评测
导弹作为现代战争中的重要远程打击手段以及战略威胁武器的载体之一,是我国国防力量构成中的重要组成部分。导弹装填是导弹生产制造过程中的重要环节,其任务是将导弹装配到弹筒中。如何精确地将弹筒与导弹轨道架对接是一个关键问题。目前国内的导弹装填工作主要还是通过手工方式对简单的工装机构进行调整,由人推动架车进行最终的对接。这对工人的技术水平有着极高的要求,特别对于大型导弹的装填,时间消耗很长。随着计算机视觉技
日常生活中的信息多以文档的形式呈现,挖掘文档中实体对之间的关系更具有实际意义。但是现有的关系抽取方法大多是句子级别的,难以捕捉文本中相隔较远的实体对之间的关系,为了弥补这一点,文档级关系抽取技术应运而生。本文拟从以下三个方面对文档级关系抽取技术展开研究:(1)基于序列的文档级关系抽取方法研究。基于序列的文档级关系抽取方法可以看作是句子级关系抽取方法的延伸,本文在该部分探究了两种具体模型,分别是利用
有效地对网络中海量的文本信息加以利用,方便人们的生活,一直是自然语言处理领域重要的研究内容。作为文本信息结构化的第一步,实体识别的结果直接影响下游任务的效果,这也使其不断迎来各种挑战。其中,细粒度的实体识别旨在不同上下文语境中对实体进行更准确、更丰富的描述,这一点在实体类别数量和类别层次上提出了更高的要求,逐渐成为目前实体识别领域中的研究热点。同时由于人工标注的代价高昂,现有的数据集大多基于远程监