面向八年级生物教材知识图谱的指代消解方法研究

来源 :华中师范大学 | 被引量 : 1次 | 上传用户:shunniu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着教育信息化的快速发展,推进了数字教育资源的共建共享,缩小了城乡间的教育资源差距。但是,由于互联网信息规模大,数据杂乱且无序,碎片化严重,而教科书仅有知识框架,也不足以为学生提供完整的、全面的知识内容体系。知识图谱的出现为教师和学生提供详细的学科知识体系和清晰的知识组织关系,有助于提高学生的学习效率,对于教师的备课上课也具有指导意义。指代是指在下文采用简称或代词来代替上文已经出现的某一词语,指代消解能够解决文本中指代不明的问题。在构建知识图谱的主要流程中,指代消解往往被忽略,因为大规模的语料库可以弥补指代消解缺失带来的指代不明的缺陷。然而在小规模的语料库(如教材)中,尽管代词占整个语料库的比例很小(不到5‰),但这种忽视会降低知识图谱的高保真性,也容易模糊知识图谱中的重点内容,削弱知识点间之间的关联关系。为解决上述问题,本文提出了基于规则和语义的指代消解算法,提高了知识图谱的准确性。具体工作总结如下:(1)针对人教版八年级生物教材语料,提出基于规则和语义指代消解方法,用于解决第三人称代词“它”“它们”的指代内容。采用两条规则过滤先行语,分别是距离优先规则、生物学优先规则,选择高效的消解特征:词性、语法、位置信息,同时更加注重运用代词周边文本的局部语义。与其他三种算法对比分析,该方法具有更好的准确率、召回率和F值。(2)构建基于八年级生物教材知识图谱。采用了 TF-IDF算法提取每一小节的概念。根据依存句法分析和语义角色标注进行关系抽取,生成A0、谓词、A1结构;主谓宾结构;定语后置的动宾结构;介宾短语的主谓动补结构的关系三元组,并通过关系词聚类,生成8种类型的关系。(3)探究指代消解对知识图谱的影响。分别以“鱼”小节、“动物的主要类群”章节和整本生物教科书为语料,用Gephi呈现知识图谱,并对比了指代消解前后的两个知识图谱。可以发现:在统计学上,经过指代消解,节点边数的增长率和平均路径长度的缩短率远大于第三人称代词所占语料库的比例;从视觉上,可以直观地看出焦点的大小和位置都发生了明显的变化,知识点间的关系变得更加紧密,更符合教材的原笔原意。这一结果表明,指代消解提高了教育知识图谱的高保真性,使教育知识图谱与教材保持高度一致。
其他文献
随着互联网技术的快速发展,人们通过社交平台的联系也越来越紧密。因为社交平台具有虚拟性和即时性,使得各种复杂纷乱的信息在互联网上肆意传播。短文本是社交平台中不良信息的主要传播形式,如何准确有效地过滤这些流传在社交平台的不良文本,是一个非常有社会意义的研究工作。自然语言处理技术为网络不良文本过滤问题提供了可行的方案,但社交平台上传播的文本表达往往不符合语言规则,也存在着大量词语变体、情感语言糅合等特点
学位
面部表情识别是机器理解人类情感、情绪的途径之一,在人机交互、学习分析等领域有着广阔的应用前景。受制于面部表情图像固有的类内差异,面部表情识别技术尽管在近几年取得了可喜的进展,但现有算法的精度与实际应用要求仍有较大差距。导致面部表情图像类内差异的原因至少包括:(1)主体身份特征和面部表情特征交织。从面部图像上提取的特征中势必包含大量的主体身份信息,造成同种表情不同主体的图像在特征空间距离较大。(2)
学位
随着互联网经济的快速发展和移动终端的普及,基于位置的服务迅猛发展,与此同时,随着路网的不断发展和完善,路网中带有位置信息的对象迅速增加,在大规模路网中高效地查询给定两个顶点的最短距离成为数据库界研究热点。为了实现路网中的相关查询,人们提出了一些创新性的索引技术,例如:G-tree和G*-tree,它们对路网空间按区域进行划分,然后采用树形结构进行组织。尽管现有的技术能对路网进行有效划分和组织,但是
学位
知识追踪(Knowledge Tracing)是指根据学生历史答题情况对学生的学习状态进行追踪,它可以挖掘出学生对知识点的掌握程度并且对学生将来的答题进行预测。近年来,随着在线教育的兴起,许多线下教学慢慢转变为了在线教育,这种方式可以突破传统教育所带来的时间和空间上的约束,提升学习效率,也可以使教育资源公平化,避免了因地域环境所带来的教育资源分配不均匀的问题。然而随着在线教育机构越来越多,一些问题
学位
室内三维建模可服务于室内导航、室内设计、虚拟现实以及城市建设等方面,同时对于3DGIS、虚拟现实VR和室内导航具有重要意义。为解决现有的三维建模的方法中存在的点云数据边界模糊、缺乏语义信息、三维模型拓扑关系模糊,以及模型驱动三维建模中存在的自动化程度低等问题,本文使用了基于深度学习的结合了 Kinect数据与模型的对室内规则物体进行精细化、自动化三维建模的方法。具体建模步骤为:(1)在数据驱动下,
学位
随着互联网时代人工智能与大数据的兴起,“互联网+教育”理念使得中国教育发生着改革。从古至今,“因材施教”一直都是我国教育界秉持的教学理念,即针对不同的学习者设计个性化教学方案。随着科技和社会的发展,学习者个性化特征获取与量化有着相应的理论体系,个性化的学习方案也得到了相应研究。在各方面研究的促进下,自适应学习系统也得到了有效发展,但由于推荐效果不理想也限制了自适应学习系统向着更深层次发展,所以如何
学位
近年来,随着人工智能话题被广泛讨论,深度学习技术逐渐成为了当下互联网时代的研究热点。在计算机视觉领域,往往更偏向于使用深度学习技术来解决语义分割、图像分类以及人体姿态识别等问题,相较于传统算法,其优势在于可通过大量样本自主学习特征来达到目标要求。本文主要研究微小型接线柱上绕线匝数的视觉计数问题。现代工业中零件尺寸越来越小,质量要求越来越高。为了保证整个零件功能的完整性,必须在绕线完成之后进行绕线计
学位
容迟网络(delay tolerant network,DTN)是一种不存在稳定端到端链路的新型网络,由于这种网络具有网络拓扑结构动态变化、传输时延高以及资源有限等特点,节点的移动无法预测,消息在源节点与目的节点之间的传递很少存在直达的链路。因此,在容迟网络中节点之间采取“存储-携带-转发”的消息传输机制,携带消息的源节点利用中继节点作为通信媒介,最终将消息转发到目的节点,完成整个消息的传输。容迟
学位
在大型物理实验装置中包含多种探测器,将探测器的输出进行数字化采集并根据数据分析粒子的信息是物理实验的重要环节。量能器主要用于测量粒子的能量,输出通常表现为脉冲信号的形式,在脉冲信号中提取时间与幅度信息是粒子分析重要的一步。脉冲特征提取有很多方式,如曲线拟合、种群技术等。随着探测器实验数据量的不断增加,探测器环境中往往包含随机噪声、长期漂移、短期改变等影响。传统的数字化处理方式在消除探测器环境中噪声
学位
在技术飞速发展的当下,舰船上设备间的数据传递更加繁多、复杂,作为舰船上各种系统信息传输的基础平台,舰船网络所承担的数据交换和信息共享需求与日俱增。由于舰船上的设备种类多种多样、不同的设备产生的数据格式也不尽相同,直接进行舰船网络设计需要耗费大量财力物力,因此需要行之有效的验证工具,模拟出多种数据流来对舰船网络的信息交互进行研究。本文提出了舰船网络仿真模拟系统的方案,建立仿真环境得到舰船网络的性能指
学位