基于知识图谱的初等数学关系抽取及其应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:angieho
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着人工智能领域突飞猛进,深度学习技术为自然语言处理各个方向带来了极大的发展。借助自然语言处理技术和深度学习算法,人们可以从文本中抽取出结构化信息。从数学文本中抽取知识并通过知识的推理实现类人答题的目标成为一些国内外学者研究的方向,其中初等数学关系抽取成为重要研究方向之一。依赖前人的工作和研究成果,本文将知识图谱应用到初等数学关系抽取的研究上。本文主要研究内容有:1.本文提出了一种基于文本特征向量和数学概念知识图谱的关系抽取算法。基于该算法设计了一个初等数学关系抽取系统,该算法采用的思想是如果两个文本相似,那么文本包含的对应实体也拥有相似的实体关系。进一步采用BERT获取文本特征,利用待匹配文本的特征与关系库中的文本特征进行相似度计算,再之有选择的保留来自关系库文本包含的三元组,然后进行知识图谱关系剪枝去除匹配到的不合理的三元组,最终得到关系抽取的结果。2.文本构建了一个初等数学关系标注平台。利用该关系标注平台可以让更多的人参与关系数据的标注,能够更快的、更方便的增加关系库数据,为提高关系抽取的准确率提供了极大的帮助;同时标注的数据构建了一个数学文本关系库,存储了数学文本及其包含的实体关系三元组,它是结构化的数据。因此方便关系抽取系统三元组数据的加载以及关系标注平台数据快速存储。3.本文提出了在初等数学领域中长距离实体依赖问题的解决方案。为了降低关系抽取系统的复杂度,将数学文本按照一定的原则划分成多个短文本,并尽量保证短文本内的实体关系相对完整,但遇到了实体跨多个短文本进行关系抽取问题。提出了在标注数据时使用实体占位符以及跨文本关系抽取时采用最短距离匹配原则的方案来解决该问题,并且该方案也解决了初等数学领域中的指代问题。基于上述方案,本文设计并实现初等数学关系抽取系统,并将该系统应用到“初等数学类人答题关键技术及系统”项目中。本文构建的初等数学关系库中包含的不同数学短句有5623个,实体三元组10875个。为了对系统进行综合测试,本文随机从初等数学题库中选取了1000道数学题目,系统抽取三元组正确率为95.6%。
其他文献
连续相位调制(Continuous Phase Modulation,CPM)信号作为一种连续的恒包络信号,具有高频谱效率以及功率效率的特点。然而,由于CPM信号有众多调制参数,因此其接收机结构较为复杂。在单调制指数CPM(Single-h CPM)信号的基础上,人们提出了多调制指数CPM(Multi-h CPM)信号,相比于Single-h CPM信号,Multi-h CPM信号中调制指数h周期
风能动力电缆的压接和防护对风电机组的安全运行起着至关重要的作用,在这个环节中,施工环境、压接工具、压接方法,以及操作人员水平等因素都有可能造成压接质量不良,因此在压接现场需要一种简捷快速的方法用于验证压接质量。对风能动力电缆的压接技术进行研究,并通过建立数学模型对压接质量进行验证。
脑部肿瘤是当今发病率和死亡率高的前十大恶性肿瘤之一。早期准确的诊断可以帮助医生为患者提出治疗方案并降低死亡率,使用人工智能设计疾病分类系统可以优化检查中的诊断结果。目前脑部肿瘤分类中面临数据集样本少的问题,卷积神经网络无法利用图像中特征之间的空间位置关系,在医学图像分类任务上的表现存在不足。为此,本文设计实现了以下方面的工作内容。1.在胶囊网络中加入了注意力胶囊机制。卷积层和胶囊层之间添加注意力胶
随着物联网、智慧城市以及5G技术的普及,电可控寄生单元阵列天线(ESPAR)以其成本低、稳定性高、方向图主瓣辐射方向可调等特点,在物联网网关与无线传感器网络的建立中越来越受到广泛的关注。相较于相控阵天线,ESPAR天线通常具有紧密排布的单个馈电单元和多个寄生单元,利用近场耦合原理,采用无功负载代替移相器从而降低了成本以及系统的功耗。对于ESPAR天线来说,扩展工作带宽,降低方向图副瓣与后瓣的影响以
随着电子游戏的日益普及,游戏用户的大脑也在频繁使用中受其影响,发生功能和结构上的可塑性改变,因此研究游戏过程中大脑潜在的活动的变化规律对于加深脑可塑性理论和科学对待游戏产生的积极和消极影响是必要的。动作类即时战略游戏(Action Real-time Strategy Gaming,ARSG)可视为一项需求注意力、感觉运动能力、高水平的团队合作和决策能力的,对认知能力有着较高要求的动态交互任务。因
近年来,在“走出去”和“一带一路”等对外开放政策的推动下,越来越多的中国企业走出国门,采用跨国并购的方式来实现自身跨越式发展。我国企业的跨国并购对象以发达国家的企业为主,这些企业往往实力雄厚,品牌知名度高,我国企业作为并购方,与之相比处于弱势地位。这种以弱并强的方式就是我们所说的“蛇吞象”式并购。相较于国内企业之间的并购,跨国并购的难度较高,而对于“蛇吞象”式的跨国并购来说更是如此。巨大的并购难度
石墨烯(Graphene)被公布以来,凭借独特的结构和优秀的性能在光学、电学等科研方向成为被研究的热点。在光电探测领域,石墨烯凭借着高载流子迁移率、宽光谱吸收能力、高光电响应度使其引起了广泛关注,但是石墨烯偏弱光吸收率、光生载流子过快复合等原因也阻碍了石墨烯在光电探测领域的发展。为解决上述问题,研究院不断探索新的办法,例如改变光电探测器器件结构,或者引入新的半导体材料,针对此类问题,本文首先确定了
知识图谱能从海量文本和图像中提取出需求的信息,有着广阔的应用场景。领域知识图谱作为知识图谱中的一种,由于存在数据难以获取和处理等问题,故当前对领域知识图谱的相关研究较少。暗网作为一个神秘的领域,和明网不同,暗网中进行的交易大部分存在违法的情况,甚至对国家安全造成了一定的威胁,故进行暗网领域的知识图谱构建迫在眉睫。针对上述问题,本文的研究重点集中在暗网中文交易链知识图谱的知识获取和应用方面。主要研究
高送转作为股利政策的一种,理论上来说可以优化股本结构、向外界传递业绩高增长的信号,有助于维护公司积极正面的形象。一经发布,常常受到投资者的极度欢迎。但是近年来,市场乱象频现,尤其是创业板市场,无论企业自身经营业绩如何,是否具备高送转条件,每到年中或年底,就开始炒作高送转热度。那么,高送转股利政策到底有何魔力吸引了如此多的关注。特别是最近两年,在政策监管更加严格的情况下,一些不具备实施条件的创业板上
近年来,伴随着互联网信息技术的飞速发展以及移动网络的快速发展,软件应用的数量急剧增长。随着软件应用被广泛地使用,一些在软件设计阶段或者开发过程中产生的漏洞很有可能被攻击者利用,从而造成恶劣的影响。作为软件安全的首次审查,从源代码层面及时修复漏洞可以有效减少软件漏洞带来的损失以及节省后续阶段修复漏洞的成本。目前代码的审计工作离不开人工参与完成,当前主流的检测方法是自动化测试工具结合人工检查共同完成,