学术文献被引片段识别与引用类型分类研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:lili_mine12_5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
引文上下文中含有被引文献的重要信息,如研究方法、研究结论和研究不足等,已被广泛应用于自动摘要研究工作中。然而,由于引用动机的不同,不同的作者对被引文献的描述也存在较大差异,使得引文上下文难以全面准确地反应被引文献的内容。近几年来,多项测评比赛,如CL-Sci Summ Shared Task、TAC 2014(国际文本分析会议)等均提出了基于科技文献中的被引片段的结构化摘要生成方法。被引片段是指引文上下文或者引用对象在被引文献中所对应的内容,其取自被引文献本身,相比于使用引文上下文生成摘要的方法,该方法所生成的摘要能够准确有效地反应被引文献的内容。在基于被引片段的结构化摘要生成框架中,需要根据引文上下文识别出被引文献中的被引片段,然后根据引文上下文与被引片段之间的引用类型对其进行分类并压缩整理,得到被引文献的结构化摘要。被引片段的识别与分类效果直接影响到所生成结构化摘要的质量,因此,本文主要针对被引片段的自动识别和引用类型的分类展开研究。被引片段的自动识别研究包括以下两部分:非均衡数据集的处理和被引片段识别模型的构建。本文将被引片段的自动识别问题视为二元分类问题,由于在训练集中存在着较为严重的类别间样本量不均衡问题,需要对其进行负采样处理。本文在对被引片段进行特征分析的基础上,通过计算样本点之间的相似度,来抽取具有代表性的负例样本,从而在保证信息相对完整的同时,也实现了正负例样本数量的平衡。紧接着,通过对每个基分类器进行特征选择后,从基于投票的集成方案、基于分类器权重的集成方案和基于集成算法的集成方案等三种不同的角度得到被引片段识别的集成模型。实验结果表明,本文所提出的负采样方法和特征选择方法有利于基分类器结果的提高,且所使用的集成方法对基分类器起到优化提升的作用。在引用类型分类研究中,本文从基于规则的分类方法、基于注意力机制的双向长短期记忆网络模型的分类方法和基于Labeled LDA模型的分类方法等三个角度展开工作。由于受到实验数据规模的限制,本文先是通过人工构建规则的方法,对每种引用类型构建触发词库;在基于注意力机制的双向长短期记忆网络模型和Labeled LDA模型中,通过有监督学习的方式得到引用类型的分类模型。实验结果表明,基于注意力机制的双向长短期记忆网络模型模型对五种引用类型的整体识别效果最优。本文通过开展被引片段的自动识别以及基于被引片段的引用类型分类研究,为引用动机的识别、学术评价和自动摘要等相关的研究工作提供了新的视角。
其他文献
科技文本内容的分析和利用一直是情报学科研究的关键问题。当前,科学技术进入快速发展阶段,各领域积累了大量科技文献,传统以文献为粒度的文本挖掘方式不利于用户获取和利用科技文献中的知识内容。为更深入有效地利用科技文本,就必须突破这种以单篇文本为粒度的挖掘方案,从更细粒度的角度深入到对科技文本潜在知识内容的挖掘。科技文本的挖掘和利用对整个科学的发展起着重要的作用,特别是人们所重点关注的科技文本中的研究问题
碳酸锶(SrCO3)和季铵盐类降速剂是目前丁羟基固体推进剂常用的降速剂,为了解决SrCO3和季铵盐(SIOC-TES)(以下统简称为季铵盐)在推进剂体系中分散性较差的问题,使其能发挥“协同效应”,更大幅度地降低丁羟基固体推进剂燃速。本文以微米级SrCO3和新型季铵盐为原料,制备出了纳米SrCO3/季铵盐复合粒子,并研究了其对丁羟基固体推进剂性能的影响,主要研究内容如下:(1)采用机械球磨法制备纳米
中国正处于社会转型的攻坚期,随着以互联网为载体的新兴媒介的迅速发展,大学生对于政治的诉求也不断增加,对政治系统有了更高和更深层次的期待。世界价值观调查数据显示,近年来我国大学生对于政治系统的认可度呈现明显的下滑趋势。大学生群体担负着国家的未来,他们对政治系统运行的认可度与信任感关系着政治权威的合法性和政治环境的稳定性。因此,作者选取现如今受众最为广泛的大众传媒形式之一——微信公众平台为例,通过深入
目的 探讨膝关节置换术后应用加压冷疗与奥塔戈运动干预对患者炎性因子水平、关节肿胀、平衡能力及膝关节功能恢复的影响及作用,旨在为膝关节置换术后康复提供更多思路。方法 选取2018年6月至2019年12月行膝关节置换术患者70例进行研究,按数字表法随机分为2组,对照组(n=35)采取加压冷疗和常规康复运动,患者回病房后则可开始加压冷疗,250 ml 0.9%氯化钠注射液冻成冰袋,首次冰敷时间30 mi
新中国成立后,从爱国卫生运动到健康中国行动,农村地区的健康发展一直受国家高度重视,但在精力投入、资源倾斜上不如城市地区。自2009年以来,“家电下乡”、“手机下乡”、“新农合医疗保障制度”、“乡村振兴”等政策陆续颁布,国家逐渐为农村地区的健康事业发展注入更多力量。2018年在“互联网+医疗健康”政策的推动下,新媒体环境下的健康传播呈现出新的发展动态。然而由于村民受教育水平低,媒介素养不足等问题,农
在食品、医疗卫生和药学等领域,葡萄糖是一种非常重要的物质。用于葡萄糖浓度检测的葡萄糖传感器经历了四代的发展,目前发展的第四代无酶电流型葡萄糖传感器是基于葡萄糖分子在电极表面直接催化氧化进行检测,其特点是不易受到环境因素的影响,具有较强的稳定性。随着纳米科技的发展,具有纳米结构的无酶葡萄糖传感器性能得到了很大的提升,含有活性元素、不同类型的纳米结构的制备成为了无酶葡萄糖传感器的研究重点。本文以不同N
区块链通过加密技术建立信任关系,重构信息价值体系,从根本上促进了互联网的改变,让互联网从信息传递向价值传递进化。区块链技术不断创新,从单纯货币交易的1.0体系发展到智能应用拓展的3.0体系,不再局限于单一金融领域,已延伸至生活方方面面,同时也在从单一的数字资产向多样化信息进化。区块链通过高安全性的分布式共识保证了去中心化特性,但仍存在事务处理吞吐率低、时间延迟大等性能瓶颈。不同区块链系统在数据组织
随着全文数据库向用户免费开放、自然语言处理与机器学习技术的快速发展,基于全文内容的文献计量与评价研究逐渐兴起,如知识实体抽取与评价研究等。算法是一种典型的知识实体,在当前大数据环境下,数据的处理与分析等关键步骤都离不开算法的应用。研究算法实体在特定领域学术论文中的提及,并在此基础上分析其影响力,能够揭示算法实体在学术论文中的分布,发现高影响力算法,从而为相关研究者了解和选择算法提供参考。为此,本文
现今高等教育逐渐由大众化向普及化发展,我国高校学生群体复杂多样,学生面临的学业问题增多和学习需要增加,因而我国也开始重视对学生的学业指导工作,提高学生学习能力,提升人才培养质量,为我国社会发展提供高素质人才。但是我国学业指导起步晚,指导体系不完善,专业化水平不高。美国高校的学业指导起源于殖民地时英国的导师制,历经150多年的发展,已经是一项专门性很强的工作,机构体系也较为完善,有相应的制度保障,整
为满足当前战略战术武器及商业航天运载火箭等系统的动力推进装置所采用固体火箭发动机的大推力需求,N15固体推进剂因具有高比冲、低特征信号、性能稳定等优点逐渐得到了广泛的应用和发展。目前发动机在设计时装药结构满足指标需求,点火工作时却因内部结构遭到破坏导致发射失败甚至发生爆炸这一难题困扰着研发人员。N15推进剂在点火工作时处于高温高压环境中,然而目前在装药结构完整性研究中,鲜有考虑环境压力对于N15推