【摘 要】
:
科学论文是科学研究者进行学术成果交流的重要载体,随着文献数量的日益增长,传统期刊以线性结构出版论文的方式已经越来越难以满足读者快速定位知识的需求。科学论文的篇章结构解析能够为检索、定位、组织科学论文中的知识提供关键的位置信息,是科学论文深层次语义理解与挖掘任务的关键步骤。本研究以信息管理领域英文期刊的研究型科学论文为研究对象,探索不同的篇章结构解析方法,以实现篇章结构的自动识别。本研究的主要工作包
论文部分内容阅读
科学论文是科学研究者进行学术成果交流的重要载体,随着文献数量的日益增长,传统期刊以线性结构出版论文的方式已经越来越难以满足读者快速定位知识的需求。科学论文的篇章结构解析能够为检索、定位、组织科学论文中的知识提供关键的位置信息,是科学论文深层次语义理解与挖掘任务的关键步骤。本研究以信息管理领域英文期刊的研究型科学论文为研究对象,探索不同的篇章结构解析方法,以实现篇章结构的自动识别。本研究的主要工作包括以下几个方面:(1)信息管理领域篇章结构模型的构建。本研究使用定量分析和定性分析相结合的方法,构建了面向信息管理领域的篇章结构模型,包括五个模块:引言、文献综述、研究方法、研究结果和讨论与总结。(2)将科学论文篇章结构解析转化为文本分类问题,使用传统机器学习方法和新兴的神经网络方法探究科学论文篇章结构的自动化解析。①改进现有的特征提取方式并进行验证。本研究最初提取了四种特征,包括动词的曲折变化、引用/指代特征、谓语动词特征和主谓搭配特征,然后对后三种特征的提取方式进行了改进,并在支持向量机和随机森林两种分类算法上进行对比验证。引用/指代特征在原有文献引用特征的基础上,加入图指代、表指代等更多的标记,统计结果显示不同的引用/指代特征在不同的模块中呈现出较大的分布差异,实验结果证明多种引用/指代特征的分类性能要优于单一的文献引用特征;谓语动词特征的提取加入句法分析的结果,并利用潜在语义索引技术将相关词转化到同一语义空间,既实现语义的聚合又能够达到降维的目的,这种方式相对传统表示方式在分类性能上提升了 15%,是对篇章结构识别最关键的影响因素;本研究依据不同的模块,提取了对应的主谓搭配特征,并基于现有的主语分类体系对主谓搭配特征进行归类,实验结果显示归类后的主谓搭配特征的分类性能要优于传统提取方式。②采用多特征联合建模,对比不同特征对篇章结构识别的影响和相互作用。实验结果表明,使用动词曲折变化特征、引用/指代特征和谓语动词三种特征联合建模,使用SVM算法作为分类器的方式获得最佳的分类性能,加入主谓搭配特征后使用四种特征建模的效果反而有所下降,说明过于分散的主谓搭配特征抑制了其他特征的作用,而前三种特征都具有促进意义,最终在支持向量机算法上达到了最好的分类结果(F=0.58)。③本研究使用深度学习技术FastText模型进行篇章结构识别,发现该方法整体性能要优于传统机器学习方法,获得F=0.62的分类性能,相较于传统机器学习方法提升了 4%。(3)将篇章结构识别转化为一个序列标注问题,使用序列模型探索篇章结构的自动解析。首先本研究分析了科学论文篇章结构中的序列信息,利用包含序列信息的位置特征进行二次分类,发现周围文本所属的模块信息能够为未知段落的识别起到指示作用,因此使用传统机器学习序列模型CRF和深度学习序列模型BiLSTM-CRF,进行段落层次的篇章结构解析探究。实验结果显示深度学习序列模型具有最好的识别效果,F值为0.71,与FastText模型识别结果相比提升了 9%,表明该任务中基于序列的方法要优于分类的方法。(4)本研究通过对科学论文篇章结构解析在指导科学写作、自动文摘和引文内容分析等任务中的具体应用进行分析,揭示了篇章结构解析的应用价值。
其他文献
随着国家经济社会的快速发展,2018年我国的城镇化率已达到59.58%,城镇人口的增加推动了城镇空间的蔓延扩张。由于对城镇扩展缺少合理的管控限制,盲目扩展带来了城镇结构松散低效、空间格局破碎化等城镇发展问题和生态环境破坏、耕地资源占用等生态资源管理问题。对此,国家自然资源部提出从严划定城镇开发边界,避免城镇盲目无序扩展,优化城镇空间布局形态和功能结构,提升城镇人居环境品质,推动形成界内城镇集约高效
图书馆、博物馆、档案馆等文化机构拥有丰富的人文信息资源,但由于传统资源组织方式所造成的语义信息丢失、实体关系不明、概念实体歧义等问题的存在,这些人文信息资源未得到充分挖掘与利用。对于该问题,语义网技术是一种有效的资源描述与组织模式。人物在人文信息资源中扮演着重要角色,围绕人物展开人文信息资源语义描述模型研究,能够充分体现以人为核心的人文研究思想。本研究的研究目的是构建一个人文信息资源语义描述模型,
在全球老龄化的背景下,老年人健康问题逐渐成为一个严峻的社会问题。当前,随着中国老年人口比例不断增长,中国老年人群的健康危机也日益加深。老年人健康问题不仅给老年人自身造成极大困扰,也带来了一系列的社会问题。因而,对老年人健康问题的研究具有十分紧迫的现实意义。老年人健康问题体现在身体健康和心理健康两个方面,本文重点研究老年人的心理健康问题。社会资本理论是解释老年人心理健康问题的一个独特的视角。许多经验
在马克思主义哲学形成和传播的过程中,对于辩证法的理解本身就构成了马克思主义的赞成者和反对者所共同关注的焦点问题。苏东剧变以来,西方“马克思学”走向分化发展阶段,辩证法逐渐在学院派的理论构建中“失锐”,仅仅围绕着马克思和黑格尔关系问题展开学术研究。从这一问题出发,诺曼·莱文、新辩证法学派的克里斯托弗·亚瑟和托尼·史密斯和巴斯卡对辩证法进行了当代解读。围绕着马克思与黑格尔、马克思与恩格斯的关系问题,诺
由于城市人口的快速增长,私家车数量的增加,不合理的城市交通规划和不完善的交通管理系统,城市交通拥堵问题日益严重。在这种情况下,有关交通流量分配的研究引起越来越多的人的注意。因为建立交通流分配模型,可以预测交通流量在交通网络上的分布,从而为道路规划和交通流管制提供有用的信息。首先,通过对已有文献中会导致交通网络随机性的因素进行总结,发现交通网络的随机性主要是由需求随机性和供给随机性引起。而随机网络对
单光子探测器作为一种极微弱光信号的检测手段,对现今的前沿科学,特别是量子信息技术的研究具有非常深远的意义。超导纳米线单光子探测器(SNSPD)凭借着其探测效率高,探测频谱宽,暗计数低和探测速度快等特点,成为当前单光子探测技术研究的一个热点,在量子密钥分发,荧光探测,远距离成像等众多领域有广泛的应用。目前,在1550 nm波段,基于非晶WSi薄膜制备的SNSPD仍保持着最高的探测效率(93%@120
杨六斤事件显现出目前孤幼财产管理上存在的问题多多,亟需政府及社会各方的帮助,如何建立和完善遗孤财产的救助机制是政府面临的一项重要任务,探索孤幼财产保护机制有着重要的现实意义。本文基于杨六斤事件的反思,指出需要完善孤幼财产保护机制,可以学习借鉴宋代的孤幼财产检校制度。第一部分初步介绍有关检校概念,进行学术史理论回顾,介绍本文的资料来源与研究预期。通过说明孤幼财产检校制度的来源,分析汉代、唐代和五代有
麦克·夏邦(1963—)是当代著名的美国犹太作家。他的小说文体风格多变,尤善于写作或然历史小说。犹太历史、犹太文化、以及犹太人的身份问题是他一直以来的创作主题。目前,国内对夏邦文学的学术研究仍处于初始阶段。虽然在国外文学批评界已经出现少量导读性书籍和一批优秀的评论文章,但是还鲜有研究从飞散的角度来分析夏邦的作品。本文拟在前人研究的基础上,结合飞散理论与飞散文化身份的概念,来探讨麦克·夏邦小说中犹太
软件在数据分析、建模、仿真等诸多科研活动中发挥着重要作用,但是在目前以传统出版物为驱动的科研评价体系中,软件价值尚未获得充分认可。在这种情况下,软件开发者很可能因为得不到足够支持而缺乏动力继续开发、分享和维护软件,这不利于知识开放与共享,也不利于科研资源的有效利用。随着数据密集型科学的兴起,人们逐渐意识到软件的重要性,一些学者开始呼吁重视软件的学术价值和承认软件开发者的科研贡献。但目前学术界对软件
金陵大学是清末民初西人创办的一所新式教会大学。本文以北京政府时期金大的招生政策与生源结构作为研究对象,运用第一手的中英文档案资料,结合量化史学的研究方法,从学校和学生两种视角出发,主要对以下三方面内容予以关注:一是金大教会性质与学生宗教信仰问题,二是学校学杂费与学生家庭经济状况之间的关系,三是学校招生考试地域与学生家庭来源地分析。本文试图复原北京政府时期金大整体的生源结构特征,梳理出其从建校最初到