基于引文文本自动分类的引用内容分析

来源 :南京大学 | 被引量 : 0次 | 上传用户:pangjunli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于文献被引频次的传统引文分析方法已广泛应用于学术评价等领域,但该方法将所有的引用同等看待,未能有效区分不同引用之间的具体差异。随着全文文献数据库的普及以及文本信息处理技术的发展,图书情报领域的学者开始采用机器学习和自然语言处理技术对引文文本进行细粒度的分析和处理,尝试从引用功能、情感等多方面对引用进行有效区分,引文文本自动分类逐渐成为研究人员关注的焦点,但相关自动分类方法的准确性还有待提升,将自动分类结果应用于引文分析的相关实践也较为缺乏。本文首先对引文自动分类的实现方法进行了探索,从引用功能、引用情感和引用深度三个角度构建了自动分类器。在引用功能和引用情感分类上,使用了基于特征工程的统计机器学习以及深度学习方法在公开数据集上进行实验。结果表明,在引用功能分类上,添加线索词和引用标签的位置关系特征能够明显提高分类效果,宏平均值提升了约8%;在引用情感分类上,得益于在超大规模语料上的预训练,基于BERT模型的深度神经网络也在不同程度上超过了其他方法。在引用深度分类上,本文提出了一种采用无监督学习算法对引文文本进行自动聚类的方法实现自动分类,并通过对聚簇中心特征向量的分析,论证了本文提出的引用深度分类方法的有效性和合理性。在引文自动分类器构建完成的基础上,本文对两个数据集进行了相关计量分析,从引用内容层面归纳一般结论:(1)第一个数据集包含计算机领域1738篇论文的125620条引文文本。数据分析表明:计算机领域引文文本的引用功能和引用情感具有相关性。在位置分布上,引用功能呈现较为明显的“背景-基于-使用-比较”位置分布特征,引用情感当中正面引用集中于文章的开头,负面引用在文章开头和结尾的占比均较高。在数量分布上,功能为“背景”和“使用”的引用占比较高,情感为“中性”的引用占比较高,负面引用少于正面引用。(2)第二个数据集包含《Latent Dirichlet Allocation》这篇高被引论文的4132篇施引文献中的7884条引文文本。首先对不同类型引文文本的时间演化趋势进行了分析,将高被引论文的发展阶段划分为三段;随后分析了不同学科的引用差异,结果表明不同学科在引用类型上存在显著差异。在此基础上,本文还对负面引文文本进行了细粒度的内容分析,将负面引用归纳为基本原理、工程实现、结果评价、应用场景四个主题,使相关研究员能够更清楚地了解该被引文献的不足,对后续研究具有指导和借鉴意义。本文提高了引文文本自动分类结果的准确性,并将引文自动分类应用于两个引文数据集的数据分析中,论证了引文自动分类在引用内容分析中具有重要的作用和科研价值。
其他文献
制度是社会秩序的重要保障,公众对制度是否能有效理解、广泛接受并表现出遵从行为是社会治理效能的重要反应指标。中国正处于传统社会向“陌生人社会”的快速转型期,制度信任是比人际信任更加长效、稳定的社会治理条件,也是当前公共治理领域迫切需要研究的现实问题。医疗卫生制度关系到国计民生,家庭医生签约服务制度是对现有医疗卫生服务模式、就医理念和就医秩序的深刻调整,以该公共卫生制度为例研究制度信任对遵从行为的影响
学位
隐喻普遍存在于日常语言中,并渗透于我们的思维方式和行动之中。随着人们对隐喻在外语教学中作用的理解不断深入,隐喻研究逐渐成为认知语言学与应用语言学的接口研究热点之一。然而,目前关于二语学习者隐喻使用的实证研究仍较为有限。因此,本研究旨在探索中国博士生在英语议论文写作中的隐喻使用情况。基于此目的,本研究采用了Steen等学者提出的隐喻识别方法(MIPVU),对60篇来自不同学科背景的中国博士生英语议论
学位
数字化转型过程中,传统新闻业不仅面临受众流失、广告收入减少的盈利困境,还存在新闻权威消解、职业忠诚度下降、合法性赤字等文化危机。为应对危机,财新传媒开启了付费墙实验,且初见成效。但付费墙不只是宏观的营收数字或微观的付费内容,需要把付费墙的运作机制放置于新闻生产社会学的中观视角下加以本土化的阐释。本文通过新闻民族志的方式深入财新传媒编辑部,研究财新的付费新闻生产得以可能的条件。借助布尔迪厄的场域理论
学位
先天性心脏病是一种最常见的出生缺陷,严重影响胎儿发育和生存。由于其发病率高、死亡率高、治疗费用高,造成巨大的社会影响。研究早期胚胎发育过程中心脏发育的分子机制具有重要意义,这有助于正确认识心脏发育、维持稳态以及相关疾病的发病机制。线粒体是一种非常重要的细胞器,参与产生ATP、转导能量和很多的细胞信号转导事件。线粒体功能对发育很重要,其缺陷可导致严重的胚胎致死。MAM(mitochondria-as
学位
技术的介入不仅仅延伸了我们的身体,还施加于我们的感觉系统,改变了我们的知觉方式,在把握人与世界的关系中引入了新的尺度。本研究试图回应的问题即为:作为一种为了提高移动性而出现的现代技术,地铁的介入如何改变了人们对城市空间的感知和想象,进而影响了人与地方之间的关系?本研究从“身体”这一理论视角出发,结合相关的传播学、社会学和人文主义地理学理论,论述了以下观点:地铁作为一种现代交通工具具有其技术特性,它
学位
随着社会的现代化,中国也逐渐从过去的熟人社会转变为现代社会,人们越来越多地需要与陌生人进行交流和互动,此时建立于人际信任的信任模式逐渐无法满足社会的需要,制度信任的重要性逐渐体现出来。各领域信任危机频繁爆发,其中医疗行业的医患信任危机问题尤为突出,公共管理领域迫切需要合理的制度设计来促进信任的建立,因此厘清制度与医患信任的影响关系及其路径有着重要意义。一些文献阐述了制度对信任的影响,有学者对此进行
学位
城市中老年人口数量随城市化演进和人口老龄化加重而直线上升,中老年人受人体代谢影响,身体机能不断下降,患两种及以上慢性病已成常态。这使得医疗资源需求增加,医疗支出激增,加重居民和国家的经济负担,同时,近十几年我国医疗支出增长率远超GDP增长率,对国家整体的经济发展带来负面影响。在城市化和人口老龄化的双重推动下,城市中老年慢性病人口的医疗服务利用问题逐渐成为关注重点。因此,如何通过调整城市的医疗供给、
学位
在我国义务教育由基本均衡迈向优质均衡的新阶段,全面提升基础教育质量的时代背景下,提高学生的学习质量成为当前基础教育学习研究亟待探析的议题。“学习”最为基础教育的核心环节,是有效教学的关键,学习质量表征着人才培养的质量,近四十年的深度学习研究认为深度学习是表征学习质量,尤其是过程性质量的一个重要指标,是学生学业发展的关键支点。为此,深入剖析深度学习的内在机理和外部条件尤为重要。外部环境对学习者深度学
学位
鸡汤文运用一定的叙事及情感策略,投合特定群体的心理状态,成为当下中国一种具备典型性的流行文本。本研究聚焦这一现象,选择个案研究的视角介入,通过对微信公众号“咪蒙”的全部文本、咪蒙的访谈资料及媒体报道进行文本分析,以及对12位咪蒙粉丝的深度访谈,探析研究个案的叙事、情感策略及意义建构。并试图对应读者阅读的情感体验,结合当下的社会文化语境,最终对鸡汤文何以流行的时代情感结构予以阐释。研究发现,咪蒙运用
学位
引文分析是重要的定量分析手段,可用于评价科研人员贡献和研究成果。在传统的引文分析中,研究者更偏爱静态的研究指标,例如总被引次数、期刊影响因子、H指数等。然而文献被引是动态的过程,有必要基于时间维度进行分析,从动态视角理解科学系统的知识流动。引文波峰作为引文扩散过程中最具影响力的阶段,可以有效揭示文献被引特点,例如,波峰的时间特征是文献被引模式的重要指征,波峰的幅值特点可以反馈文献的研究特点,二次或
学位