基于深度学习模型的多层次多领域学术文本结构功能识别研究

来源 :中北大学 | 被引量 : 0次 | 上传用户:robinchen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
学术文献既是研究成果的主要表现形式,也是研究人员开展学术交流与研究活动的主要信息来源,其主要由前置部分和主体部分构成,前置部分包含题目、作者、摘要、关键词等要素,而主体部分则包含了正文、参考文献、附录等。学术文本的结构功能是从文本内容角度对学术论文的篇章结构和章节功能进行描述和概括,该结构功能通常根据IMRAD模型可划分为“引言”、“方法”、“结果”、“讨论”,这种结构化的功能划分有助于更细粒度的展示学术论文的逻辑结构,便于研究人员进行更深层次的研究,因此在图书情报、信息科学等领域,学术文本的结构功能识别成为学术论文知识挖掘的重要内容。目前,大多数面向学术文本的研究仍处于初级阶段,存在很多问题。因此,本论文面向学术文献数据,选取不同层次和领域的学术文本搭建深度学习实验环境,并通过对现有主流的方法进行改进,以进行学术文本结构功能识别,主要工作如下:学术文献的摘要由目的、方法、结果等结构组成,这些结构具有特定的功能。目前,针对摘要功能结构识别的研究不多,且存在识别效率不高的问题。鉴于此,本论文引入Bi RNN、Bi LSTM、Bi LSTM-CRF、BERT等深度学习模型,对1232篇情报类期刊论文进行摘要结构功能识别研究。本论文引入5折交叉验证法进行多次实验,以避免一次实验的偶然性;实验结果用“均值±标准差”形式表示,同时考虑模型的平均性能和稳定性;实验结果用F1值进行评价。实验结果表明,与Bi RNN、Bi LSTM、Bi LSTM-CRF等模型相比,BERT模型具有最高的均值和最低的标准差,这表明该模型不仅具有最优的结构功能识别能力,而且性能稳定,该模型特别适用于摘要结构功能识别任务。学术文献的结构功能识别问题是学术大数据知识挖掘与分析的重要研究热点,如何从中挖掘有效的知识有助于从更深层次、更细粒度理解学术文献,从而促进学术文献语义理解的发展。本论文以学术文献的章节段落为研究对象,对CNN、LSTM、BERT等深度学习模型的学术文献章节段落的结构功能识别性能进行比较研究,并与传统机器学习算法SVM进行了对比实验。CNKI语料集上的实验结果表明,与SVM和LSTM、CNN模型相比,BERT模型具有更优的结构功能识别性能,其在整体识别性能上F1值达到0.66,在具体结构功能的识别性能上F1值最高达到0.79。此外,通过引入混淆矩阵,对功能结构误识情况进行分析。误识分析表明,BERT模型能够较好地完成学术文献结构功能识别任务。学术文献的结构功能对于提高信息检索、关键词提取、引文分析等应用的效果有着关键意义,因此对学术文献的结构功能进行自动识别有着重大的理论价值与现实意义。针对章节内容所蕴含的大量语义信息以及中文学术文献的特殊性,本文使用Bi LSTM模型和注意力机制对学术文献中章节内容的字、词以及部首特征进行深层次语义提取,提出融合字、词以及部首等特征的基于章节内容的结构功能识别方法。本文以750篇图情领域期刊论文的章节内容作为实验语料集,将所提方法与当前主流方法进行了对比实验,实验结果表明,本文所提方法的准确率、召回率、调和平均值分别达到0.75、0.74、0.74,超过了所有的对比方法,证明了所提方法的有效性与优越性。此外,本论文引入混淆矩阵,对所提方法的错误识别结果及成因进行分析。
其他文献
“历史周期率”是一个历久弥新的时代课题,其核心在于思考如何实现政党长期执政。党的十八大以来,以习近平同志为核心的党中央对破解历史周期率难题进行了新思考和新探索,彰显出丰富的理论意蕴、价值意蕴和政治意蕴。依托“1核心+3基点”体系,坚持“初心使命”对全党理想信念的价值引领,实现“自我革命”和“全过程人民民主”内外两个环节的联动,依靠“中国之治”的制度优势和治理效能,能够保证我们党在跳出历史周期率的成
中国作为一个农业大国,解决农业、农村、农民“三农”问题,事关我国国计民生。乡村振兴战略,是我们党顺应新时代结合我国当下现状,做出的伟大战略,是做好“三农”工作的总抓手。产业发展是实现乡村振兴的基础,发展壮大村集体经济、稳定增加村集体收入是解决“三农”问题的必然要求和必然选择,而村集体资产管理工作是“三农”工作最基础性的工作,做好村集体资产管理尤为重要。行政村作为我国政治结构中最基本的组成单元,是“
期刊
<正>一、整合“词句段运用”范例,细化习作力训练序列景物推介类习作有其习作力序列,“词句段运用”景物描写有其语言力序列。如何将两个序列链接,让景物描写力序列更有效呢?1.梳理“词句段运用”景物描写范例,厘清语言力目标指向我们细读三到六年级“词句段运用”,通过梳理,语言力目标指向词句积累、想象训练、五官调动、关注变化等。同一内容在不同年级前后勾连,层层递进。2.解读“景物推介类习作”描写力目标,
期刊
<正>宁化是福建沿海及粤东地区通往赣南的交通要冲,但直至1935年,宁化才有了首条土公路。2021年金秋十月,福建宁化苏区城南镇茜坑村的“宁化站”前宽阔的广场上锣鼓喧天、彩旗飘扬、载歌载舞。2021年9月30日是宁化苏区人民难忘的日子,迎来了宁化交通史上一件大喜事——浦梅、兴泉铁路(宁化段)正式建成通车。向落后的公路交通宣战新中国成立后,在党和政府的领导重视下,宁化老区人民发扬了开拓进取、自力更生
期刊
微型化写作教学的一个重大转向是由关注写作知识体系转变为关注学生写作困难。写作学情是微型化写作教学设计的逻辑起点。微型化写作教学设计具有目标微化、情境多重、支架灵活等特点。微型化写作教学设计的一个重要使命就是为学生的写作提供必要的支架。
<正>恶性肿瘤已成为严重危害人类身体健康和生命安全的重大疾病之一[1]。国家癌症中心最新统计数据显示,2016年我国约有406.4万例恶性肿瘤新发病例和241.4万例恶性肿瘤死亡病例[2]。放射治疗是恶性肿瘤最重要的治疗手段之一,已有研究显示,70%的恶性肿瘤患者在疾病的不同时期需接受放射治疗[3]。对于晚期或难治性复发恶性肿瘤,放射治疗亦是减轻患者临床症状,延长患者生存期,改善患者生活质量的最有
<正>一、歌剧的诞生与德国歌剧的发展歌剧诞生于17世纪的意大利,一种大多数(或所有)角色在大部分(或所有)时间都在演唱的戏剧形式。歌剧这种全部由歌曲来交代故事情节的舞台形式可溯源至古希腊戏剧的剧场音乐以及中世纪教仪剧与文艺复兴时期的牧歌、田园剧。歌剧更看重演员的声乐技巧,且常有乐队负责伴奏,有的歌剧只需要小乐队,有的则需要较大编制的管弦乐团。随着时代的发展,有些歌剧中加入了舞蹈表演,如法语歌剧中的
期刊
<正> 改革开放以前,我国实行的是平均主义的分配原则,收入分配处于国家计划的严格控制之下。党的十一届三中全会以来,我们坚持效率优先,兼顾公平的方针,市场机制在收入分配中的作用不断增强,收入分配机制发生了重大改变,以按劳分配为主,多种分配方式并存的分配制度建立起来,社会成员之间收入差距拉大。
期刊