论文部分内容阅读
上世纪中期,引文数据库逐渐开放,文献计量学的研究重点逐渐由传统的题录分析转变为引文分析,引文分析的研究重点在于引文,也就是对文献的引用联系和引用规律进行分析。近些年,随着互联网技术的不断发展和成熟,一些全文期刊数据库逐渐向用户提供半结构化数据格式的论文全文,例如XML格式,为全文引文分析(Full-Text Citation Analysis)提供了扎实的数据基础。另外,随着自然语言处理、机器学习、文本挖掘等文本分析技术的不断成熟,全文引文分析的技术难度不断下降,在技术方法层面为全文引文分析提供了进一步的保障。全文引文分析从论文的章节结构、图表功能和引用信息等方面进行研究,引用信息分析的研究角度包括引用位置、引用动机和引用情感等,其中引用情感分析是指从引用内容中挖掘出施引文献作者对被引文献的态度和情感倾向,已经成为引用信息分析领域的一个研究重点。引用情感分析在理论层面具有一定的意义,在实践层面被广泛应用于科学研究的多个方面,有助于促进文献计量学的发展,深化引文分析的功能,提高对学术论文写作的了解。引用情感分析是引用信息分析领域的一个分支,拓展了引用信息分析的研究内容,为引文分析提供了新思路,有助于促进文献计量学的发展。传统的引文分析具有多种实际用途,如论文查找、学术评价、科学引文网络绘制等,引用情感分析对引用内容进行情感识别,深化了引文分析的功能和用途。在当前的学术评价体系内,学术论文是学术成果的重要表现形式,是对学术工作者的重要评价标准,论文写作对每一位科研人员具有特殊的重要性。引用情感分析从引用情感角度对论文中的引用行为进行细致的分析和讨论,对增强科研人员对论文写作时的引用行为的了解有一定帮助。本文在全文引文分析研究的理论基础上,纵向对引用情感分析进行了深入研究,以已有相关文献资料为基础,构建了一个引用情感分析的解决方案,开发出一套具有可行性的引用情感分析实现方法,综合运用文本挖掘、自然语言处理、社会网络分析、引文分析等方法完成引用内容抽取和引用情感识别。具体步骤是:首先从网络全文期刊数据库中获取半结构化格式的论文全文,然后利用文本抽取技术和方法从全文中抽取出被引文献信息、施引文献信息、引用内容信息,构建出引用内容数据集,接着利用机器学习方法训练出合格的引用内容情感分类器,并对引用内容数据集中的引用内容进行情感分类,最后根据情感分类结果完成引用情感分类结果数据表。基于引用情感分类结果数据表,本文通过实例分析从学术论文检索、学术论文评价、引文网络绘制三个角度揭示出引用情感分析的应用价值。本文的研究结论如下:(1)引用情感分析对论文全文数据中的引用内容进行情感分类,拓展了早期以引用位置、引用主题为重点的引用信息分析的对象和领域,从而可以更加深入、具体和精确地展现被引文献的引用价值。(2)引用情感分析的实现需要文献计量学等学科的理论指导,还需要综合运用文本挖掘技术、自然语言处理技术、社会网络分析方法、数据可视化方法等多种技术方法。对于引用情感分析的实现而言,从论文全文中抽取引用内容和对引用内容进行情感分类这两个步骤既是重点,也是难点。(3)除了具备用于学术研究的理论价值,引用情感分析在操作应用层面上也具有实用价值,尤其是在学术论文检索、学术论文评价和引文网络绘制等方面,具有良好的应用前景。