论文部分内容阅读
大数据时代,如何科学、全面的反映一个学科的知识结构和发展状况至关重要,摘要是学科知识挖掘的一个便捷且重要的数据来源,但现有的知识挖掘很难定位摘要中的关键信息语步,更无法实现语步内部的知识挖掘,这就需要构建摘要语步的自动识别模型。基于文本自动分类的研究成果,自然语言处理领域出现了三类摘要语步自动识别模型,但这三类模型各有利弊。纯粹以统计词频构建的词袋模型,虽然能够穷尽词项特征,但对特征不做筛选和归类,导致特征稀疏。基于规则提取语言学特征构建的模型,虽然避免了特征稀疏的问题,但未能全面系统地提取所有特征。第三类结合词袋和语境特征构建的模型,虽然识别效果很好,但只能针对结构化摘要,对大量非结构化摘要的识别效果仍然差强人意。针对这种情况,本研究旨在以现有的摘要语步结构自动识别模型为出发点,针对现有模型语言特征提取不足的问题,结合语言学理论和方法,提取新的特征,同时借助语料库语言学、自然语言处理、信息检索技术以及统计学等学科中的研究方法,试图构建运行效果更好的能够自动识别常见类型英文摘要语步结构的模型。本研究模型的构建大体分四个阶段:(1)语料的准备和预处理阶段。我们下载了Web of Science数据库收录的《应用语言学》期刊自1993年到2014年出版的所有论文摘要,剔除书评、会议论文、编者语,共计440篇。然后对文本进行清理,以及进行自动词性赋码和句法分析。(2)人工标注阶段。由三位相关专业研究人员对语料进行人工标注,标注过程前后持续一年,经历了基于已有研究提出的标注方案自上而下地标注,以及不带有任何已有的方案自下而上地标注,最后采用了两种方法相结合的方式,并确定了以完整的语句为标注单位的六语步标注方案。经检验,两位标注人员独立标注的一致性较好(Kappa =.785),然后对独立标注中二者不一致的地方进行多次讨论、修改,达成完全一致。(3)提取特征构建模型阶段。人工标注完语步结构之后,利用一系列研究工具和方法,提取有效的语步预测特征,再利用这些特征和数据训练学习分类器(条件随机场),获得模型。(4)模型的验证阶段。利用构建的模型预测验证集的语步类别,将模型预测的验证集的语步类别与人工标注类别对比,得到模型的识别效果,再与现有的同类模型作对比,探索本模型的优势与不足。本研究的主要发现可以概括为摘要的语步分析、语步结构的有效预测特征和模型的识别效果三方面。第一,本研究突破了传统语步分析的方法,基于对大量数据的实际分析印证并完善了已有的语类研究理论。第二二,本研究验证了已有模型提取的4个特征的有效性,证实了新加入的3个特征的有效预测力,通过对比发现以语料库的方法提取的新特征比传统方法提取的特征效果更好。从特征的三个维度来看,意义特征对语步的识别度最高(F=0.609),其次是语境特征(F=0.428),识别度最低的是形式特征(F=0.317)。第三,本研究构建了摘要语步结构的自动识别模型,模型的识别效果(F=0.7819)是现有自动识别模型中效果最好的,对信息型摘要的识别效果比现有识别效果最好的模型提高了4.5%。为了保证可比性,我们利用同一批语料训练词袋模型AntMover,结果本研究的模型比AntMover的识别效果提高了约23%。摘要语步结构自动识别模型的构建,为下一步学科知识挖掘中定位摘要的语步以及语步内部的关键知识奠定了基础。另一方面,语步的自动识别突破了ESP领域长久以来的人工识别法,为语步分析理论和实证研究走向更多的学科和研究领域,发展成为一个更全面、多视角、多维度的语步分析领域提供了可能。