论文部分内容阅读
在自然语言处理领域,研究的重点逐渐从字词等小粒度语义单位转向诸如句群、篇章这样的更大粒度的语义单元,因此篇章分析在自然语言处理领域中正在变得越来越重要。篇章分析致力于从篇章角度整体理解文本,理清文章脉络,广泛应用于情感分析、问答系统、文本摘要等其他自然语言处理任务中。篇章分析分为研究段落内部结构的微观篇章分析和研究段落、段落群间关系的宏观篇章研究两大类,相较于比较成熟的微观篇章分析,宏观篇章分析任务还处在探索阶段。本文对宏观篇章结构分析、宏观篇章主次识别和宏观篇章关系类型识别三大子任务分别展开探索和研究,并最终构建了一个可从生文本生成完整宏观篇章树的汉语宏观篇章树自动构建器,本文主要研究内容包括以下四个方面:(1)针对宏观篇章结构分析中语义信息使用少的问题,提出了基于多视图和词对相似性的宏观篇章树构建方法。首先,使用Bi-LSTM构建基础模型;然后,使用词对级相似度计算单元来捕获两个篇章单元间的关系;最后,引入主题信息用于捕获主题和篇章单元之间的关系,从而进一步增强篇章单元的表示。在MCDTB上的实验验证其有效性,性能上较基准实验提升了 4.68%。(2)对宏观篇章关系类型识别进行了初步探索,提出了一个基于宏观语义表示的宏观篇章关系识别方法。首先,筛选出被迁移到该任务的特征集;其次,对汉语新闻文章进行分析,提出了一种利用原树结构的特征和一种基于多种词向量的宏观篇章关系表示方法。在中文的MCDTB语料库和英文的RST-DT宏观化语料库上的试验表明提出方法在中英两种语言上均对模型产生了正面的影响,在中文和英文语料上性能分别提升了 4.08%和5.97%。(3)针对宏观篇章主次识别任务中语义信息和结构信息不能很好地融合的问题,提出了一种强化宏观结构信息的宏观篇章主次识别方法。将原问题转化为图节点分类问题,将单棵篇章树作为样本引入了整个篇章树的结构信息,强化了语义表示内部隐含的结构联系。同时,对模型行为进行分析,解释已有先研究中结构信息和语义信息不能融合的原因。据此,提出一种两步训练法,使较为弱势的结构特征的特性得以保留。在MCDTB语料库上的实验上表明,性能比基准系统提升了 2.48%。(4)针对目前研究中遇到的标注流程不规范,管理困难的问题和实验结果不直观,分析困难的问题,本文构建了一个宏观篇章分析平台,为在MCDTB上进行的汉语宏观篇章的研究提供工具链的支持。平台覆盖了研究中从语料标注到最终结果可视化和对比分析等各个环节,有助于后续语料库建设和进一步研究的开展。同时结合对宏观篇章三大子任务的研究成果,在该平台上实现了一个汉语宏观篇章树自动构建器,提供从生文本构建汉语宏观篇章树的服务。本文针对宏观篇章分析任务中的三大子任务进行较为深入的研究,提出了有效的解决方案,相较已有研究性能均有所提升,为将来的研究提供借鉴和参考。