汉语宏观篇章树自动构建方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:qq452723692
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言处理领域,研究的重点逐渐从字词等小粒度语义单位转向诸如句群、篇章这样的更大粒度的语义单元,因此篇章分析在自然语言处理领域中正在变得越来越重要。篇章分析致力于从篇章角度整体理解文本,理清文章脉络,广泛应用于情感分析、问答系统、文本摘要等其他自然语言处理任务中。篇章分析分为研究段落内部结构的微观篇章分析和研究段落、段落群间关系的宏观篇章研究两大类,相较于比较成熟的微观篇章分析,宏观篇章分析任务还处在探索阶段。本文对宏观篇章结构分析、宏观篇章主次识别和宏观篇章关系类型识别三大子任务分别展开探索和研究,并最终构建了一个可从生文本生成完整宏观篇章树的汉语宏观篇章树自动构建器,本文主要研究内容包括以下四个方面:(1)针对宏观篇章结构分析中语义信息使用少的问题,提出了基于多视图和词对相似性的宏观篇章树构建方法。首先,使用Bi-LSTM构建基础模型;然后,使用词对级相似度计算单元来捕获两个篇章单元间的关系;最后,引入主题信息用于捕获主题和篇章单元之间的关系,从而进一步增强篇章单元的表示。在MCDTB上的实验验证其有效性,性能上较基准实验提升了 4.68%。(2)对宏观篇章关系类型识别进行了初步探索,提出了一个基于宏观语义表示的宏观篇章关系识别方法。首先,筛选出被迁移到该任务的特征集;其次,对汉语新闻文章进行分析,提出了一种利用原树结构的特征和一种基于多种词向量的宏观篇章关系表示方法。在中文的MCDTB语料库和英文的RST-DT宏观化语料库上的试验表明提出方法在中英两种语言上均对模型产生了正面的影响,在中文和英文语料上性能分别提升了 4.08%和5.97%。(3)针对宏观篇章主次识别任务中语义信息和结构信息不能很好地融合的问题,提出了一种强化宏观结构信息的宏观篇章主次识别方法。将原问题转化为图节点分类问题,将单棵篇章树作为样本引入了整个篇章树的结构信息,强化了语义表示内部隐含的结构联系。同时,对模型行为进行分析,解释已有先研究中结构信息和语义信息不能融合的原因。据此,提出一种两步训练法,使较为弱势的结构特征的特性得以保留。在MCDTB语料库上的实验上表明,性能比基准系统提升了 2.48%。(4)针对目前研究中遇到的标注流程不规范,管理困难的问题和实验结果不直观,分析困难的问题,本文构建了一个宏观篇章分析平台,为在MCDTB上进行的汉语宏观篇章的研究提供工具链的支持。平台覆盖了研究中从语料标注到最终结果可视化和对比分析等各个环节,有助于后续语料库建设和进一步研究的开展。同时结合对宏观篇章三大子任务的研究成果,在该平台上实现了一个汉语宏观篇章树自动构建器,提供从生文本构建汉语宏观篇章树的服务。本文针对宏观篇章分析任务中的三大子任务进行较为深入的研究,提出了有效的解决方案,相较已有研究性能均有所提升,为将来的研究提供借鉴和参考。
其他文献
音像公司与音像出版社可以哭诉盗版的猖獗,但问题不在于盗版,而在于为什么会出现盗版。终极原因就在于发生了巨变的产业体系和产业链。因此,主动而自觉的转型,就是这些行业想要在
目的 研究老年慢性阻塞性肺疾病(COPD)急性发作期患者的营养状态和脂类代谢的变化和相互关系。方法 通过人体测量和内脏蛋白测定对53例COPD合并呼吸道感染的老年住院患者进行营养评价,应
本文通过对肺功能正常的老年患者经腹腔镜和剖腹胆囊切除术,术中及术后肺功能的监测观察,评价二氧化碳气腹对老年人围术期肺功能的影响.
2006年2月24日,新闻出版总署对外交流合作司在京组织召开了出版物进口管理工作座谈会,来自全国29个省,市新闻出版局的代表和39家进出口公司的代表参加了大会。新闻出版总署副署
随着物质生活水平不断提高,人们对食品的来源和营养价值越来越关心。然而,由于食物种类日益繁多,分辨出菜市场买来的食物属于哪一品类变成了一件既有乐趣又具有挑战性的事情
目的探讨肌肽对实验性脑缺血再灌注的神经保护作用.方法按Pulsinelli法建立大鼠四血管结扎全脑不完全缺血模型.实验选用同种系雄性大鼠,随机分为三组:假手术组,对照组和治疗
随着财务信息建设的推进,各类信息都要通过财务这个平台进行汇集整合,信息披露的质量要求日益重要。本文通过电子表格在合并报表中的具体应用,说明两者的结合对于提高财务信息披
陶瓷的发展与窑炉的革新是分不开的,两者相辅相成,相互促进。中国明代景德镇陶瓷的飞跃发展,除了制瓷工艺的不断改进,当时烧制陶瓷所使用的葫芦窑也起着不可替代的作用,中国