Bi-LSTM-CRF模型在中文语法错误诊断中的应用研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:myazx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着中国国际地位的日益提高,汉语学习对于国际学习者的发展变得越来越重要。本文探讨的中文语法错误诊断(CGED)任务的目标是开发一款计算机自动辅助工具并通过该工具协助第二语言为汉语的外国学习者更好地学习中文,同时减轻汉语教师的辅导压力。中文语法错误诊断研究旨在建立一个模型自动检测学习者在汉语写作过程中所犯的错误及错误所在位置。本研究中错误可分成四类,分别是:用词冗余、词语缺失、词语选择错误、词语排序错误。中文语法错误诊断研究的难点在于:该任务涉及到自然语言处理的不同层面信息,将涉及汉语的词法分析和句法分析等,因此需要多方面统筹考虑以辅助研判。此外,中文中包含了丰富的语言知识,语法表示形式多样化,当判断一句话中是否包含错误以及何种类型的错误时,往往还需要引入外部知识。鉴于此,本文提出采用pyltp进行数据预处理,pyltp的个性化分词特点更适合该任务,这是因为中文语法错误诊断的数据集大多来自不同外国学生写的中国作文,其中涉及众多不同主题。个性化分词则可在一定程度上缓解主题依赖性,当面对新主题时,用户只需标注少量数据即可,个性化分词会在原有数据基础上进行增量训练,从而达到既利用原来主题的数据信息,又兼顾目标主题的特殊性。此外,本文提出利用双向长短期记忆网络(Bi-LSTM)来建模,能更好地利用双向的上下文信息判断句子是否有误。在此基础上,我们将中文语法错误诊断视为一种特殊的序列标注任务来求解。针对序列标注问题,条件随机场(CRF)模型比传统的隐马尔科夫模型(HMM)和最大熵马尔科夫模型(MEMM)有更好的表现,且Bi-LSTM模型还可缓解CRF模型中人工特征选择及难以捕获长距离上下文信息依赖的不足。于是,本文进一步提出将Bi-LSTM和CRF模型结合起来。其中,Bi-LSTM用于获取两个方向上的长距离信息,然后将信息提供给CRF模型进行序列标注。在该任务开放标准评测数据集上的实验结果表明本文提出的Bi-LSTM-CRF模型在中文语法错误诊断任务中的实际效果比单独使用Bi-LSTM模型或CRF模型均有显著提高。
其他文献
当晶体场分裂能(△)与电子成对能(P)接近,具有d4~d7电子组态、配体场强合适的过渡金属配合物能在可控的外界微扰下(温度/压力/光照等条件)发生高低自旋态的转换(LS(?)HS),该现
研究背景与目的组织工程是近年来正在兴起的一门前沿学科,对于容易造成软硬组织缺损的疾病来说,组织工程技术能够为已缺损或丧失的组织重建新的有功能的结构,从而备受关注。种子细胞的选取对于组织工程来说至关重要,选择一种具有优越的自我更新和多向分化能力的干细胞,决定着“再生”这一过程的成败。近年来,多种口腔组织来源的成体干细胞的发现使口腔组织再生迈出了关键的一步。迄今为止,已有多种牙源性间充质干细胞被分离及
针对现有盾构机维护手段仍以定期维护和事后维护为主的问题,并结合如今流行的深度学习模型LSTM(Long—short—Memory)循环神经网络,本文提出一种适用于盾构机的故障预测系统。系
基于风险的保险公司偿付能力框架既可以作为监管机构考量保险公司资本充足性的外部模型,又可以作为保险公司进行全面风险管理的内部模型,是保险偿付能力监管体系的发展方向。
从上古歌谣算起,诗就陪伴我们的生活。诗词不仅蕴含着文辞之美,更包含着丰富的文化知识和美好的道德人格。知识内涵,是诗词的肌骨;人格之美与文辞之美,是诗词的灵魂。中国的
2017年底美国甲型流感(H3N2为主)开始在局部地区爆发以来,到2018年2月底达到"广泛传播"级别,已累计有24644人因流感住院,约每100万人中就有863人因流感住院,已造成119例儿童
高校校史研究是中国近现代史研究的重要领域之一。目前的校史研究论著多为以档案文献为基础的宏观叙事之作,口述历史为挖掘新史料以深化校史研究提供了有效的途径。以中国科
在东荣大路调蓄池深基坑支护中锚索施工中,为提高施工效率,本工程调整施工工艺,采用新式优化钻头将钢绞线和钻头焊接在一起,随钻杆一同钻进,达到设计深度后钻杆反转将钻杆与
在一部影片中,导演和演员合作得好坏,直接影响影片的质量。有时一位有才能的导演,由于选错了演员,又缺乏正确地指导表演的方法,拍出一部极为平庸的影片而一蹶不振;有时一位
液压马达输出功率密度大, 控制性能好, 广泛应用于盾构机驱动刀盘工作.该文提出了基于信息融合的多尺度状态监测方法对盾构机刀盘驱动液压马达的工作过程进行了状态监测, 对