【摘 要】
:
序列标注任务是自然语言处理中的一类基础任务,其性能的优劣极大地影响着机器翻译、社区问答等后续任务的性能。传统的统计模型经过特征设计取得了先进的结果,但该设计过程往
论文部分内容阅读
序列标注任务是自然语言处理中的一类基础任务,其性能的优劣极大地影响着机器翻译、社区问答等后续任务的性能。传统的统计模型经过特征设计取得了先进的结果,但该设计过程往往需要大量的人力物力,且设计的特征可移植性不佳;神经网络模型考虑到词的句法信息和语义信息,在引入预训练词向量作为模型的输入特征的同时结合一系列非线性变换,产生了接近先进的结果,但随之而来产生了未登录词问题。同时,模型由于忽略词本身所具有的形态学特征,出现了词形信息缺失的问题。本文通过分析和研究发现了形态学特征在人工抽取时产生的可移植性不佳问题以及其以Bi LSTM和CNN分别作为字符级模型时存在参数多、无法并行计算和只能抽取局部特征的问题。基于上述情况,本文提出一种基于注意力(Attention)机制的字符级表示模型Finger用于抽取词形特征。该模型不仅能同时对输入字符间的依赖关系进行建模,而且兼具普通Attention模型的全局性和并行性,从而解决字符级模型Bi LSTM固有的训练参数多、无法并行的问题和CNN只能对局部信息建模的问题。此外,本文研究的字符级模型结合Bi LSTM-CRF编解码模型,构造了一种端到端、无需任何人工特征的序列标注模型Finger-Bi LSTM-CRF。该模型既融合了序列标注任务所需的词形信息,有助于模型对于边界的判定,又结合了BiLSTM对于单词上下文信息的表示能力,还保留了CRF层求解标签序列的全局最优解的能力,在实现模型复用性的同时,解决了特征工程带来的一系列问题。为了验证模型的有效性,我们将设计的模型应用于通用领域的英文词性标注任务和命名实体识别任务中,在端到端、无任何人工特征情况下分别取得了97.37%的精度和91.09%的F1值,这两项结果均接近于最先进水平。
其他文献
近年来,院前医疗急救系统(即120急救系统)的基础设施建设和医疗装备配置得到快速发展,院前急救医师队伍人员紧缺,流失率高,队伍不稳定等已成为制约院前医疗急救发展的瓶颈性
目的通过研究老年大肠癌p53、Ki-67的表达与Dukes分期的关系,探讨老年大肠癌的预后。方法将163例大肠癌病例分为老年组和对照组进行p53、Ki-67的标记,同时按Dukes标准分期。
以集聚区的形式发展文化创意产业是当今世界性的潮流。上海是全国较早推动文化创意集聚区发展模式的城市。其集聚区的崛起源自20世纪末上海城市产业升级。作为盘活国有资产的
编者按:党的十八大以来,我国以前所未有的力度推进生态文明建设和绿色发展,呵护山水林田湖草这个生命共同体,在植树造林、护草增绿方面取得显著进展,神州大地的绿色持续增加,人民群
进入21世纪以来,我国钢铁企业面临的经营环境和管理模式发生了翻天覆地的变化,国外钢铁企业纷纷抢滩中国市场,我国钢铁市场产能过剩和产品同质化现象日益严重,钢铁行业进入微利时
迄今为止,我国律师制度恢复已达30余年,律师行业也从原来的鲜为人知到目前拥有广泛影响力,成长为社会主义法治建设的重要力量。著名的美国哈佛大学法学院教授、优秀律师德肖
清末民初,中国社会经历了“三千年未有之大变局”,该变局不仅是政权的更迭,更是社会形态的变迁。中国社会从政治到经济,再到文化,各个领域都发生了剧变,即从传统农耕社会过渡
民营经济为什么要进入国有企业?如果民营企业能够控股,决策上可以有决定性,问题是规则上行不行?发展混合所有制经济,从国有企业的功能来说,能达到什么功能?从民营企业的角度
现代企业不断向现代化、信息化推进,主要为其提高工作效率和管理水平,计算机网络管理作为企业管理文化的一部分,OA办公系统网络安全问题尤其重要,作为一个整体联机事务网络系
微博中有这样一个草根群体,他们发表微博的频率高、数量大,内容多为原创性的公众议题,拥有大量活跃粉丝,微博的评论和转发量较大。根据曼海姆“伪公共领域”之说,有学者认为,