基于深度学习方法的中文分词和词性标注研究

来源 :中国民航大学 | 被引量 : 1次 | 上传用户:p244150486
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文词法分析任务是中文信息处理中的一项基本任务,主要包括两大部分,分别是中文分词和中文词性标注。目前的主流模型虽然表现优秀,但是依然忽略了很多要素,像分词中的相邻词特征,词性标注中的字符特征等,导致不能完全解决中文切分歧义和词性兼类等问题。本论文的目的是针对中文分词和词性标注任务的特点,分别提出了在分词任务中加入相邻词特征的方法和在词性标注任务中融合字符特征的方法,并且提出了一种针对序列标注任务的新型编解码结构。首先,针对中文分词任务中相邻字符构成词的特点,尝试在简单的序列标注模型的基础上,使用基于窗口采样的方式得到相邻字符的特征表示,在表示学习层中通过注意力的方式将相邻字符特征融合到模型中。这样的方式不仅充分考虑到了文本的上下文信息,还考虑到了相邻字符之间的耦合关系,可以得到每个字符特征的更加完整的表示。同时针对序列标注问题根据原始输入和输出之间的严格对齐关系,受到编解码结构的启发,采用词和标签双嵌入的方式,在编码器中增加对候选标签的预测,在解码器中使用基于注意力机制的隐藏特征监督候选标签对结果的预测来关联原始输入和标签之间以及前后标签之间的关系,提高了模型的泛化能力。然后,在针对词性标注的任务中考虑到标注对象是词的特点,从构词法的角度提出了三种将构成词的字符特征融合到模型中的方式,通过实验的方式证明了使用类似于注意力机制的加权特征融合方式得到了最优的结果。最后和分词任务一样使用改进的编解码结构进行实验,取得了优于基线模型的结果,证明了该结构对词性标注任务的有效性。最后,本文针对中文分词和词性标注任务的特点提出了相应的特征丰富和模型结构改进,经过实验的方式证明了模型和方法的有效性。针对序列标注任务的共性,可以将改进的模型扩展应用在其它序列标注任务中。
其他文献
本文通过对我国城市水务业外商投资现状的分析,分别总结了外商投资PPP现行主要模式BOT、TOT、并购模式等在我国城市水务业的应用情况,指出通过引进外资,对缓解政府建设资金、提升行业技术与管理水平、促进水务业体制机制的改革、市场开放等起到了十分积极的作用。但同时也存在外商利用固定回报率、保底回报率或保底水量等合同约定赚取高额回报,中方水务企业利益严重受损的问题;此外,水价上涨过快、供水安全、城乡水务
城陵矶综合枢纽的运行初步拟定了5个比选调度方案。针对这5个方案,依托长江中下游一二维水沙模型,建立洞庭湖四口河系四水尾闾河网水沙数值模型,对城陵矶建闸及其调度后的影
外来植物入侵对全球和区域的生物多样性、环境和经济都造成巨大的危害。这些成功入侵的外来植物多为具有非常强克隆繁殖能力的克隆植物,而克隆属性对植物入侵性的影响至今仍
随着社会的进步和发展,人们对于健康的需求达到了新的水准,中学生作为一个特殊的群体,其心理健康问题需要引起高度重视。文章以太极拳教学对高中学生心理健康的影响为研究对
近几年,政府注重民生工程建设,加大财政投资力度。为保证工程建设保质保量达到预期成效,在建设全过程管理方面,招标的地位显得越发重要。招标管理在项目推进,提高财政资金投
柔性制造系统中存在并发和冲突是不可避免的。当并发和冲突同时存在于柔性制造系统中时,无法从系统相同的最终状态观测到是否有冲突发生过,这一现象称为混惑。在柔性制造系统
自然生境中植物生长繁殖所需的资源(光照和水分)在垂直空间通常呈异质斑块性分布。影响克隆植物生长的两种常见的空间异质性格局是资源一致斑块性(资源垂直空间的正相关)和资