【摘 要】
:
依存句法分析是识别句子中词与词之间的语义修饰关系并构建依存句法树的过程。依存句法树能够简洁高效的表达句子的句法结构信息,广泛应用于机器翻译、问答系统等自然语言处理任务中。在对汉语进行依存句法分析时,需要先依次进行分词和词性标注。为解决这种串行分析方式中存在的错误传播和无法共享特征的问题,研究人员提出联合三个任务同时进行分析的方案,如何同时提升三个任务的分析精度一直是汉语依存句法分析研究追求的目标。
论文部分内容阅读
依存句法分析是识别句子中词与词之间的语义修饰关系并构建依存句法树的过程。依存句法树能够简洁高效的表达句子的句法结构信息,广泛应用于机器翻译、问答系统等自然语言处理任务中。在对汉语进行依存句法分析时,需要先依次进行分词和词性标注。为解决这种串行分析方式中存在的错误传播和无法共享特征的问题,研究人员提出联合三个任务同时进行分析的方案,如何同时提升三个任务的分析精度一直是汉语依存句法分析研究追求的目标。依存句法分析主要有基于转移和基于图两种分析方法。基于转移的依存句法分析方法一直保持着最高精度,但是随着计算能力和深度学习技术的发展,基于图的分析方法在全局决策和并行化处理上的优势得以发挥,在英语依存句法分析的精度上超过了转移方法。本文围绕基于图的汉语依存句法分析方法展开研究,重点研究基于图的汉语分词、词性标注和依存句法分析联合模型以及图模型中二阶子树的利用方法。已有工作仅对分词和依存分析任务进行联合,如何联合词性标注任务成为汉语依存分析联合模型迫切需要解决的问题;另一方面,已有工作仅尝试利用一阶子树,如何利用二阶子树提高精度成为基于图的分析方法亟待解决的问题。本文从上述两个问题出发,提出基于图的三个任务的联合模型,设计实现融合二阶子树的汉语依存句法分析联合模型,并在公开数据集CTB5上进行实验评测,主要工作和贡献总结如下:(1)提出基于图的汉语分词、词性标注和依存句法分析联合模型。词性标注任务无法像分词任务一样,通过转化为字间依存关系直接与依存分析任务联合。为联合词性标注任务,我们考虑将其转化为字级别序列标注任务,采用多任务学习的方式进行联合。为此,本文设计两种联合方式:一是隐式方式,设计共享编码层以实现字级别词性标注任务与字级别依存分析任务的联合;二是显式方式,设计标签注意力机制将向量化的词性标签融入字级别依存分析任务中,以此实现联合。本文在汉语句法数据集(Chinese Treebank 5.1,CTB5)上进行实验,实验结果显示,隐式和显式的联合模型,在无标签依存分析F1值上分别提升0.24%和0.22%,说明本文提出的两种联合词性标注任务的方式能够有效提升依存分析精度。与最新的转移模型相比,在词性标注F1值和无标签依存分析F1值上,隐式联合模型分别提升0.80%和6.49%,显式联合模型分别提升1.01%和6.47%,说明本文提出的基于图的三个任务的联合模型相比转移模型更有优势。(2)设计实现基于图的二阶中文分词、词性标注和依存句法分析模型。已有工作假设依存弧之间相互独立,仅利用一阶子树进行预测。我们考虑同向相邻的弧之间或首尾相接的弧之间存在相关性,相应的分别设计融入相邻兄弟二阶子树与祖父二阶子树的二阶模型。同样数据集上的评测结果显示,两种二阶模型在分词、词性标注和依存分析三个任务的F1值上都有提升,其中采用相邻二阶子树的模型分别提升0.11%、0.33%和0.24%,而采用祖父二阶子树的模型分别提升0.16%、0.37%和0.26%,说明本文构建的二阶模型能有效提升联合模型中三个任务的分析精度。
其他文献
随着我国铁路事业的快速发展,行车安全成为亟待解决的问题之一。其中,行人误闯是影响行车安全的重要因素。因此,及时检测是否有人员误闯列车运行线路可以保障行车安全。传统的行人检测方法难以实现高性能和实时性的检测任务。近年来,随着深度学习技术的快速发展,基于深度学习的目标检测算法取得了优异的成绩。因此,本文以优异的卷积神经网络为基础,结合嵌入式异构设备完成铁路场景下的行人检测,实现铁路安防的智能化。本文的
互联网的高速发展使得用户正在面临信息爆炸的问题。推荐系统通过提供个性化的商品推荐服务来辅助用户进行决策,从而减轻消费者因选择过多而产生的焦虑和困惑。基于评分矩阵的推荐算法可以根据用户的评分模式对用户和商品进行建模,但该类算法面临严重的数据稀疏性问题。而用户生成的评论文本可以反应用户的喜好和商品特征等语义信息,利用这些信息可以有效缓解数据的稀疏性问题,从而提高模型推荐的准确率。本文主要基于深度学习技
行人属性识别是视频监控领域中的重要任务,因其在视频监控应用中的巨大潜力在近些年来受到了广泛关注,它可以应用于很多下游任务中,例如行人追踪,人脸验证,行人检索等。行人属性识别任务属于计算机视觉领域中的多标签图像分类任务。多标签图像分类任务的研究重点在于如何利用标签之间的共现关系辅助模型提升分类性能。目前最先进的共现关系建模方法是图神经网络,但它存在两个严重影响性能的问题:1)低频标签无法有效的从高频
脑血管病具有高发病率、高致残率、高死亡率的特点,且患者的经济负担较高,受到了社会的广泛关注。近年来,关于脑血管病的研究已取得一定的成果,但是目前我国卒中终身风险仍居世界最高为39.3%,其中男性卒中终身风险更高达41.1%,我国卒中防治工作仍面临巨大挑战。随着医疗信息化的发展,医院积累了大量的电子病历,为数据挖掘以及数据分析提供了数据基础。同时大数据技术的发展,为处理医疗数据提供了良好的技术手段,
近年来,我国城市轨道交通高速发展,其中隧道总里程位于世界第一。由于施工、温度、载荷等各种因素的影响,地铁隧道表面会有病害发生,其中,隧道表面裂缝是最常见的病害之一,给地铁的安全运营带来威胁,因此,裂缝检测是地铁周期性巡检的重要任务。目前,针对地铁隧道衬砌裂缝的检测仍然以人工巡检为主,本文设计了一种基于多目相机的隧道衬砌图像同步采集系统,可以在天窗时间内快速采集高质量的隧道衬砌图像,同时提出了一套基
随着近年来自助游市场的迅速发展,更多的出游者不仅是网络旅游资讯的信息接收者,同时也是网络信息的生产者和传播者。UGC(User Generate Content,用户生成内容)指的便是用户在网络上发表的文字、图片或视频等一系列信息资源。本项目的选题来自作者在某旅行APP公司所参与的实际项目,基于以上背景,公司在现有市场的基础上开始向社交领域发展,致力于打造旅行+社交的出游模式。本文的旅行APP后端
情感分析是当前自然语言处理领域中最活跃的研究方向之一。作为细粒度的分析方法,属性级情感分析可以从文本中挖掘出针对不同属性的倾向性,更好地反映情感的复杂特征。属性提取是属性级情感分析的基础工作。目前属性提取方法中属性词与上下文联系不够紧密,缺乏对全局信息的充分利用。另外,可用的数据集较少,每个数据集中包含的数据量规模较小。解决上述问题对于提升属性提取效果有积极作用。针对上述两个问题,本文以双重词嵌入
时序数据是按照时间顺序观测某个或某些物理量得到的一串值,其反映了事物属性随着时间变化的特征。时序数据压缩是一个基础且重要的工作。时序数据的压缩不但能够减少空间存储,而且降低了数据传输的成本。本文对时序数据无损压缩展开研究,设计了一种针对时间戳的无损压缩算法以及两种针对时序数据值的无损压缩算法,实现了数据信息无失真情况下的高压缩率压缩。主要工作及创新点如下:(1)提出了e-DoD时间戳压缩算法。该算
蜂窝物联网是互联网的应用拓展,也是新一代通信技术的重要组成之一。物联网、移动互联网和传统互联网每天都会产生海量数据,以满足不同类型的网络服务需求。网络的快速发展需要更低时延更高可靠性连接的支持。边缘计算的提出为网络的发展提供了良好的助力,但边缘计算节点的部署也会引发相应的部署成本的问题。因此,如何在保证网络低时延高可靠连接,并提供多样化服务的条件下,更加高效地部署边缘计算节点,降低部署成本是亟需解
基于书帖标识的图书配帖检测研究利用图像处理技术,从采集的CCD图像中,根据书脊图像中书帖标识的信息,完成检测任务。本文对提高书籍装订质量,提高生产效率和工业自动化程度具有十分重要的工程意义和理论意义。本文将基于书帖标识的图书配帖检测研究分为书帖标识检测、锁线区域分割和图书配帖匹配三个基本环节。(1)书帖标识检测。在非经典感受野机制的启发下,提出了基于三高斯模型的书帖标识检测方法。该方法本质上是一个