结合特殊领域实体识别的远监督话语领域分类

来源 :第十八届中国计算语言学大会暨中国中文信息学会2019学术年会 | 被引量 : 0次 | 上传用户：fashenqq

【摘要】

：

【作者】

：

何宇虹黄沛杰杜泽峰刘威朱建恺

【机构】

：

华南农业大学数学与信息学院,广东省广州市 510642

【出处】

：

第十八届中国计算语言学大会暨中国中文信息学会2019学术年会

【发表日期】

：

2019年8期

【关键词】

：

中文话语领域分类远监督学习实体识别

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,基于注意力(attention)机制的循环神经网络在文本分类中表现出显著的性能.然而,当训练集数据有限时,测试集数据中许多领域实体指称项在训练集中处于低频,甚至从未出现,如,中文话语领域分类任务.本文提出结合特殊领域实体识别的远监督话语分类模型.首先,通过远监督(distant supervision)的方式获取数据集中的领域知识,显著地减少了人工操作;其次,利用特殊领域实体识别和本地构建的补充性知识库去补全远监督获取的领域知识,旨在为模型提供更加全面的领域知识;最后,对基于上下文的语义特征和知识特征这两种异构信息提出了细粒度拼接机制,在词级上融合了预训练词汇语义表达和领域知识表达,有效地提升了分类模型的性能.通过与研究进展的文本分类模型的对比实验表明,本文的模型在中文话语领域分类基准数据集的实验上取得了较高的正确率,特别是在知识敏感型领域,较研究进展方法具有显著的优势.

其他文献

基于神经网络无监督藏文正字检错法

在缺乏标注数据的条件下本文把藏文正字检错任务视为一个分类问题,首先从语言知识中构建音节混淆子集并给每个原句加噪,然后建立深层双向表征的BERT作为分类模型,最后为了证明本方法的有效性,构建两个基线模型和三种不同领域的测试集,实验结果显示本方法的结果优于两个基线模型.本方法在相同领域测试集上句子分类的正确率达到93.74％,不同领域测试集上也能达到83.6％.对错误音节的识别结果为74.53％,同时

会议

藏文正字检错神经网络无监督学习

基于语谱图的江西境内赣方言自动分区研究

汉语方言分区研究是语言学的重要组成部分.鉴于传统基于词汇和语法的人工方言分区方法具有一定的主观性,该文研究了如何有效利用语音本身特征进行方言的自动分区.该文首先构建了江西省11个省辖市,91个下辖县级行政区的时长约1500分钟的1223条语音语料库.然后在传统的MFCC语音特征提取基础上,提出了基于CNN的自编码降维语谱图的深度学习特征提取模型,对降维后的语音特征分别采用k均值算法聚类、高斯混合聚

会议

赣方言自动分区语谱图聚类算法

基于单句表示的篇章可信度识别方法

事件可信度表示文本中事件的真实状况,描述了事件是一个事实,或者是一种可能性,又或是一种不可能,是自然语言处理中一个重要的语义任务.目前,大多数关于事件可信度分析的方法都集中在句子级,很少涉及篇章级的事件可信度分析.本文基于卷积神经网络,结合篇章中的句子级特征(包括句子的语义、语法以及线索词特征表示),使用对抗训练来识别篇章可信度.在中英文数据集上的结果显示,本文的方法与Qian的相比,微平均F1值

会议

篇章可信度自动识别句子级特征卷积神经网络

面向汉语中介语的依存句法标注规范

汉语中介语是伴随着汉语国际教育产生的,随着汉语学习在全球的不断开展,汉语中介语的规模不断增长,由于这些语料在语言使用上有其独特性,使得中介语成为语言信息处理和智能语言辅助学习的独特资源.目前,依存分析是语言信息处理和智能语言学习的重要步骤,依存语法以其形式简洁、易于标注、便于应用等优点,被广泛应用于语料标注中.面向英语中介语的依存语法标注语料已经有很好的应用,而现有汉语中介语语料库对句法的关注度普

会议

汉语中介语依存句法标注规范

基于门控化上下文感知网络的词语释义生成方法

传统的词典编纂工作主要采用人工编纂的方式,效率较低且耗费大量的资源.为减少人工编纂的时间和经济成本,本文提出一种基于门控化上下文感知网络的词语释义生成方法,利用门控循环神经网络(GRU)对词语释义生成过程进行建模,自动为目标词生成词语释义.该模型基于编码器-解码器架构.编码器首先利用双向GRU对目标词的上下文进行编码,并采用不同的匹配策略进行目标词与上下文的交互,结合注意力机制分别从粗粒度和细粒度

会议

英语释义生成上下文感知网络门控循环神经网络

基于Transformer的AMR-to-Text生成

抽象语义表示到文本(AMR-to-text)生成的任务是给定AMR图,生成相同意义表示的文本.可以把此任务当成一个从源端AMR图到目标端句子的翻译任务.然而,传统的序列到序列(seq2seq,简称S2S)的方法,使用循环递归网络进行编码,并不能很好的解决长短期依赖的问题.当前最好的性能是图到序列(graph2seq,简称G2S)的模型,使用了图模型直接对AMR图结构进行编码,但对于非直接相连的节点

会议

抽象语义表示文本生成序列到序列模型字节对编码共享词表

基于形态学信息的中文词嵌入方法:一种双通道视角

词嵌入是自然语言处理领域的一个基础而又十分重要的课题.对于具有象形表意特性的汉语来说,如何捕捉隐藏于文字形态中的语义信息,同时使得方法具有良好的可解释性,成为一个亟待解决的问题.在该文中,详细阐释了汉语的形态学信息在传达语义和增强汉语词嵌入上的重要性.然后,提出了一个新颖的双通道词嵌入模型来实现汉字笔画序列信息和字形空间信息的联合学习,进而丰富汉语词的表示.通过两个经典词嵌入测试任务的评估,我们的

会议

汉语词嵌入笔画序列字形空间

基于抽象语义表示的汉语构式的标注与分析

构式作为组成成分与实际意义不能完全对应的结构,与常规句子差异较大,对句法和语义分析器的影响较大,构式的自动分析则更是困难.因此,需要研究构式的内部结构标注与语料构建.由于构式的语义结构与句法结构有较大差异,使用中文抽象语义表示(CAMR)来直接标注构式的语义结构.目前收录最全的构式库是北京大学现代汉语构式知识库,通过对该构式库共1057条构式进行人工标注并统计后,发现CAMR可以表示出61.2％的

会议

汉语构式自动标注抽象语义表示

细颗粒度汽车评论语料库的构建和分析

产品评论文本是情感分析的重要研究对象,目前已有的产品评论语料库大都较为粗疏,没有完整地标注出对象、属性、极性“三要素”,影响自动分析的应用场景.对此,本文构建了细颗粒度情感语料库,共包含9343句汽车评论短文本,不仅人工标注了“三要素”的具体词语,而且将其对应到产品和属性的知识本体树上.此外,对无情感词的隐含表达、特殊文本(如建议文本、比较句等)也标注出对应的三元组并予以特殊标签.语料统计表明,对

会议

产品评论文本情感分析细颗粒度语料库

基于关系对齐的汉语虚词抽象语义表示与分析

虚词具有丰富的语法意义,对句子理解起着不可或缺的作用.虚词的语言学研究成果丰富,但缺乏形式化表示,无法直接被计算机利用.为了表示虚词的句法语义信息,首先在抽象语义表示(AMR)这种基于概念图的语义表示方法的基础上,增加了词语和概念关系的对齐信息,使得虚词对应于概念节点或节点之间的关系弧上.其次,选取了语言规范的人教版小学语文课本8587句作为语料,进行AMR的标注.然后,针对语料中24801个虚词

会议

汉语虚词抽象语义表示关系对齐

结合特殊领域实体识别的远监督话语领域分类

与本文相关的学术论文