【摘 要】
:
深度学习已经在许多自然语言处理任务中达到了最高水平的性能,但是这种方法通常需要大量的标注数据。该文围绕问题意图识别语料标注问题,结合深度学习和主动学习技术,实现了
【机 构】
:
中国科学院软件研究所,中航信移动科技有限公司
【基金项目】
:
国家重点研发计划(2017YFB1002303),国家自然科学基金(61802381,61972386),民航科技重大专项(MHRD20160109)。
论文部分内容阅读
深度学习已经在许多自然语言处理任务中达到了最高水平的性能,但是这种方法通常需要大量的标注数据。该文围绕问题意图识别语料标注问题,结合深度学习和主动学习技术,实现了语料标注成本的降低。主动学习需要不断迭代地再训练,计算成本非常高,为加速这个进程,该文提出了一种适合问题意图识别任务的轻量级架构,使用双层CNN结构组成的深度学习模型。同时为更好地评估样本的价值,设计了一种结合样本的信息性、代表性与多样性的多准则主动学习方法。最终在民航客服语料下进行实验,实验结果表明该方法可减少约50%的标注工作量,同时在公开数
其他文献
电子病历中的临床术语描述形式具有多样性和不规范性,阻碍了医疗数据的分析和利用,因此对临床术语标准化的研究具有重要的现实意义。当前国内医疗机构临床术语标准化主要由人
化学物与蛋白质之间的相互作用关系抽取对精准医学和药物发现等方面的研究有着重要作用。该文提出了一种基于最短依存路径和注意力机制的双向LSTM模型,并将其应用于化学物蛋
义原(sememe)被定义为人类语言中不可再分的最小语义单位。一个词语的意义可以由多个义原的组合来表示。以往人们已经人工为词语标注义原并构建了知网(HowNet)这一语言知识库
事理图谱是一种描述事件之间顺承、因果等关系的事理演化逻辑有向图,它蕴含了丰富的事件间关系,在各领域都具有重要的研究意义和应用价值。当前研究主要集中于公开域的事件抽