【摘 要】
:
知识库问答依靠知识库推断答案,需要大量带标注信息的问答对,但构建大规模且精准的数据集不仅代价昂贵,还受领域等因素限制.为缓解数据标注问题,面向知识库的问题生成任务引起了研究者关注,该任务的特点是利用知识库三元组自动生成问题,但现有方法仅由一个三元组生成的问题过于简短,且缺乏多样性.为生成信息量丰富且多样化的问题,该文采用Graph Transformer和BERT两个编码层来加强三元组多粒度语义表征以获取背景信息,在SimpleQuestions数据集上的实验结果证明了该方法的有效性.
【机 构】
:
华中师范大学 计算机学院,湖北 武汉 430000
论文部分内容阅读
知识库问答依靠知识库推断答案,需要大量带标注信息的问答对,但构建大规模且精准的数据集不仅代价昂贵,还受领域等因素限制.为缓解数据标注问题,面向知识库的问题生成任务引起了研究者关注,该任务的特点是利用知识库三元组自动生成问题,但现有方法仅由一个三元组生成的问题过于简短,且缺乏多样性.为生成信息量丰富且多样化的问题,该文采用Graph Transformer和BERT两个编码层来加强三元组多粒度语义表征以获取背景信息,在SimpleQuestions数据集上的实验结果证明了该方法的有效性.
其他文献
近年来,尽管深度学习给语义依存分析带来了长足的进步,但由于语义依存分析数据标注代价非常高昂,并且在单领域上性能较好的依存分析器迁移到其他领域时,其性能会大幅度下降.因此为了使其走向实用,就必须解决领域适应问题.该文提出一个新的基于对抗学习的领域适应依存分析模型,该模型基于对抗学习的共享双编码器结构,并引入领域私有辅助任务和正交约束,同时也探究了多种预训练模型在跨领域依存分析任务上的效果和性能.
近年来,发音属性常常被用于计算机辅助发音训练系统(CAPT)中.该文针对使用发音属性的一些难点,提出了 一种建模细颗粒度发音属性(FSA)的方法,并在跨语言属性识别、发音偏误检测中进行测试.最终,得到了最优平均识别准确率约为95%的属性检测器组;在两个二语测试集上的偏误检测表明,相比基线,基于FSA的方法均获得了超过1%的性能提升.此外,还根据发音属性的跨语言特性设置了对照实验,并在上述任务中测试和分析.
儿童健康及疾病诊疗是家庭及社会聚焦的热点,提供准确、有效的信息咨询也是家长和社会的迫切需求.该文以中文医学知识图谱和医学文本为数据来源,以儿科疾病和保健知识为切入点,对多知识来源的自动问答系统进行了研究.系统采用AC自动机(Aho-Corasick automaton)和正则表达式,融合句法结构及关键词特征,对用户输入问题与模板进行匹配,根据模板生成对应的Cypher语句对儿科医学知识图谱及医学文本进行查询和检索,并生成备选答案.采用融合数据来源权威性及匹配度的评分机制对产生的备选答案进行评分,根据评分向
连动句是具备连动结构的句子,是汉语中一种特殊的句法结构,在现代汉语中十分常见且使用频繁.连动句语法结构和语义关系都很复杂,在识别中存在许多问题,对此该文针对连动句的识别问题进行了研究,提出了一种基于神经网络的连动句识别方法.该方法分两步:第一步,运用简单的规则对语料进行预处理;第二步,利用文本分类的思想,使用BERT编码,利用多层CNN与BiLSTM模型联合提取特征进行分类,进而完成连动句识别任务.在人工标注的语料上进行实验,实验结果达到92.71%的准确率,F1值为87.41%.
该文提出了可读性语料库构建的改进方法,基于该方法,构建了规模更大的汉语句子可读性语料库.该语料库在句子绝对难度评估任务上的准确率达到78.69%,相对前人工作提升了15%以上,证明了改进方法的有效性.同时,将深度学习方法应用于汉语可读性评估,探究了不同深度学习方法自动捕获难度特征的能力,并进一步探究了向深度学习特征中融入不同层面的语言难度特征对模型整体性能的影响.实验结果表明,不同深度学习模型捕获难度特征的能力不尽相同,语言难度特征可以不同程度地提高可读性评估模型的难度表征能力.
在社交媒体上发布和传播有关新冠的谣言对民生、经济、社会等都产生了严重影响,因此通过机器学习和人工智能技术开展新冠谣言检测具有重要的研究价值和社会意义.现有谣言检测研究,一般假定进行建模和预测的事件已有充足的有标签数据,但对于新冠这类突发事件,由于可训练样本较少,所以此类模型存在局限性.该文聚焦少样本谣言检测问题,旨在使用极少的有标签样例训练可检测突发事件的谣言检测模型.该文以新浪微博的新冠谣言为研究对象,构建适用于少样本谣言检测的新浪微博新冠谣言数据集,提出基于元学习的深度神经网络少样本谣言检测模型.在少
作为一个交叉领域的研究任务,多模态抑郁症检测在自然语言处理、计算机视觉、心理健康分析等研究领域吸引了越来越多研究人员的关注.目前存在的研究工作主要致力于利用用户产生的社交网络数据进行抑郁症检测.然而,由于社交网络数据量通常较大,已有的研究方法存在捕捉长距离依存信息(即全局信息)不足的缺陷.因此,如何获取用户的全局信息来帮助检测抑郁症成为一个亟需解决的问题.另外,考虑到社交媒体数据不仅包含文本信息,还包含图片等信息,如何同时融合多个模态的全局信息来帮助检测抑郁症成为另一个亟需解决的问题.为了解决上述困境,该
针对钢水罐倾翻装置、吹氧装置、操作平台、加引流砂装置、除尘系统、滑动水口更换装置各个系统装置的联锁关系进行分析,在建立数字化三维仿真模型的基础上,采用Inventor中功能进行模型参数辨识,进行整个系统的上线前仿真运动模拟,以实践方式验证了该热修系统工艺功能全,操作步骤简单,安全性高,节约成本,保证生产线连续运行,提高生产效率等特点.
该文构建了一个包含11万以上条目规模的中国名人人名数据库,每条数据含有人名、性别、出生地等社会文化标签,同时含有拼音、笔画、偏旁等文字信息标签.基于数据库,该文从中选择1919年至今的人名,用定性与定量结合的方法探究人名中汉字的特征及其性别差异,以及历时变化.从人名长度来看,男性人名比女性人名长;从人名用字的难易度来看,女性用字比男性更复杂;从用字丰富度来看,人名用字越来越单一和集中化,男性人名的用字丰富度大于女性人名.计算人名用字的性别偏度后发现女性人名的专用字更多.两性用字意象有明显不同,用字的意象随
在低资源神经机器翻译中,双语平行句对是重要的数据资源,融合语言结构特点能够较好地解决双语句子由于语言差异性导致的句子相似度计算不准确问题.该文提出一种融合句子结构特征的汉老双语句子相似度计算方法.首先,通过该文提出的特征模板获取汉语和老挝语对应的句子结构特征,预训练含有句子结构特征的汉老双语词向量分布式表示,并使用双语词典将其映射到共享的语义空间,然后通过带有自注意力(self-attention)机制的双向长短时记忆网络(BiLSTM)获取句子的特征向量表示,最后分别计算双语向量的相对差和相对积,将结果