面向儿科疾病的实体及实体关系标注语料库构建

来源 :第十八届中国计算语言学大会暨中国中文信息学会2019学术年会 | 被引量 : 0次 | 上传用户:q542936575
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对当前医学语料库涵盖实体分类以及实体关系难以满足精准医学发展需求的问题,本文从儿科疾病入手,参考现有的医学命名实体和实体关系标注体系,在医学领域专家的指导下,制定了适合儿科学的命名实体和实体关系的标注体系及详细标注规范;利用自行开发的标注工具,在采用机器学习进行预标注实体及实体关系后;以标注规范为指导,进行多轮人工标注,完成了298余万字的儿科医学文本中的实体及关系进行标注,形成了面向儿科疾病的实体及实体关系标注语料库.所构建的语料库包含504种儿科常见疾病,共标注命名实体23,603个,实体关系36,513个,多轮标注一致性分别为0.85和0.82.抽取已构建实体及关系标注语料库中的多元组,形成了儿科医学知识图谱,并开发了基于知识图谱的儿科医学知识问答系统.
其他文献
为了挖掘用户细粒度的情感表达,方面级情感分析引起了研究者们的关注.现有的研究方法通常将方面判别任务与情感分析任务分离,且在给定方面的基础上进行情感分析.然而现实的评论数据大多没有标注方面标签,因此,对于给定的评论文本,需要同时判断方面类别及其情感极性.本文利用多个分类器同时对评论的方面及其情感进行预测,使用两层长短期记忆网络对评论的上下文信息和方面信息进行编码,并利用注意力机制对评论中相关方面的情
蒙古文形态素切分是蒙古文自然语言处理的核心任务之一.该文针对传统蒙古文的构词特点,提出了一种新的蒙古文形态素标注方法,在蒙古文天然的词边界划分基础上,进一步将形态素进行划分.相比传统的蒙古文词切分方法,本文重点研究构词成分的形态素单元切分,提出的方法在充分学习蒙古文词和字知识的同时,通过自动学习蒙古语构词的形态素成分上的语言学知识,能够更加有效地捕捉形态素单元上的语义信息.该文使用新标注方法并基于
反讽是一种复杂的语言现象,被广泛应用于社交媒体当中.如何让计算机具有识别反讽的能力成为了自然语言处理研究领域的热门研究内容之一.该文针对反讽识别中缺乏上下文语境信息和修辞表达信息的问题,提出了基于多语义融合的反讽识别方法.该方法采用ELMo从大规模反讽文本中训练得到领域词嵌入表示,并融合基于词性和基于风格信息的语义表示,使用双向长短期记忆网络和卷积神经网络进行反讽识别.实验结果表明,所提出模型能够
网络小说根据目标读者的性别可以分为男频小说和女频小说.由于目标群体不同,男频和女频小说在很多方面具有不同的特征.目前对于男频和女频小说的分析大都停留在定性分析,定量分析很少,总体来说缺乏客观性和数据支撑.本文利用机器学习的手段来对男频、女频小说文本进行分析.构造了两个数据集,分别对应男频、女频网络小说.对于每一部作品分别抽取计量风格学特征、小说标题特征和小说文本LDA主题特征,从三个方面分别建立分
汉语复合名词短语因其使用范围广泛、结构独特、内部语义复杂的特点,一直是语言学分析和中文信息处理领域的重要研究对象.国内关于复合名词短语的语言资源极其匮乏,且现有知识库只研究名名复合形式的短语,包含动词的复合名词短语的知识库构建仍处于空白阶段,同时现有的复合名词短语知识库大部分脱离了语境,没有句子级别的信息.针对这一现状,该文从多个领域搜集语料,建立了一套新的语义关系体系,标注构建了一个具有相当规模
神经机器翻译(NMT)模型通常具有庞大的参数量,例如Transformer在词表设为3万时有将近1亿的神经元,模型的参数量越大,模型越难优化且存储模型的资源需求也越高.本文提出了一种压缩方法用于将复杂且参数量大的NMT模型压缩为精简参数量小的NMT模型.本文提出半知识蒸馏方法和递进式半知识蒸馏方法,其中半知识蒸馏是从参数多、性能好的教师模型中获取半部分的权重作为精简、参数少的学生模型训练的起点;递
本文讨论了基于Word2vec和长短期记忆(LSTM)网络的维吾尔短文本分类技术.使用基于词-词素平行语料的稳健词素切分和词干提取方法,从噪声文本中提取词干后分别建立词和词干集合,并通过word2vec工具映射到实数向量空间.然后采用LSTM网络作为特征选择和文本分类算法进行维吾尔短文本分类实验.结果显示,在基于词干向量的分类实验中得到95.48%的分类准确度.从实验结果看,对于派生类语言而言,特
在主题深度表示学习的基础上,本文提出了一种融合双语词嵌入的主题对齐模型(Topic Alignment Model,TAM),通过双语词嵌入扩充语义对齐词汇词典,在传统双语主题模型基础上设计辅助分布用于改进不同词分布的语义共享,以此改善跨语言和跨领域情境下的主题对齐效果;提出了两种新的指标,即双语主题相似度(Bilingual Topic Similarity,BTS)和双语对齐相似度(Bilin
本研究运用事件相关电位技术,观测汉语谐音双关语与语义双关语两者是否存在认知神经加工上的差异.结果发现,语义双关语的正确率明显低于谐音双关语以及不符合逻辑语篇的正确率.谐音双关语组、语义双关语组和不合逻辑语篇引发的脑电波数据在300-900ms之间存在显著差异.其中,谐音双关语和不合逻辑语篇都引发了N400效应.脑电波形图和脑电波地形图显示,前者引发的N400效应略微晚于后者引发的N400效应,但数
构建大规模的知识库是人工智能、自然语言理解等领域的基础任务之一.症状作为描述病人的主观感受和诊断疾病的重要依据,更是优化智能导诊,医学问答等任务的重要因素.本文在现有的医学症状知识库研究的基础上,结合症状的概念、特征及在医学诊断中发挥的作用,构建了一个公开的中文症状知识库.该知识库从症状的本体分类、相关疾病、发作部位及多发人群等层面对相关属性进行了详细描述,涵盖了8772种症状共计146631条属