基于深度神经网络的中文医疗社区自动问答技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:zxc473138
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动问答一直是人工智能中的关键问题,也是图灵测试的基本内容,更是决定机器智能化水平的关键技术。医疗问题一直是人们关注的热点民生问题,近些年来在线医疗问答社区十分活跃,一些专业医生在社区内回答患者问题,这些社区增强医患沟通、减轻患者疾苦,且积累了大量的医疗问答数据。现阶段医疗问答多为人工回答,研究医疗自动问答能够有效减少医生工作量,缓解医疗资源的不平衡。本文旨在研究面向中文医疗领域的社区自动问答技术。该问题有两个技术难点:其一,中文医疗文本数据包含大量的医疗专业术语,如何处理和表示这些专业医疗文本,使其能够更好地被计算机处理和理解。其二,问答数据中的患者提问和医生回答的表示方式不尽相同,问句和答句存在语义表达上的差异,即“语义间隙”,如何减小这种语义间隙,使得问句和答句能够准确的匹配。针对难点一,本文使用了字向量的表示形式,字向量直接使用中文汉字作为输入训练得到,不需要使用中文分词,避免了中文分词在医疗文本上的分词不准确性,减少了这种不准确性对后续匹配模型的负面级联影响。字向量包含有一定的语义信息,使用字向量可以显著减少未登录词、减少内存消耗、增加计算速度。针对难点二,文本提出两个不同的语义匹配模型。(1)多尺度卷积神经网络语义匹配模型,该模型能够从多个不同的尺度提取出文本的局部信息。中文词语通常由2~4个字组成,针对字向量,多尺度模型能有效的从字、词、短语等不同粒度对文本的语义信息进行提取,有效地提高了问句和答句匹配的准确性。(2)多层级复合卷积神经网络语义匹配模型,该模型使用了多层级的结构,多层级的模型能够提取更加高维的语义特征。该模型不仅仅是多个模型的堆叠,而是将每一层的信息输出用作文本的语义信息表示,这种表示丰富了文本的语义信息。其对语义信息理解能力更好,语义匹配的准确率也更高。为验证模型的有效性,本文构建了首个中文医疗问答公开数据集cMedQA。实验显示,字向量分别与上述两个模型组成了两个自动问答的框架,这两个框架分别从语义的广度和深度挖掘文本的语义信息,对于中文医疗领域的自动问答具有很强的针对性,大大提高了问题答案匹配的准确率。本文提出的模型相比其它浅层语义模型、基于文字匹配或统计的模型,其模型准确率大幅提高,相比其它经典的深度神经网络模型,其准确率指标最高提升18%。
其他文献
恶性肿瘤是严重危害人类生命及健康的重大疾病,其死亡率位居人类疾病死亡人数的第二位,每年全世界约870万人患肿瘤,其中约有690万人死于肿瘤.我国每年约152万人患肿瘤,死于肿
城市公园景观是城市开放空间的重要组成部分之一,它的存在为城市的风貌打造作出了巨大的贡献。在园林景观行业日益兴盛的今天,对城市公园景观的设计有了更高的要求,情感化设
Fastrac液体火箭发动机,是NASA马歇尔航天中心为满足低成本进入太空的需要而研制的。该发动机从液氧和RP-1煤油为推进剂,推力为267kN,用于将轨道科学公司的X-34推进至Ma=8和80km高空。该发动机于1996年4月开始设计,至1998年
我国企业财务理论与实践已伴随改革开放走过了30年波澜壮阔的历程。对于30年来企业财务理论领域中的巨大变化,国内学者已做了一些总结,但从总体上看,现有的总结性研究仍缺乏
为了探讨湘西黄牛分子遗传特征及寻找与生长性状相关的分子标记,采用创造酶切位点PCR-RFLP(CRS-PCR-RFLP)和测序技术检测了湘西黄牛LPL基因第2外显子的多态性,并进行了LPL基因
<正> 物竞天择二义②.发于英人达尔文。达著《物种由来》③一书,以考论世间动植物类所以繁殊之故④.先是⑤言生理者,皆主异物分造之说;近今百年格物⑥诸家,稍疑古说之不可通
随着农牧民定居工程以及民族地区城镇化的推进,使得少数民族群众的居住空间和生产生活方式都发生了很大的变化,由此导致民族地区传统的社区结构和社区关系呈现出了新的特点,
随着素质教育的兴起和社会的发展,幼儿园的学前教育受到社会和家长的关注,人们越来越重视幼儿的学前教育。幼儿园的小朋友正处在意识启蒙的阶段,学前教育的好坏将对幼儿以后
通过可逆加成一断裂链转移(RAFT)一步聚合制备聚甲基丙烯酸二甲胺乙酯-b-聚苯乙烯(PDMAEMA-b-PS)壳交联纳米粒子(SCL-NPs),引入还原敏感性交联剂双(丙烯酰)胱胺(BAC)使得制备得到的药物
从铜雕工艺品的外在、内在价值入手,分析装饰铜雕工艺品实用和观赏的外在价值,以及文化和艺术的内在价值,明确了装饰铜雕工艺品的优越性。研究了装饰铜雕工艺品在家居环境中