论文部分内容阅读
自动问答一直是人工智能中的关键问题,也是图灵测试的基本内容,更是决定机器智能化水平的关键技术。医疗问题一直是人们关注的热点民生问题,近些年来在线医疗问答社区十分活跃,一些专业医生在社区内回答患者问题,这些社区增强医患沟通、减轻患者疾苦,且积累了大量的医疗问答数据。现阶段医疗问答多为人工回答,研究医疗自动问答能够有效减少医生工作量,缓解医疗资源的不平衡。本文旨在研究面向中文医疗领域的社区自动问答技术。该问题有两个技术难点:其一,中文医疗文本数据包含大量的医疗专业术语,如何处理和表示这些专业医疗文本,使其能够更好地被计算机处理和理解。其二,问答数据中的患者提问和医生回答的表示方式不尽相同,问句和答句存在语义表达上的差异,即“语义间隙”,如何减小这种语义间隙,使得问句和答句能够准确的匹配。针对难点一,本文使用了字向量的表示形式,字向量直接使用中文汉字作为输入训练得到,不需要使用中文分词,避免了中文分词在医疗文本上的分词不准确性,减少了这种不准确性对后续匹配模型的负面级联影响。字向量包含有一定的语义信息,使用字向量可以显著减少未登录词、减少内存消耗、增加计算速度。针对难点二,文本提出两个不同的语义匹配模型。(1)多尺度卷积神经网络语义匹配模型,该模型能够从多个不同的尺度提取出文本的局部信息。中文词语通常由2~4个字组成,针对字向量,多尺度模型能有效的从字、词、短语等不同粒度对文本的语义信息进行提取,有效地提高了问句和答句匹配的准确性。(2)多层级复合卷积神经网络语义匹配模型,该模型使用了多层级的结构,多层级的模型能够提取更加高维的语义特征。该模型不仅仅是多个模型的堆叠,而是将每一层的信息输出用作文本的语义信息表示,这种表示丰富了文本的语义信息。其对语义信息理解能力更好,语义匹配的准确率也更高。为验证模型的有效性,本文构建了首个中文医疗问答公开数据集cMedQA。实验显示,字向量分别与上述两个模型组成了两个自动问答的框架,这两个框架分别从语义的广度和深度挖掘文本的语义信息,对于中文医疗领域的自动问答具有很强的针对性,大大提高了问题答案匹配的准确率。本文提出的模型相比其它浅层语义模型、基于文字匹配或统计的模型,其模型准确率大幅提高,相比其它经典的深度神经网络模型,其准确率指标最高提升18%。