论文部分内容阅读
随着医疗行业信息技术的引入,该行业的信息化和自动化水准不断提高。医学文本信息处理技术正逐渐成为一个新的研究热点。医疗文本,以电子病历为代表,包含了大量丰富的医疗信息,是进行疾病预测、个性化信息推荐、临床决策支持、用药模式挖掘等的重要资源,并且可以以此为基础进行医院机构服务价值的衡量。医学文本中尽管蕴藏着丰富的医疗知识,但处理起来也更加困难。由于以电子病历为主的医疗文本中包括大量非结构化的自由文本以及图像影像信息,且医生自行录入可能导致文本的拼写错误、医学名词简写以及不同医生不同地区的惯用语,电子病历中所包含的医疗信息还不能被计算机有效利用。因此,机器学习和自然语言处理相关技术将在医学文本的分析和挖掘中发挥重要作用。为了更好地探索和利用医学文本,特别是电子病历的半结构化和非结构化信息,对其中非结构化自由文本进行标准化和结构化非常的重要,而医疗信息对时间特征具有较高的敏感性,使得时间信息也成为了更好分析医疗文本必不可少的因素。传统的文本分类需要先进行一系列预处理和特征工程的建模,在医疗文本中存在大量的专业术语和知识、不准确的分词或难以理解的语义特征会影响分类的正确性。医疗文本被分析处理,最终需要产生有价值的信息和知识提供辅助决策,如从电子病历中挖掘患者的用药模式,从而为医生的诊断和用药决策甚至提供个性化临床路径提供帮助。且依据循证医学,所有的过程和结果是透明和可解释的,而不是一个黑盒,这也是一个具有挑战性和实际意义的问题。本文主要研究医学文本的分析与挖掘技术。在深入研究医疗文本的特点并广泛分析相关研究工作的基础之上,本论文提出了一系列用于知识抽取、建模、分类、挖掘的算法和模型,并在数据集上进行了性能评估与验证。具体来说,本文的主要研究工作和成果包括:(1)结合医学领域知识,研究了一种医学领域词典自动构建方法,能从医学文本语料库中提取有效的医学术语。在现有中文分词算法基础上,对医学文本语料库拆分、标注,并识别医学新词、区分医学术语歧义,进一步提高面向医学领域的中文分词精度。基于对电子病历文本精确有效的分词拆分和词性标注,分别从病程发展和时间线角度对电子病历文本进行结构化建模研究,对电子病历中病历文本的时间表述规则进行研究,结合语义分析技术,从文本中抽象出基于时间的患者疾病发展模型,实现基于规则的电子病历的结构化分析。通过将构建后的领域词典应用在不同病历的筛选分类中,验证构建的领域词典对医学文本分类器的性能影响。实验表明,结合医学领域知识的构建词典更好地识别医学新词以及改善机器学习的文本分类算法。电子病历一般会记录患者患病的时间和情况,而这些信息一般存在于以自然语言描述的文本中,相关规则的挖掘是研究的重点。一般的信息系统难以对其进行多维度的分析,而本文提出基于时间信息的电子病历文本结构化模型,通过基于规则匹配的语义分析技术,自动从电子病历中现病史、家族史结合相关的医疗记录中,提取患者的病情发展时间线,用于疾病分析和预测。该模型的提出,能解决非结构化的电子病历内容患者信息难以定量分析的问题,对有效利用电子病历的非结构化数据具有借鉴意义。(2)借鉴深度学习技术在图像识别领域的巨大成功,针对中文医疗文本分类问题设计了字符级深度神经网络模型。并引入双向长短时记忆和注意力池化操作层,使模型更好地结合上下文进行分类判断。模型采用Google的Tensorflow框架实现并训练调参,实验表明模型具有良好的收敛速度和准确率,并在不同主题领域的文本分类中都有不错的表现。传统中文文本分类方案通常离不开对文本的预处理,例如分词、特征抽取,然后结合语义分析使计算机一定程度上理解文本。本文提出的字符级卷积神经网络可以直接以字符为最小单位进行学习训练,不需要分词或基于单词的特征提取器,也不需要语法或语义结构方面的知识,训练完成后就可以直接对高层的目标进行分析和推断。这也推翻了之前普遍认为的结构化预测和语言模型对于高层次文本理解是必要的假设。通过本研究发现,深度学习可以处理文本理解问题,并且可以不事先了解任何关于单词、短语、句子或任何的知识与语言相关的其他句法或语义结构。从而解决由于医学领域存在大量的专业术语和知识,分词不准确或语义特征理解不到位而影响整个模型分类效果的问题。(3)提出了一个基于机器学习的框架来挖掘电子病历文本中隐藏的药物模式。该框架系统地集成了Tanimoto相似性评估,谱聚类,改进的LDA主题模型和多个特征之间的交叉匹配,以找到描述隐藏在高度复杂的药物模式的多个视角中的额外知识和聚类的残差。通过这些方法,一步一步地一起工作以揭示出潜在的用药模式。然后,本文使用来自中国某大型医院的电子病历文本(的实际数据来评估该方法。实验发现该框架优于其他药物模式发现的方法,特别是对于这种疾病,具有微妙的药物治疗差异。结果还显示发现的模式之间几乎没有重叠。因此,通过提出的框架很好地研究了每种模式的独特特征。对比其他已有的机器学习方法,该方法有效地发现了电子病历文本中针对高度复杂疾病和混合药物模式的主要药物模式;将高度混合的药物治疗分为不同的聚类药物模式,而不是模糊的聚类,把每个项目分类为一种治疗模式,尽管相似性较弱;与无监督的基于深度学习的治疗模式发现方法不同,该分类方法导致框架的每个步骤都是可解释的而不是黑盒子。这种方法对于临床知识发现(因为它是基于证据和可解释的)来理解用于临床目的的某些药物的分类过程是重要的。