基于机器学习的医疗文本分析挖掘技术研究

来源 :北京交通大学 | 被引量 : 16次 | 上传用户:qgf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着医疗行业信息技术的引入,该行业的信息化和自动化水准不断提高。医学文本信息处理技术正逐渐成为一个新的研究热点。医疗文本,以电子病历为代表,包含了大量丰富的医疗信息,是进行疾病预测、个性化信息推荐、临床决策支持、用药模式挖掘等的重要资源,并且可以以此为基础进行医院机构服务价值的衡量。医学文本中尽管蕴藏着丰富的医疗知识,但处理起来也更加困难。由于以电子病历为主的医疗文本中包括大量非结构化的自由文本以及图像影像信息,且医生自行录入可能导致文本的拼写错误、医学名词简写以及不同医生不同地区的惯用语,电子病历中所包含的医疗信息还不能被计算机有效利用。因此,机器学习和自然语言处理相关技术将在医学文本的分析和挖掘中发挥重要作用。为了更好地探索和利用医学文本,特别是电子病历的半结构化和非结构化信息,对其中非结构化自由文本进行标准化和结构化非常的重要,而医疗信息对时间特征具有较高的敏感性,使得时间信息也成为了更好分析医疗文本必不可少的因素。传统的文本分类需要先进行一系列预处理和特征工程的建模,在医疗文本中存在大量的专业术语和知识、不准确的分词或难以理解的语义特征会影响分类的正确性。医疗文本被分析处理,最终需要产生有价值的信息和知识提供辅助决策,如从电子病历中挖掘患者的用药模式,从而为医生的诊断和用药决策甚至提供个性化临床路径提供帮助。且依据循证医学,所有的过程和结果是透明和可解释的,而不是一个黑盒,这也是一个具有挑战性和实际意义的问题。本文主要研究医学文本的分析与挖掘技术。在深入研究医疗文本的特点并广泛分析相关研究工作的基础之上,本论文提出了一系列用于知识抽取、建模、分类、挖掘的算法和模型,并在数据集上进行了性能评估与验证。具体来说,本文的主要研究工作和成果包括:(1)结合医学领域知识,研究了一种医学领域词典自动构建方法,能从医学文本语料库中提取有效的医学术语。在现有中文分词算法基础上,对医学文本语料库拆分、标注,并识别医学新词、区分医学术语歧义,进一步提高面向医学领域的中文分词精度。基于对电子病历文本精确有效的分词拆分和词性标注,分别从病程发展和时间线角度对电子病历文本进行结构化建模研究,对电子病历中病历文本的时间表述规则进行研究,结合语义分析技术,从文本中抽象出基于时间的患者疾病发展模型,实现基于规则的电子病历的结构化分析。通过将构建后的领域词典应用在不同病历的筛选分类中,验证构建的领域词典对医学文本分类器的性能影响。实验表明,结合医学领域知识的构建词典更好地识别医学新词以及改善机器学习的文本分类算法。电子病历一般会记录患者患病的时间和情况,而这些信息一般存在于以自然语言描述的文本中,相关规则的挖掘是研究的重点。一般的信息系统难以对其进行多维度的分析,而本文提出基于时间信息的电子病历文本结构化模型,通过基于规则匹配的语义分析技术,自动从电子病历中现病史、家族史结合相关的医疗记录中,提取患者的病情发展时间线,用于疾病分析和预测。该模型的提出,能解决非结构化的电子病历内容患者信息难以定量分析的问题,对有效利用电子病历的非结构化数据具有借鉴意义。(2)借鉴深度学习技术在图像识别领域的巨大成功,针对中文医疗文本分类问题设计了字符级深度神经网络模型。并引入双向长短时记忆和注意力池化操作层,使模型更好地结合上下文进行分类判断。模型采用Google的Tensorflow框架实现并训练调参,实验表明模型具有良好的收敛速度和准确率,并在不同主题领域的文本分类中都有不错的表现。传统中文文本分类方案通常离不开对文本的预处理,例如分词、特征抽取,然后结合语义分析使计算机一定程度上理解文本。本文提出的字符级卷积神经网络可以直接以字符为最小单位进行学习训练,不需要分词或基于单词的特征提取器,也不需要语法或语义结构方面的知识,训练完成后就可以直接对高层的目标进行分析和推断。这也推翻了之前普遍认为的结构化预测和语言模型对于高层次文本理解是必要的假设。通过本研究发现,深度学习可以处理文本理解问题,并且可以不事先了解任何关于单词、短语、句子或任何的知识与语言相关的其他句法或语义结构。从而解决由于医学领域存在大量的专业术语和知识,分词不准确或语义特征理解不到位而影响整个模型分类效果的问题。(3)提出了一个基于机器学习的框架来挖掘电子病历文本中隐藏的药物模式。该框架系统地集成了Tanimoto相似性评估,谱聚类,改进的LDA主题模型和多个特征之间的交叉匹配,以找到描述隐藏在高度复杂的药物模式的多个视角中的额外知识和聚类的残差。通过这些方法,一步一步地一起工作以揭示出潜在的用药模式。然后,本文使用来自中国某大型医院的电子病历文本(的实际数据来评估该方法。实验发现该框架优于其他药物模式发现的方法,特别是对于这种疾病,具有微妙的药物治疗差异。结果还显示发现的模式之间几乎没有重叠。因此,通过提出的框架很好地研究了每种模式的独特特征。对比其他已有的机器学习方法,该方法有效地发现了电子病历文本中针对高度复杂疾病和混合药物模式的主要药物模式;将高度混合的药物治疗分为不同的聚类药物模式,而不是模糊的聚类,把每个项目分类为一种治疗模式,尽管相似性较弱;与无监督的基于深度学习的治疗模式发现方法不同,该分类方法导致框架的每个步骤都是可解释的而不是黑盒子。这种方法对于临床知识发现(因为它是基于证据和可解释的)来理解用于临床目的的某些药物的分类过程是重要的。
其他文献
江户时代(1603-1868)初期,日本的社会结构与中国类似,为朱子学的传播提供了基础。日本朱子学者林罗山运用朱子学思想猛烈批判佛教,促使儒学摆脱了日本古代以来佛教的束缚。他的
云计算的技术架构与军事指挥集中统一的特点,存在着高度的一致性。这种一致性使云计算在军事中具有广阔的应用前景,必将促进军事领域的重大变革。分析了云计算在军队信息化建
上市公司的盈余管理现象是困扰我国证券市场的一大难题。本文从应计制会计的特点、会计盈余信息的有用性与信息的不对称、市场环境和我国上市公司特有的治理结构剖析了我国上
目的系统评价运动康复对慢性心力衰竭(CHF)病人左室射血分数(LVEF)、峰值摄氧量(VO 2peak)、无氧阈值(AT)的影响,并统计分析其对心血管相关死亡率及再住院率的影响。方法检索
目的:对比Endobutton袢钢板和锁骨钩钢板2种手术方式治疗新鲜肩锁关节脱位的疗效,从中找到更理想的治疗方法。方法:回顾性研究我院自2009年1月至2010年9月的30例新鲜肩锁关节
第一部分雄激素受体基因(CAG)n重复多态性与中国北方人群前列腺癌患病风险相关性的病例对照研究目的研究雄激素受体(AR)基因(CAG)n重复多态性与中国北方人群前列腺癌(PCa)患
利用巴楚国家基本气象站1961—2010年的大风及沙尘天气日数资料,采用线性变化趋势方法,分析巴楚县大风、沙尘天气的时空分布特征,沙尘天气的变化特点及趋势,并初步探讨沙尘天
数据呈现是大数据时代的新课题。通常,数据呈现的主要途经有两个,即数据的可视化和数据的故事化,二者的区别在于,数据可视化主要解决的是数据感知问题,而数据故事化更加关注
学习困难儿童归纳课文中心思想依赖性与独立性的实验易莲英,李筱春一、问题提出小学中高年级是儿童阅读能力形成的重要阶段,但在升学、考分排队的压力下,教师只重视阅读成果的评
四象医学起源于《东医寿世保元》[1],是李济马(1837-1900)先生创立的朝鲜族民族医药学理论体系。"四象人"既是4种体质和4种基本病证类型模式的综合体,又是一种独特的藏象概念,是