【摘 要】
:
目前,医学数据正在急剧增长,来自区域医疗诸多医院的病历文本数据、医学检验数据和影像数据迅速汇聚,为疾病的筛查、诊断和治疗带来曙光。医学文本数据尤其是电子病历数据,记录了患者详细的病情和治疗过程,所含信息丰富,因此,开展医学文本挖掘中关键技术的研究,提取与某疾病相关的特征并构建相应的知识图谱,可更加科学、客观地预防、筛查疾病并给出合理的治疗方案,最终为广大患者提供更好的医疗服务,具有很好的理论和实际
论文部分内容阅读
目前,医学数据正在急剧增长,来自区域医疗诸多医院的病历文本数据、医学检验数据和影像数据迅速汇聚,为疾病的筛查、诊断和治疗带来曙光。医学文本数据尤其是电子病历数据,记录了患者详细的病情和治疗过程,所含信息丰富,因此,开展医学文本挖掘中关键技术的研究,提取与某疾病相关的特征并构建相应的知识图谱,可更加科学、客观地预防、筛查疾病并给出合理的治疗方案,最终为广大患者提供更好的医疗服务,具有很好的理论和实际意义。为此,本论文基于电子病历文本数据,应用自然语言处理、机器学习、数据挖掘等技术,开展医学文本预处理、知识挖掘与知识图谱构建等工作。本文的主要工作和创新性可以归纳为以下几个方面:(1)针对医学临床术语的识别,本文提出了一种基于自定义词典及随机结合方法的临床术语抽取算法,以提高临床术语识别的精度。医学临床术语的识别同新闻领域的实体分词相比,具有两个特点,一是新闻领域的实体一般是专有名词,其前面很少有限定词,基于一般的分词工具可以较好的将其识别出来;二是医学实体经常是普通名词,其前面可以出现很多限定词。即使是相同的某个词,或者是相同的某个短语,在表示医学实体时都可能表达不同的含义,甚至还需要根据该词或者短语的上下文语境来理解其具体的意思。因此,医学领域的临床术语识别更具挑战性。针对此难题,本文首先利用中国生物医学文献数据库(Sino Med)中相关的文献获取自定义词典;然后结合Jieba分词工具进行分词;最后将分词完成后的词语分别与相邻词的左右结合进一步判断新的术语。该方法通过关联临近词语的上下文信息,丰富了对临床术语的描述,在临床术语抽取方面表现出了较好的效果。(2)针对医学文本的预处理,本文研究了三种预处理方法分别对应三种常见的预处理应用场景,以提高文本数据集的质量。针对样本非均衡的情形,本文提出了一种基于改进Smote算法的不平衡数据集处理方法,对产生新样本的过程及样本距离度量方式加以了改进,并基于两种不同的实验数据集,验证了本文改进方法的有效性。针对样本的结构化处理,基于某著名三甲医院数据集进行实验,研究了样本结构化的主要步骤。针对样本的缺失值处理,主要研究了多重差补方法及其实际效果。虽然插补后的“完整”数据集与真实值之间会有一定的误差,但是相比于原始缺失数据,其误差已有了较大提高。(3)针对电子病历的关联规则挖掘和治疗方案挖掘,本文分别提出了一种改进的CPAR算法,以及一种基于潜在语义分析的挖掘算法。关联规则挖掘方面,改进的CPAR算法在产生关联规则时引入增比率(Enhancement Ratio),使得规则的获取不仅仅只考虑本类的支持度,还会考虑到其补类的支持度。若出现正元组的比例较大时,有利于得到有关负元组的分类关联规则。治疗方案挖掘方面,本文提出了一种基于潜在语义分析技术挖掘胃病临床术语和治疗方案的语义关系。首先构建临床术语-治疗方案的共现矩阵,然后构造潜在语义空间,最后得到临床特征组合与各治疗方案的相关度,如胃病临床特征与手术治疗相关度、手术化疗相关度、对症治疗相关度等。除此之外,对挖掘的关联规则、临床特征等,分别针对不同的治疗方案进行了可视化展现,便于医学工作者查找和快速了解相关病症。(4)针对医学知识图谱的构建和智能问答,本文提出了一种基于多元实体关系的疾病知识图谱构建方法,并基于该图谱实现疾病的简易智能问答。以胃病这一疾病为例,首先基于多元实体关系构建胃病实体与对症治疗、化疗治疗、手术治疗之间的相关性,并基于不同治疗方法的特征来描述实体和治疗方案之间的关系,并形成胃病知识图谱。然后,基于该图谱实现智能问答。智能问答采用好大夫网站的胃病提问数据来模拟患者的提问数据。首先,对患者的提问数据经过一系列处理找出其中的病症信息;然后,计算该病症信息与胃病知识图谱中的病症信息的相似度;接下来,根据胃病知识图谱得出可能的疾病类型,并最终给出治疗建议。为了验证上述算法的有效性,本文分别以乳腺癌、胃病、青光眼三种疾病为研究对象,将上述算法分别应用到SEER数据集、青光眼数据集、胃病数据集以及好大夫网站医疗服务数据和医疗专科知识的深度挖掘。大量实践结果表明,以上算法具有较强的可操作性,对医疗知识的特征挖掘具有良好的效果。同时,项目研究的理论和方法也可扩展到其它疾病,具有一定的可扩展性,并期望进一步应用于临床辅助决策。
其他文献
计算机生成兵力(Computer Generated Forces,CGF)是作战仿真领域的关键前沿技术之一。意图识别行为是CGF认知行为建模的重要研究方向,可有效解决现有模拟仿真系统中CGF行为模式固定可预测、对抗与协同能力不足、态势分析与处理水平低等问题。策略型意图识别行为建模是考虑战场竞合关系条件下,对一般意图识别行为的泛化研究,有助于CGF更富策略性地识别敌友作战意图。研究面向CGF的策略
动态目标防御技术是一种新型的网络安全技术,通过构建、评价和部署多样化、不断迁移并且随时间变化的机制及策略的方式,增加攻击者的攻击难度及代价,有效限制脆弱性的暴露及被攻击的机会,提高系统的弹性。本文结合新一代网络架构SDN直接灵活、集中式的网络控制能力优势,对动态目标防御网络的相关关键技术进行了深入研究,主要研究工作及创新点如下:对于基于SDN的路由随机变换技术,本文分析了路由随机变换的相关问题,从
随着人们对互联网的依赖日益加深,保证互联网正常且稳定地运行是社会稳定运行的前提。但随着网络安全威胁技术不断升级,新的网络安全威胁不断涌现,网络安全面临较严峻的形势。而网络规模的不断增大,网络流量数据规模的增大,给网络流量的分析和异常检测带来了许多困难。因而,如何实时准确地发现大规模网络中存在的网络流量异常行为,保障网络正常且有效地运行,对提高网络的可用性和可靠性具有重要的意义。目前网络流量异常检测
近年来,人工智能技术迅猛发展,在全球范围内受到了广泛关注。以卷积经网络(Convolutional Neural Networks)、图卷积神经网络(Graph Convolutional Neural Networks)为代表的深度学习算法的不断更新迭代对计算机系统的计算性能与能耗要求急剧提高。然而,由于近年来摩尔定律发展的停滞以及冯诺伊曼结构限制,现有的数据中心架构无法高效地实现深度学习与大数
场景重建与语义分析理解是计算机视觉、计算机图形学以及机器人学中的难点。随着工业和娱乐领域对数字几何需求的不断增长,对场景进行建模与分析理解比过去任何时候都更加重要。近年来深度扫描技术的快速发展使得场景的数据建模越来越便捷,由于这一技术的革新,场景的重建和语义分析技术经历了由简单到复杂以及由低维到高维的发展演变。另一方面,移动机器人经过多年的研究和发展,已经逐步走向实用化,在制造业、物流业、服务业等
从片上多核系统到高性能计算机系统,互连网络作为节点之间通信的基础部件,一直是限制系统性能提升的瓶颈。路由器是互连网络的基础结构单元,负责网络中报文的转发,是影响网络吞吐率和报文传输延迟的关键部件。路由器基本结构包括输入端口、缓存、交换开关和输出端口等。其中,缓存用于存储路由器中等待转发的报文,而交换开关负责将报文无冲突的从路由器输入端口转发到输出端口。片上网络通常通过简化路由器流水级来降低报文通过
计算机生成兵力(Computer Generated Forces,CGF)战术任务规划是在作战仿真系统中,CGF为达到其作战目的而进行的一系列规划推理和选优决断活动,是构建真实可信的作战仿真系统的重点和难点。目前的CGF战术任务规划行为建模技术存在领域知识获取困难、战场环境不确定、行为模型过于简单等问题,针对这些不足,论文以研究CGF行为建模中战术任务规划行为模型框架为目标,重点围绕战术任务规划
随着云计算技术的快速发展,云服务商为用户提供了性能强大且具有弹性的数据存储和计算资源,将数据挖掘工作外包至云环境可以显著降低用户的运行维护成本。然而,由于云环境存在数据泄露等多种安全威胁,且云服务商对于用户而言不完全可信,用户的外包数据存在隐私泄露的风险。因此,如何保证云端数据挖掘过程中数据和结果的安全性已成为云计算安全领域亟待解决的关键问题。现有的数据挖掘安全外包方案通常无法同时满足高安全性和高
云计算技术在军事、政府、企业和个人等领域取得了越来越广泛的应用,但伴随着频频发生的云数据泄露事件,其安全问题也逐渐凸显。由于用户失去了对外包至云端的数据的直接物理控制权,同时又不愿意完全信任云服务提供商,因此数据的安全和隐私问题就成了用户在使用云服务时的重要顾虑。在上传数据前使用传统的对称或非对称加密算法加密数据可以有效保护数据的机密性,但无法满足灵活、高效地共享和管理数据的需求。属性基加密作为一
区块链是在分散对等的协作主体之间就共同关注的数字证据达成共识,并在此基础上开展合作的分布式存证机制,具有多中心、防篡改、可追溯等基本特性,能够以低成本、高效率的方式为不具备信任关系的各利益主体构建信任,并促成群体之间的高效协作。区块链技术不仅能够以分布式账本的形式对金融行业发挥重要作用,而且在数据共享、信息安全等众多领域也有广泛的应用前景。共识技术作为区块链的核心技术之一,逐渐成为了学术界和工业界