数据挖掘技术在医疗信息系统中的应用

来源 :科学与财富 | 被引量 : 0次 | 上传用户:gunnie0095
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:计算机技术在医学领域的应用越来越引起人们的重视,数据挖掘是其中新兴的热门学科,应用在医疗系统中可以处理已经积累起来的病人资料数据库中大量的历史数据,利用已有的这些信息,通过各种技术和方法找出其中蕴涵的、先前未知的,但非常有用的规则或模式,即找出新的病因或发现新的治疗方法。也就是说数据挖掘的目的是要发现新的知识,这些新知识必将促进医疗事业的发展。 本文介绍了数据挖掘的概念、主要的技术方法及其实施步骤,以及该技术在医疗信息系统中的应用。
  关键词:数据挖掘;关联规则;分类规则;临床信息系统(CIS)
  1 数据挖掘技术概述
  1) 概念[1]
  数据挖掘(Data Mining),又称数据库中的知识发现(Knowledge Discovery in Database, KDD),是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式,它是数据库研究中的一个很有应用价值的新领域,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。数据挖掘工具能够对将来的趋势和行为进行预测,从而很好地支持人们的决策。
  2) 数据挖掘的技术方法
  数据挖掘的技术主要有关联分析、序列模式分析、分类分析、聚类分析、统计分析、基于模糊集合的分析、基于神经网络的分析等等。
  ●关联分析法:利用关联规则进行数据挖掘,其目的是挖掘隐藏在数据间的相互关系,它能发现数据库中形如"90%的顾客在一次购买活动中购买商品A的同时购买商品B"之类的知识。采用关联分析法可以从医疗信息系统(如CIS)的数据库或为此建立的数据仓库、数据集市的细节或事务中寻找出重新出现概率很高的模式。即从CIS的数据库中分析某种疾病治疗过程中诱发其他疾病的概率以及与时间的关系等[3]。
  ●序列模式分析法:与关联分析相似,其目的也是为了挖掘数据之间的联系,但其侧重点在于分析数据间的前后序列关系。它能发现数据库中形如"在某一段时间内,顾客购买商品A,接着购买商品B,而后购买商品C,即序列A→B→C出现的频度较高"之类的知识。
  ●分类分析法:设有一个数据库和一组具有不同特征的类别(标记),该数据库中的每一个记录都赋予一个类别的标记,这样的数据库称为示例数据库或训练集。分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用这个分类规则对其它数据库中的记录进行分类。目前已有多种分类分析模型得到应用,其中几种典型模型是线性回归模型、决策树模型、基本规则模型和神经网络模型。
  ●聚类分析法:通过分析数据库中的记录数据,根据一定的分类规则,合理地划分记录集合,确定每个记录所在类别。它所采用的分类规则是由聚类分析工具决定的。聚类分析的方法很多,其中包括系统聚类法、分解法、加入法、动态聚类法、模糊聚类法、运筹方法等。采用不同的聚类方法,对于相同的记录集合可能有不同的划分结果。
  2数据挖掘的实施步骤
  数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,它是一个交互式的迭代过程。主要包括以下实施步骤[2]:
  1)取得数据源
  数据挖掘最理想的数据源是数据仓库。数据仓库由来自多个数据库的数据组成,并消除他们之间的不一致。如数据仓库不可得,则要从各个数据库中取得数据。数据挖掘有时还需要对原有数据库进行改造以得到可用的数据源,例如延长历史的保留期等。
  2)数据预处理
  这包括消除来自不同数据库甚至不同类型计算机数据表示的不一致,在数据中加入新的数据项(例如对原有数据项进行有意义的数学计算而得到新的数据项),以发现更多的规律,将数据分为训练集和测试集等方面。
  3) 构造和训练模型
  这个步骤依赖于具体的数据挖掘方法。常用的方法有规则归纳、决策树、遗传算法、人工神经网络、粗集方法、邻近搜索方法、模糊逻辑、可视化技术等。
  4) 评价模型
  用测试数据集来测试模型以估计模型的正确率。最后一步是验证模型,比如通过对病人诊疗数据分析后得到一个模型,不管它与历史数据多么吻合,在进行临床使用前,都必须首先进行临床试验。
  3 数据挖掘技术在医疗信息系统中的应用
  下面以序列模式分析法为例,介绍了数据挖掘技术在医疗中的重要作用。
  给定一个病人就诊数据库D,每条就诊记录包含进行该就诊的病人标识、就诊时间和诊断出的疾病数据项。数据项集是数据项的非空集合,序列是数据项集的有序集。
  设Sa=〈A1,A2,…,AK〉,Sb=〈B1,B2,…,Bn〉是两个序列,如果存在整数1≤i  一个病人在一段时间内进行的所有诊断可看作一个序列:S=〈item set(T1), item set(T2),…, item set(Tn)〉,其中item set(Ti)表示诊断Ti诊断出的疾病集,序列中的元素是按诊断时间排列的,这样一个序列叫这个病人的病人序列。
  如果一个序列S包含在一个病人的病人序列中,则称这个病人序列支持序列S。在一个诊断数据库中,一个序列的支持度是支持这个序列的病人数占全部诊断病人数的比例。
  对一个诊断数据库D,挖掘序列模式的任务就是在D中找出所有的最大序列,这些序列满足用户指定的最小支持度,这样的一个序列叫做序列模式。具有最小支持度的序列叫频繁序列。
  在诊断数据库D中挖掘序列模式是先将D转换为病人序列库Q,然后通过对Q多次扫描找出各个长度的频繁序列,序列的长度指序列包含项的个数。如果用户指定的最小支持度为37%(即有两个病人支持),则挖掘的序列模式如下:
  S1=〈{1003},{1009}〉和S2=〈{1003},{1004,1007}〉。
  这样对医院的就诊数据库进行一些必要的预处理,选取一类病情,然后利用挖掘序列模式的算法,挖掘满足支持度限制的序列模式,就可以发现一些病情的发展模式,从而有针对性的预防某些疾病的发生,同时给病人一些实际数据的说明,使病人高度重视某些疾病,防止病情进一步发展。
  4 结束语
  本文通過举例介绍了数据挖掘技术在医疗系统中的应用,通过医学领域的专业知识和数据挖掘技术的结合,收集大量稳定、可靠的医疗数据,反复实践,不断提高挖掘知识的质量,合理应用,必将对医学研究、疾病诊断和治疗起到重要的促进作用。
  参考文献:
  [1]屈竟辉,医学信息数据库的建立与数据挖掘,第四军医大学学报,2001年第22期。
  [2]付阶辉,赵林度,数据挖掘技术在HIS中的应用,东南大学学报,2002年10月。
  [3]颜延,秦兴彬,樊建平,王磊,医疗健康大数据研究综述,科研信息化技术与应用,2014(06)
  [4]王淑,陈敏,于广军,舒林华,基于数据挖掘技术的典型儿童呼吸道感染性疾病临床决策支持系统研究,中国数字医学,2015(12)
  [5]于婷,大数据时代的数据挖掘技术与应用,通讯世界,2018年12月。
其他文献
摘 要:当前在食品检测检验体系方面存在着一些问题,其中包括:技术水平差、没有建立健全完善的食品检测检验体系、没有建立完善的市场准入机制。因此为了稳定食品行业发展,就必须亟待解决这些问题。本文对食品检验检测体系的现状及其对策进行分析。  关键词:食品检验;检测体系;现状;对策  随着社会的不断发展,我国越来越重视社会的和谐稳定,所以必须要注重食品安全问题。政府部门需要高度重视食品安全,不断健全食品检
期刊
一、前言  我国国土幅员辽阔,蕴藏多种矿藏,本文就我国铁矿类型做一归纳总结。  二、矿床类型  我国幅员辽阔,分布有从超基性—基性—中性—酸性—碱性各时代的各类岩浆(喷发)岩;沉积了从太古宙到第四纪各个时代的地层,包括各种沉积岩系、火山沉积岩系、沉积变质岩系,为不同类型铁矿的形成创造了条件。我国目前具有工业意义的铁矿床,按其成因可分为沉积变质型、岩浆型、接触交代-热液型、火山岩型、沉积型和风化型等
期刊
摘 要:信息化的应用加快了档案资源的开发进程,有效提升了现代化档案管理的发展水平,推动了档案管理信息化建设的发展。与此同时,在有效储存档案信息与文件管理的实践操作中,进一步促进了信息记录收集、查询检索、储存管理以及人员素质等方面的提高,使得档案管理信息化建设水平得到了整体性提升。档案管理信息化有效地保存了机关、企(事)业以及个人在社会活动中所直接形成的具有价值的文字、图表、音像等各种形式的历史记录
期刊
摘 要:社会经济的快速发展加快了教育事业的发展步伐,但与此同时城乡教育之间存在的差距也逐渐增大。这对于我国教育事业的发展具有不利的影响,必须对城乡教育存在的差距引起重视。不断采取有效的对策缩小差距,促进我国教育的良好发展。本文主要对城乡教育存在差距的原因进行分析,提出相对应的有效建议,希望为城乡教育的发展提供一些参考。  关键词:城乡教育  一、概述  教育能够显著地改善人的生存状态,增进社会公平
期刊
摘 要:电力变电运行是一个非常复杂的系统工程,不仅因为它的组成环节和电气设备较多,而且在运行过程中还需要对这些电气设备及相应的复杂的程序进行复杂的操作,从而导致电力变电运行的事故发生概率增加。电力变电运行的安全性、稳定性不仅影响着整个电力系统的运行状态,而且还决定着电力供电质量。为了保证电力系统能够安全稳定的运行,加强电力系统的供电质量,对电力变电运行中存在的多发事故点进行预防及控制管理是非常重要
期刊
摘 要:随着我国科学技术的不断进步与发展,铁路建设也随之越来越普及,相关的铁路建设行业逐渐开始发展壮大起来,在进行铁路的转向架检修线施工的过程中,对相关的线路设计施工质量进行严格的控制是非常有必要的,当下许多施工队伍在对铁路客车转向架检修线进行设计施工时,其设计都很难达到规定的水平。铁路运输业是国家重要行业,同时铁路建设水平也反映整个国民经济的发展水平。本文就对客车转向架检修线进行相关的研究分析。
期刊
摘 要:随着科学技术的不断发展,越来越多的媒体技术应运而生,并且媒体环境也发生了巨大的变化,使得传统的广电媒体在新媒体环境下受到了极大的挑战,同时在这种环境下,传统的广电媒体也开始了媒体融合的工作进程。电视新闻要想在激烈的行业竞争中实现高效的发展,就要紧跟融媒体时代的发展步伐,并结合自身的优势进行不断的创新。  关键词:融媒体时代;电视新闻;创新路径;个性化;多样化  当前,多媒體、网络信息技术的
期刊
摘 要:随着油气资源的不断开发,浅层及其它易开发的油气资源越来越少,开发难度大的砂砾岩、超深储层越来越多。面对研究地区超深、高温、井漏等测井施工难点,通过开展工艺研究和实际应用,形成了一套针对该地区的水平井测井工艺和配套技术,进一步提升了复杂水平井测井能力。该工艺技术实施后,钻具输送测井一次成功率由45%提升到89%,应用效果显著。  关键词:油气资源;超深小井眼;测井施工;工艺技术;水平井;仪器
期刊
摘 要:当前,我们国家的经济已经得到了飞速的发展,人民的生活水平也有了显著的提高。在这个过程中,石油化工产业在国民经济发展中的地位越来越突出,各行各业也加强了对石油的重要需求。在石油化工企业发展的过程中,需要用到大量的水资源,也会产生大量的废水,所以对石油化工企业废水处理技术的研究是非常关键的。笔者针对石油化工股企业废水处理技术进行了有效的研究。  关键词:石油化工;废水处理技术;研究进展  作为
期刊
摘 要:通过FPGA的设计实现了合成孔径雷达(SAR)的成像处理技术,它是雷达技术中一个重要的应用成分,它是以无人机作为载体进行工作的,而这项技术现目前已经成为了研究热点,跟传统的雷达相比,无人机上面的MiniSAR成像技术对于雷达自身条件具有严格的要求,包括雷达的体重、功能消耗等。  关键词:微型合成孔径雷达(MiniSAR):模块设计:成像信号处理  引言:合成孔径雷达(SAR)可以对全部天气
期刊