论文部分内容阅读
摘 要:计算机技术在医学领域的应用越来越引起人们的重视,数据挖掘是其中新兴的热门学科,应用在医疗系统中可以处理已经积累起来的病人资料数据库中大量的历史数据,利用已有的这些信息,通过各种技术和方法找出其中蕴涵的、先前未知的,但非常有用的规则或模式,即找出新的病因或发现新的治疗方法。也就是说数据挖掘的目的是要发现新的知识,这些新知识必将促进医疗事业的发展。 本文介绍了数据挖掘的概念、主要的技术方法及其实施步骤,以及该技术在医疗信息系统中的应用。
关键词:数据挖掘;关联规则;分类规则;临床信息系统(CIS)
1 数据挖掘技术概述
1) 概念[1]
数据挖掘(Data Mining),又称数据库中的知识发现(Knowledge Discovery in Database, KDD),是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式,它是数据库研究中的一个很有应用价值的新领域,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。数据挖掘工具能够对将来的趋势和行为进行预测,从而很好地支持人们的决策。
2) 数据挖掘的技术方法
数据挖掘的技术主要有关联分析、序列模式分析、分类分析、聚类分析、统计分析、基于模糊集合的分析、基于神经网络的分析等等。
●关联分析法:利用关联规则进行数据挖掘,其目的是挖掘隐藏在数据间的相互关系,它能发现数据库中形如"90%的顾客在一次购买活动中购买商品A的同时购买商品B"之类的知识。采用关联分析法可以从医疗信息系统(如CIS)的数据库或为此建立的数据仓库、数据集市的细节或事务中寻找出重新出现概率很高的模式。即从CIS的数据库中分析某种疾病治疗过程中诱发其他疾病的概率以及与时间的关系等[3]。
●序列模式分析法:与关联分析相似,其目的也是为了挖掘数据之间的联系,但其侧重点在于分析数据间的前后序列关系。它能发现数据库中形如"在某一段时间内,顾客购买商品A,接着购买商品B,而后购买商品C,即序列A→B→C出现的频度较高"之类的知识。
●分类分析法:设有一个数据库和一组具有不同特征的类别(标记),该数据库中的每一个记录都赋予一个类别的标记,这样的数据库称为示例数据库或训练集。分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用这个分类规则对其它数据库中的记录进行分类。目前已有多种分类分析模型得到应用,其中几种典型模型是线性回归模型、决策树模型、基本规则模型和神经网络模型。
●聚类分析法:通过分析数据库中的记录数据,根据一定的分类规则,合理地划分记录集合,确定每个记录所在类别。它所采用的分类规则是由聚类分析工具决定的。聚类分析的方法很多,其中包括系统聚类法、分解法、加入法、动态聚类法、模糊聚类法、运筹方法等。采用不同的聚类方法,对于相同的记录集合可能有不同的划分结果。
2数据挖掘的实施步骤
数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,它是一个交互式的迭代过程。主要包括以下实施步骤[2]:
1)取得数据源
数据挖掘最理想的数据源是数据仓库。数据仓库由来自多个数据库的数据组成,并消除他们之间的不一致。如数据仓库不可得,则要从各个数据库中取得数据。数据挖掘有时还需要对原有数据库进行改造以得到可用的数据源,例如延长历史的保留期等。
2)数据预处理
这包括消除来自不同数据库甚至不同类型计算机数据表示的不一致,在数据中加入新的数据项(例如对原有数据项进行有意义的数学计算而得到新的数据项),以发现更多的规律,将数据分为训练集和测试集等方面。
3) 构造和训练模型
这个步骤依赖于具体的数据挖掘方法。常用的方法有规则归纳、决策树、遗传算法、人工神经网络、粗集方法、邻近搜索方法、模糊逻辑、可视化技术等。
4) 评价模型
用测试数据集来测试模型以估计模型的正确率。最后一步是验证模型,比如通过对病人诊疗数据分析后得到一个模型,不管它与历史数据多么吻合,在进行临床使用前,都必须首先进行临床试验。
3 数据挖掘技术在医疗信息系统中的应用
下面以序列模式分析法为例,介绍了数据挖掘技术在医疗中的重要作用。
给定一个病人就诊数据库D,每条就诊记录包含进行该就诊的病人标识、就诊时间和诊断出的疾病数据项。数据项集是数据项的非空集合,序列是数据项集的有序集。
设Sa=〈A1,A2,…,AK〉,Sb=〈B1,B2,…,Bn〉是两个序列,如果存在整数1≤i 一个病人在一段时间内进行的所有诊断可看作一个序列:S=〈item set(T1), item set(T2),…, item set(Tn)〉,其中item set(Ti)表示诊断Ti诊断出的疾病集,序列中的元素是按诊断时间排列的,这样一个序列叫这个病人的病人序列。
如果一个序列S包含在一个病人的病人序列中,则称这个病人序列支持序列S。在一个诊断数据库中,一个序列的支持度是支持这个序列的病人数占全部诊断病人数的比例。
对一个诊断数据库D,挖掘序列模式的任务就是在D中找出所有的最大序列,这些序列满足用户指定的最小支持度,这样的一个序列叫做序列模式。具有最小支持度的序列叫频繁序列。
在诊断数据库D中挖掘序列模式是先将D转换为病人序列库Q,然后通过对Q多次扫描找出各个长度的频繁序列,序列的长度指序列包含项的个数。如果用户指定的最小支持度为37%(即有两个病人支持),则挖掘的序列模式如下:
S1=〈{1003},{1009}〉和S2=〈{1003},{1004,1007}〉。
这样对医院的就诊数据库进行一些必要的预处理,选取一类病情,然后利用挖掘序列模式的算法,挖掘满足支持度限制的序列模式,就可以发现一些病情的发展模式,从而有针对性的预防某些疾病的发生,同时给病人一些实际数据的说明,使病人高度重视某些疾病,防止病情进一步发展。
4 结束语
本文通過举例介绍了数据挖掘技术在医疗系统中的应用,通过医学领域的专业知识和数据挖掘技术的结合,收集大量稳定、可靠的医疗数据,反复实践,不断提高挖掘知识的质量,合理应用,必将对医学研究、疾病诊断和治疗起到重要的促进作用。
参考文献:
[1]屈竟辉,医学信息数据库的建立与数据挖掘,第四军医大学学报,2001年第22期。
[2]付阶辉,赵林度,数据挖掘技术在HIS中的应用,东南大学学报,2002年10月。
[3]颜延,秦兴彬,樊建平,王磊,医疗健康大数据研究综述,科研信息化技术与应用,2014(06)
[4]王淑,陈敏,于广军,舒林华,基于数据挖掘技术的典型儿童呼吸道感染性疾病临床决策支持系统研究,中国数字医学,2015(12)
[5]于婷,大数据时代的数据挖掘技术与应用,通讯世界,2018年12月。
关键词:数据挖掘;关联规则;分类规则;临床信息系统(CIS)
1 数据挖掘技术概述
1) 概念[1]
数据挖掘(Data Mining),又称数据库中的知识发现(Knowledge Discovery in Database, KDD),是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式,它是数据库研究中的一个很有应用价值的新领域,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。数据挖掘工具能够对将来的趋势和行为进行预测,从而很好地支持人们的决策。
2) 数据挖掘的技术方法
数据挖掘的技术主要有关联分析、序列模式分析、分类分析、聚类分析、统计分析、基于模糊集合的分析、基于神经网络的分析等等。
●关联分析法:利用关联规则进行数据挖掘,其目的是挖掘隐藏在数据间的相互关系,它能发现数据库中形如"90%的顾客在一次购买活动中购买商品A的同时购买商品B"之类的知识。采用关联分析法可以从医疗信息系统(如CIS)的数据库或为此建立的数据仓库、数据集市的细节或事务中寻找出重新出现概率很高的模式。即从CIS的数据库中分析某种疾病治疗过程中诱发其他疾病的概率以及与时间的关系等[3]。
●序列模式分析法:与关联分析相似,其目的也是为了挖掘数据之间的联系,但其侧重点在于分析数据间的前后序列关系。它能发现数据库中形如"在某一段时间内,顾客购买商品A,接着购买商品B,而后购买商品C,即序列A→B→C出现的频度较高"之类的知识。
●分类分析法:设有一个数据库和一组具有不同特征的类别(标记),该数据库中的每一个记录都赋予一个类别的标记,这样的数据库称为示例数据库或训练集。分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用这个分类规则对其它数据库中的记录进行分类。目前已有多种分类分析模型得到应用,其中几种典型模型是线性回归模型、决策树模型、基本规则模型和神经网络模型。
●聚类分析法:通过分析数据库中的记录数据,根据一定的分类规则,合理地划分记录集合,确定每个记录所在类别。它所采用的分类规则是由聚类分析工具决定的。聚类分析的方法很多,其中包括系统聚类法、分解法、加入法、动态聚类法、模糊聚类法、运筹方法等。采用不同的聚类方法,对于相同的记录集合可能有不同的划分结果。
2数据挖掘的实施步骤
数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,它是一个交互式的迭代过程。主要包括以下实施步骤[2]:
1)取得数据源
数据挖掘最理想的数据源是数据仓库。数据仓库由来自多个数据库的数据组成,并消除他们之间的不一致。如数据仓库不可得,则要从各个数据库中取得数据。数据挖掘有时还需要对原有数据库进行改造以得到可用的数据源,例如延长历史的保留期等。
2)数据预处理
这包括消除来自不同数据库甚至不同类型计算机数据表示的不一致,在数据中加入新的数据项(例如对原有数据项进行有意义的数学计算而得到新的数据项),以发现更多的规律,将数据分为训练集和测试集等方面。
3) 构造和训练模型
这个步骤依赖于具体的数据挖掘方法。常用的方法有规则归纳、决策树、遗传算法、人工神经网络、粗集方法、邻近搜索方法、模糊逻辑、可视化技术等。
4) 评价模型
用测试数据集来测试模型以估计模型的正确率。最后一步是验证模型,比如通过对病人诊疗数据分析后得到一个模型,不管它与历史数据多么吻合,在进行临床使用前,都必须首先进行临床试验。
3 数据挖掘技术在医疗信息系统中的应用
下面以序列模式分析法为例,介绍了数据挖掘技术在医疗中的重要作用。
给定一个病人就诊数据库D,每条就诊记录包含进行该就诊的病人标识、就诊时间和诊断出的疾病数据项。数据项集是数据项的非空集合,序列是数据项集的有序集。
设Sa=〈A1,A2,…,AK〉,Sb=〈B1,B2,…,Bn〉是两个序列,如果存在整数1≤i
如果一个序列S包含在一个病人的病人序列中,则称这个病人序列支持序列S。在一个诊断数据库中,一个序列的支持度是支持这个序列的病人数占全部诊断病人数的比例。
对一个诊断数据库D,挖掘序列模式的任务就是在D中找出所有的最大序列,这些序列满足用户指定的最小支持度,这样的一个序列叫做序列模式。具有最小支持度的序列叫频繁序列。
在诊断数据库D中挖掘序列模式是先将D转换为病人序列库Q,然后通过对Q多次扫描找出各个长度的频繁序列,序列的长度指序列包含项的个数。如果用户指定的最小支持度为37%(即有两个病人支持),则挖掘的序列模式如下:
S1=〈{1003},{1009}〉和S2=〈{1003},{1004,1007}〉。
这样对医院的就诊数据库进行一些必要的预处理,选取一类病情,然后利用挖掘序列模式的算法,挖掘满足支持度限制的序列模式,就可以发现一些病情的发展模式,从而有针对性的预防某些疾病的发生,同时给病人一些实际数据的说明,使病人高度重视某些疾病,防止病情进一步发展。
4 结束语
本文通過举例介绍了数据挖掘技术在医疗系统中的应用,通过医学领域的专业知识和数据挖掘技术的结合,收集大量稳定、可靠的医疗数据,反复实践,不断提高挖掘知识的质量,合理应用,必将对医学研究、疾病诊断和治疗起到重要的促进作用。
参考文献:
[1]屈竟辉,医学信息数据库的建立与数据挖掘,第四军医大学学报,2001年第22期。
[2]付阶辉,赵林度,数据挖掘技术在HIS中的应用,东南大学学报,2002年10月。
[3]颜延,秦兴彬,樊建平,王磊,医疗健康大数据研究综述,科研信息化技术与应用,2014(06)
[4]王淑,陈敏,于广军,舒林华,基于数据挖掘技术的典型儿童呼吸道感染性疾病临床决策支持系统研究,中国数字医学,2015(12)
[5]于婷,大数据时代的数据挖掘技术与应用,通讯世界,2018年12月。