论文部分内容阅读
摘 要:在医院管理中运用电子计算机技术已经是今后的必然发展趋势。本文的主要内容在于探讨了数据仓库在医院决策管理系统中的原理和设计等内容。
中图分类号: 文献标识码:A 文章编号:1674-098X(2011)06(a)-0021-01
1 数据挖掘的原理
1.1 数据仓库的特点
在论述数据挖掘技术之前,需要了解一下数据仓库。数据仓库是关系型数据库的一个延伸,但是它与原有的数据库的组织结构是不同的:数据库中的基础数据和综合数据是在一个层次的,但在数据仓库中,这两者被分成当前基本数据、历史基本数据、轻度综合数据、高度综合数据、元数据五个部分分别放在了不同层次,这种结构使得数据仓库具有这几种特性:面向主体性、集成性、稳定性和随时间变化性。
1.2 数据挖掘的工作模式
数据挖掘是将信息从数据库、数据仓库以及其他的信息库中按照一定的原则筛选出来,筛选出来的的数据是特定人群所需要的,也是有效的信息。简而言之,数据挖掘的过程也就是在数据库中发现知识的过程,即知识挖掘的过程,从大量的未加工的数据出发,发现少量有价值的数据和规律。数据挖掘系统由5个部分组成:用来存储信息的数据库、数据表和数据仓库;用来提取相关数据的数据库或数据仓库的服务器;用来将属性分配到不同的层面并进行查询和提取的知识库;用来挖掘数据的数据挖掘引擎;最后是更深次得挖掘以及结果的可视化。挖掘的数据模式指导是挖掘到要找的模式类型的数据。挖掘一般两种形式:描述型的,在挖掘的时候通过描述性的语言来搜索数据库中所需要的数据;预测性的,在当前的数据中进行推断和预测。数据挖掘有6种模式:概念描述、关联分析、分类和预测、聚类分析、孤立点的分析和演变分析。限于篇幅,本文只对其中的关联分析进行论述。关联分析简而言之发现关联规则,但是发现的这些规则表示了属性和值在一定数据集中频繁的出现的时候,有什么样的条件。关联规则的表现规则如下所示:
上述的关联规则可以说成是 “能够使x成立的数据大部分也能使y成立”,例如在一个数据库中发现这样的关联规则:
其中的X表示的是顾客。此关联规则表示的意思是年龄在20到29岁,年收入在2万元到2.9万元的人,并且喜欢购买computer的人的顾客支持度是2%,在这个年龄段可能买电脑的概率是60%,也就是它的置信度。在上面这个例子中是age、income这样的属性以及buys这样的谓词是关联的。如果用的是多维的数据库,则每个属性称为一维,类似上面的规则叫做多维关联规则。
2 决策支持系统的设计
决策支持系统(Decision Support System,简称DSS),指的是在半结构化或者非结构化问题上,提供给决策者一点的参考信息的决策系统。但是它不能代替决策者所做的决定。DSS 的结构特征由模型库、数据库、方法库及其各自的管理系统以及交互式计算机硬件软件和对用户友好的建模语言等5个部分组成。医院信息决策系统组织结构在本人中分成了如下的组织机构:医院主管部门、挂号室、治疗室、化价室、住院室以及取药室。挂号室,主要是病人姓名、性别、编号索引值等信息。治疗室,补充记录病人的治疗记录,主要是主要的症状、需要用到哪些药物、以及是否需要住院等等信息。住院室,补充说明病人在住院期间的身体状况等等信息。划价室,说明病人在医院的费用等信息。取药室,病人取走治疗疾病所需要的药物。根据以上的职能部门,我们可以将医院的信息分成如下的几类信息:病人个人信息、病人管理信息、库存的业务信息以及病人的治疗费用等这样的几个信息。病人信息指的是病人的個人信息、诊断治疗信息、手术和住院信息以及医生的结论和检查结果等这样的信息。病人管理信息指的是病人情况、每天平均住院人数以及医院的效益等等信息。库存业务信息指的是每日的出院转院信息、药品的库存量以及预约情况等信息。根据上述要求,本文采用了是Apriori算法进行信息筛选,算法主要原理是将通过一种逐层搜索迭代的烦恼方法来实现的。首先查找频繁1-项集的集合,将这个集合标记为L1,然后通过在L1相集中寻找频繁2-项集的集合,将这个集合标记为L2,依次类推在L2中查找L3集合,在L3中查找L4结合,依次下去就可以找到最终的频繁K-项集。
Apriori算法的伪代码如下所示:输入:事务数据库以及最小的支持度阈值。输出:事务数据库中的频繁项集L。
方法:
L1 = find_frequent_1_itemsets(D);
for (k = 2; Lk-1; k++) {
Ck = aproiri_gen(Lk-1,min_sup);
for each transaction t?D{ //scan D for count
Ct = subset(Ck,t); //get subsets of t that are candidates
for each candidate c?Ct
c.count++;
Lk={c?Ck | c.count ? min_sup}
}
return L = kLk;?
procedure apriori_gen(Lk-1: frequent (k-1)-itemset; min_sup: support)
for each itemset l1?Lk-1
for each itemset l2?Lk-1
if (l1[1]=l2[1])...(l1[k-2]=l2[k-2])(l1[k-1] c = l1l2;//join step: generate candidates
if has_infrequent_subset(c,Lk-1) then
delete c;
else add c to Ck;
}
return Ck;
procedure has_infrequent_subset(c:candidate k-itemset; L k-1:frequent (k-1)-itemset)
// use priori knowledge
for each (k-1)-subset s of c
if c Lk-1 then
return TRUE;
return FALSE;
在数据库中通过上面的算法找到了频繁的项集以后,那么它的置信度与最小支持度是很好计算的。支持度S指的是事务集合中所所有包括A也包括B的一个集合占总的集合的一个百分比,即。置信度c则指的是在事务中同时包含A与B的集合占只包含事务B 的一个百分比,用公式表示如下所示:。
3 结语
通过分析数据挖掘的相关技术,将当前的信息管理系统与新的计算机数据挖掘技术和联机分析系统结合起来,设计了基于数据仓库的医院管理系统,这为医院管理人员的决策做出了很大的帮助,同时也对医务人员的工作质量提供了很好的帮助,最重要的是它可以看到医院的经营状况,为医院才去准确的措施提供了很大的帮助。
中图分类号: 文献标识码:A 文章编号:1674-098X(2011)06(a)-0021-01
1 数据挖掘的原理
1.1 数据仓库的特点
在论述数据挖掘技术之前,需要了解一下数据仓库。数据仓库是关系型数据库的一个延伸,但是它与原有的数据库的组织结构是不同的:数据库中的基础数据和综合数据是在一个层次的,但在数据仓库中,这两者被分成当前基本数据、历史基本数据、轻度综合数据、高度综合数据、元数据五个部分分别放在了不同层次,这种结构使得数据仓库具有这几种特性:面向主体性、集成性、稳定性和随时间变化性。
1.2 数据挖掘的工作模式
数据挖掘是将信息从数据库、数据仓库以及其他的信息库中按照一定的原则筛选出来,筛选出来的的数据是特定人群所需要的,也是有效的信息。简而言之,数据挖掘的过程也就是在数据库中发现知识的过程,即知识挖掘的过程,从大量的未加工的数据出发,发现少量有价值的数据和规律。数据挖掘系统由5个部分组成:用来存储信息的数据库、数据表和数据仓库;用来提取相关数据的数据库或数据仓库的服务器;用来将属性分配到不同的层面并进行查询和提取的知识库;用来挖掘数据的数据挖掘引擎;最后是更深次得挖掘以及结果的可视化。挖掘的数据模式指导是挖掘到要找的模式类型的数据。挖掘一般两种形式:描述型的,在挖掘的时候通过描述性的语言来搜索数据库中所需要的数据;预测性的,在当前的数据中进行推断和预测。数据挖掘有6种模式:概念描述、关联分析、分类和预测、聚类分析、孤立点的分析和演变分析。限于篇幅,本文只对其中的关联分析进行论述。关联分析简而言之发现关联规则,但是发现的这些规则表示了属性和值在一定数据集中频繁的出现的时候,有什么样的条件。关联规则的表现规则如下所示:
上述的关联规则可以说成是 “能够使x成立的数据大部分也能使y成立”,例如在一个数据库中发现这样的关联规则:
其中的X表示的是顾客。此关联规则表示的意思是年龄在20到29岁,年收入在2万元到2.9万元的人,并且喜欢购买computer的人的顾客支持度是2%,在这个年龄段可能买电脑的概率是60%,也就是它的置信度。在上面这个例子中是age、income这样的属性以及buys这样的谓词是关联的。如果用的是多维的数据库,则每个属性称为一维,类似上面的规则叫做多维关联规则。
2 决策支持系统的设计
决策支持系统(Decision Support System,简称DSS),指的是在半结构化或者非结构化问题上,提供给决策者一点的参考信息的决策系统。但是它不能代替决策者所做的决定。DSS 的结构特征由模型库、数据库、方法库及其各自的管理系统以及交互式计算机硬件软件和对用户友好的建模语言等5个部分组成。医院信息决策系统组织结构在本人中分成了如下的组织机构:医院主管部门、挂号室、治疗室、化价室、住院室以及取药室。挂号室,主要是病人姓名、性别、编号索引值等信息。治疗室,补充记录病人的治疗记录,主要是主要的症状、需要用到哪些药物、以及是否需要住院等等信息。住院室,补充说明病人在住院期间的身体状况等等信息。划价室,说明病人在医院的费用等信息。取药室,病人取走治疗疾病所需要的药物。根据以上的职能部门,我们可以将医院的信息分成如下的几类信息:病人个人信息、病人管理信息、库存的业务信息以及病人的治疗费用等这样的几个信息。病人信息指的是病人的個人信息、诊断治疗信息、手术和住院信息以及医生的结论和检查结果等这样的信息。病人管理信息指的是病人情况、每天平均住院人数以及医院的效益等等信息。库存业务信息指的是每日的出院转院信息、药品的库存量以及预约情况等信息。根据上述要求,本文采用了是Apriori算法进行信息筛选,算法主要原理是将通过一种逐层搜索迭代的烦恼方法来实现的。首先查找频繁1-项集的集合,将这个集合标记为L1,然后通过在L1相集中寻找频繁2-项集的集合,将这个集合标记为L2,依次类推在L2中查找L3集合,在L3中查找L4结合,依次下去就可以找到最终的频繁K-项集。
Apriori算法的伪代码如下所示:输入:事务数据库以及最小的支持度阈值。输出:事务数据库中的频繁项集L。
方法:
L1 = find_frequent_1_itemsets(D);
for (k = 2; Lk-1; k++) {
Ck = aproiri_gen(Lk-1,min_sup);
for each transaction t?D{ //scan D for count
Ct = subset(Ck,t); //get subsets of t that are candidates
for each candidate c?Ct
c.count++;
Lk={c?Ck | c.count ? min_sup}
}
return L = kLk;?
procedure apriori_gen(Lk-1: frequent (k-1)-itemset; min_sup: support)
for each itemset l1?Lk-1
for each itemset l2?Lk-1
if (l1[1]=l2[1])...(l1[k-2]=l2[k-2])(l1[k-1]
if has_infrequent_subset(c,Lk-1) then
delete c;
else add c to Ck;
}
return Ck;
procedure has_infrequent_subset(c:candidate k-itemset; L k-1:frequent (k-1)-itemset)
// use priori knowledge
for each (k-1)-subset s of c
if c Lk-1 then
return TRUE;
return FALSE;
在数据库中通过上面的算法找到了频繁的项集以后,那么它的置信度与最小支持度是很好计算的。支持度S指的是事务集合中所所有包括A也包括B的一个集合占总的集合的一个百分比,即。置信度c则指的是在事务中同时包含A与B的集合占只包含事务B 的一个百分比,用公式表示如下所示:。
3 结语
通过分析数据挖掘的相关技术,将当前的信息管理系统与新的计算机数据挖掘技术和联机分析系统结合起来,设计了基于数据仓库的医院管理系统,这为医院管理人员的决策做出了很大的帮助,同时也对医务人员的工作质量提供了很好的帮助,最重要的是它可以看到医院的经营状况,为医院才去准确的措施提供了很大的帮助。