论文部分内容阅读
摘要:为了提高针灸临床医生的医疗水平,促进针灸临床实践的发展,提出了将数据挖掘技术应用于针灸临床治疗方案决策中。结合针灸学科特点和临床诊治规律,运用数据挖掘方法对名老针灸处方进行数据分析比较,获取有益临床治疗方案决策的结果信息。
关键词:数据挖掘 关联规则 针灸疗法 Weka
Data mining application in the acupuncture clinical treatment program decision-making
HU Lvhui1,PANG Lang2,REN Yulan1
(1,Chengdu University of TCM, 2,Sichuan Normal University Chengdu College, Chengdu, China)
Abstract: In order to improve the level of medical acupuncture clinicians, and promote the development of acupuncture in clinical practice, the proposed data mining technology is applied to acupuncture clinical program decisions. Combining acupuncture subject characteristics and clinical diagnosis and treatment of the law, the use of data mining methods for data analysis comparing old acupuncture prescription, get the information of the results of the beneficial clinical program decisions.
Key words: data mining;association rule;l Acupuncture therapy;Weka
1、引言
针灸学作为中医学科体系中最具特色和优势的学科,以其独特的治疗方法和卓越的临床疗效得到了国内外广泛关注和高度重视。但大多针灸研究仍停留在疗效的确认上,面临着诸多问题,比如:如何进一步提高针灸临床疗效、扩大应用范围以及科学评价;临床上,由腧穴、施术方法和治疗时间组成的针灸处方是实现针灸疗效的重要条件,但在针灸临床治疗决策中,如何选取最优化的针灸处方是针灸医生面临的一大难题;并且随着循证医学的发展,循证医学强调遵循最佳证据指导临床决策,而针灸学临床证据应包括古代研究证据、名老中医经验证据和现代研究证据,如何实现信息化显得更加重要;面对跨越几千年的文献资料,如何快速、有效的挖掘有价值的信息,获取最佳证据以供临床治疗方案决策所用等。本文将数据挖掘技术应用于针灸临床治疗方案决策中,借鉴循证医学的理念和方法整理、加工、更新以及评价古今针灸治疗疾病的临床证据,其研究结果为针灸临床医生决策提供技术支持,有助于针灸临床医生提高医疗水平,促进针灸临床实践的发展。
2、数据挖掘方法及WEKA平台介绍
针对上述问题,计算机领域新兴发展起来的一门学科数据挖掘给我们提供了很好的解决方法。数据挖掘(data mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。从1989年被提出来后,迅速成为研究的热点,在众多的研究领域进行了广泛的应用。在中医药领域,数据挖掘技术已应用于中医药数据库的建立、方剂配伍规律的研究、名老中医经验总结、中医药数据规范处理,以及临床诊断、疗效评价、处方分析、图像识别等研究。
数据挖掘与传统分析方法的区别:数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识.数据挖掘所得到的信息应具有先未知、有效和可实用三个特征。数据挖掘方法主要有关联规则与关联分析、聚类分析、遗传算法、人工神经网络、决策树等。
WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一个运行于Java平台的开源系统。作为一个公开的数据挖掘工作平台,该软件集成了大量能够承担数据挖掘中的机器学习算法。Weka中包含了很多工具,包括数据预处理分类,回归,聚类,关联规则和可视化工具,还可以用来开发新的机器学习算法。Weka主要提供了数据挖掘的框架结构,并给出了一系列的数据挖掘算法,在这些数据挖掘算法生成模型时,用户可以自定义算法的各个相关参数,并且可以实现对测试集的验证, 和对算法的比较。Weka提供了可编程的接口,使我们可以通过拓展算法来实现新的功能,同时Weka也允许我们通过调用它的公用包,在自己的项目中利用包中的算法实现相应的功能。针对针灸数据的特点选用此平台能更好的发挥其强大的功能,为针灸临床决策提供技术支持,使得针灸疗效取决于针灸师个人的因素逐步减少,在针灸临床治疗方案中能实现科学、合理、高效的决策。
3、基于数据挖掘的针灸临床治疗决策研究的思路与方法
研究思路如图
图1 针灸数据挖掘思路
3.1 WEKA平台的选型
Weka主要提供了数据挖掘的框架结构,并给出了一系列的数据挖掘算法,是目前为止最好的数据挖掘工具之一。
3.2 数据准备与处理
数据准备方案:对于古代文献数据参照了《中国针灸文献提要》、《中国医籍大辞典》《中国针灸荟萃·现存针灸医籍卷》等书籍,选取影响范围较大、传播范围广的著作;对于现代文献数据采用计算机检索和手工检索,遵循针灸学科特点整理成计算机能够处理的格式。 数据录入和处理:根据数据库规范将古代每条数据分为朝代、出处、原始病名、症状描述、针灸治法等数据项,现代数据分为篇名、作者、病名、取穴等数据项。文献录入要保证忠实原始文献并进行规范,对难以规范需要特殊处理的内容填入“备注”项。
数据转换:Weka软件的数据存储格式是ARFF文件。这是一种ASCII文本文件,其数据类型有数值型(numeric)、字符串型(nomina1)、分类型(string)、时间型(date)以及关系型(relationa1)。而在前期我们进行数据录入是在EXCEL中完成,在EXCEL中将数据保存为.CSV格式文件。WEKA软件能够支持.CSV格式的数据,但兼容效果最好的是其自有的ARFF格式,因而需要将CSV格式转为ARFF格式。可使用ARFFVIEWER工具打开之前建立的CSV格式,将文件另存为ARFF格式即可。
3.3 基于数据挖掘的针灸临床决策分析的模型建立
基于Weka平台的数据挖掘:挖掘工具采用Weka3.5开放源代码平台,以贝尔面瘫病例数据为例,用神经网络方法,遗传算法,决策树方法等进行比较,得出较好的挖掘效果的数据挖掘方法,选用此方法设计出针对所有疾病都适用的针灸临床治疗方案决策系统。
WEKA环境下,在Explorer模块的关联规(Associate)标签下可以实现对数据集的关联分析操作,这里提供了Apriori、FiheredAssociator、GeneralizedSequentialPatterns、PredietiveApriori、Tertius等多种关联分析算法。本文在对比实验的基础上,选择Apriori算法对针灸临床数据集进行关联分析。
3.4 结果分析,展现新知识与规律
在WEKA 3.5环境下,用数据挖掘方法得出挖掘结果并结全针灸专业知识,对针灸临床治疗的腧穴配伍规律进行分析,分析出治疗某种疾病哪些穴位配伍使用最多,他们的支持度和置信度都达到最高。在此基础上进行治疗方案决策的综合分析,从而指导医生的临床治疗方案决策。
4、结论
随着社会的不断发展,针灸医学在维护人类健康和防病治病方面的重要性越来越受到国际社会的普遍关注和重视。将数据挖掘技术应用于针灸临床治疗方案决策研究中,将原始的不规范的数据整理成合乎计算机要求的规范数据进行存储和管理;选用目前在这个领域极少人使用的Weka平台进行编程;找出适用于针灸临床治疗方案决策研究的最好方法,用以指导针灸临床医生的临床治疗方案决策,使得针灸疗效取决于针灸师个人的因素逐步减少,在医疗信息化快速发展的今天,具有极高的现实意义,能推动针灸治疗水平的提高,能产生较好的经济和社会效益。
基金项目:四川省教育厅人文社科基金(12SB025);成都中医药大学自然科学基金(ZRYB201147)
参考文献:
[1] Han Jia—wei,Pei J,Yin Y.Mining frequent patterns without eandi—date generation[J].
Data Mining and Knowledge Discovery,2004(8):53-87.
[2]肖光磊,陆建峰等.正相关关联规则及其在中医药中的应用[J].计算机工程与应用,2010(46):227—230。
[3]梁繁荣,任玉兰.针灸数据挖掘与临床决策[M].巴蜀书社,2009.5
[4]任玉兰,高燕等.数据仓库在针灸临床循证决策分析中的应用研究[J].医学与哲学,2009.11
[5]陈慧萍,林莉莉等.WEKA数据挖掘平台及其二次开发[J].计算机工程与应用,2008.44(19):76—79
关键词:数据挖掘 关联规则 针灸疗法 Weka
Data mining application in the acupuncture clinical treatment program decision-making
HU Lvhui1,PANG Lang2,REN Yulan1
(1,Chengdu University of TCM, 2,Sichuan Normal University Chengdu College, Chengdu, China)
Abstract: In order to improve the level of medical acupuncture clinicians, and promote the development of acupuncture in clinical practice, the proposed data mining technology is applied to acupuncture clinical program decisions. Combining acupuncture subject characteristics and clinical diagnosis and treatment of the law, the use of data mining methods for data analysis comparing old acupuncture prescription, get the information of the results of the beneficial clinical program decisions.
Key words: data mining;association rule;l Acupuncture therapy;Weka
1、引言
针灸学作为中医学科体系中最具特色和优势的学科,以其独特的治疗方法和卓越的临床疗效得到了国内外广泛关注和高度重视。但大多针灸研究仍停留在疗效的确认上,面临着诸多问题,比如:如何进一步提高针灸临床疗效、扩大应用范围以及科学评价;临床上,由腧穴、施术方法和治疗时间组成的针灸处方是实现针灸疗效的重要条件,但在针灸临床治疗决策中,如何选取最优化的针灸处方是针灸医生面临的一大难题;并且随着循证医学的发展,循证医学强调遵循最佳证据指导临床决策,而针灸学临床证据应包括古代研究证据、名老中医经验证据和现代研究证据,如何实现信息化显得更加重要;面对跨越几千年的文献资料,如何快速、有效的挖掘有价值的信息,获取最佳证据以供临床治疗方案决策所用等。本文将数据挖掘技术应用于针灸临床治疗方案决策中,借鉴循证医学的理念和方法整理、加工、更新以及评价古今针灸治疗疾病的临床证据,其研究结果为针灸临床医生决策提供技术支持,有助于针灸临床医生提高医疗水平,促进针灸临床实践的发展。
2、数据挖掘方法及WEKA平台介绍
针对上述问题,计算机领域新兴发展起来的一门学科数据挖掘给我们提供了很好的解决方法。数据挖掘(data mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。从1989年被提出来后,迅速成为研究的热点,在众多的研究领域进行了广泛的应用。在中医药领域,数据挖掘技术已应用于中医药数据库的建立、方剂配伍规律的研究、名老中医经验总结、中医药数据规范处理,以及临床诊断、疗效评价、处方分析、图像识别等研究。
数据挖掘与传统分析方法的区别:数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识.数据挖掘所得到的信息应具有先未知、有效和可实用三个特征。数据挖掘方法主要有关联规则与关联分析、聚类分析、遗传算法、人工神经网络、决策树等。
WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一个运行于Java平台的开源系统。作为一个公开的数据挖掘工作平台,该软件集成了大量能够承担数据挖掘中的机器学习算法。Weka中包含了很多工具,包括数据预处理分类,回归,聚类,关联规则和可视化工具,还可以用来开发新的机器学习算法。Weka主要提供了数据挖掘的框架结构,并给出了一系列的数据挖掘算法,在这些数据挖掘算法生成模型时,用户可以自定义算法的各个相关参数,并且可以实现对测试集的验证, 和对算法的比较。Weka提供了可编程的接口,使我们可以通过拓展算法来实现新的功能,同时Weka也允许我们通过调用它的公用包,在自己的项目中利用包中的算法实现相应的功能。针对针灸数据的特点选用此平台能更好的发挥其强大的功能,为针灸临床决策提供技术支持,使得针灸疗效取决于针灸师个人的因素逐步减少,在针灸临床治疗方案中能实现科学、合理、高效的决策。
3、基于数据挖掘的针灸临床治疗决策研究的思路与方法
研究思路如图
图1 针灸数据挖掘思路
3.1 WEKA平台的选型
Weka主要提供了数据挖掘的框架结构,并给出了一系列的数据挖掘算法,是目前为止最好的数据挖掘工具之一。
3.2 数据准备与处理
数据准备方案:对于古代文献数据参照了《中国针灸文献提要》、《中国医籍大辞典》《中国针灸荟萃·现存针灸医籍卷》等书籍,选取影响范围较大、传播范围广的著作;对于现代文献数据采用计算机检索和手工检索,遵循针灸学科特点整理成计算机能够处理的格式。 数据录入和处理:根据数据库规范将古代每条数据分为朝代、出处、原始病名、症状描述、针灸治法等数据项,现代数据分为篇名、作者、病名、取穴等数据项。文献录入要保证忠实原始文献并进行规范,对难以规范需要特殊处理的内容填入“备注”项。
数据转换:Weka软件的数据存储格式是ARFF文件。这是一种ASCII文本文件,其数据类型有数值型(numeric)、字符串型(nomina1)、分类型(string)、时间型(date)以及关系型(relationa1)。而在前期我们进行数据录入是在EXCEL中完成,在EXCEL中将数据保存为.CSV格式文件。WEKA软件能够支持.CSV格式的数据,但兼容效果最好的是其自有的ARFF格式,因而需要将CSV格式转为ARFF格式。可使用ARFFVIEWER工具打开之前建立的CSV格式,将文件另存为ARFF格式即可。
3.3 基于数据挖掘的针灸临床决策分析的模型建立
基于Weka平台的数据挖掘:挖掘工具采用Weka3.5开放源代码平台,以贝尔面瘫病例数据为例,用神经网络方法,遗传算法,决策树方法等进行比较,得出较好的挖掘效果的数据挖掘方法,选用此方法设计出针对所有疾病都适用的针灸临床治疗方案决策系统。
WEKA环境下,在Explorer模块的关联规(Associate)标签下可以实现对数据集的关联分析操作,这里提供了Apriori、FiheredAssociator、GeneralizedSequentialPatterns、PredietiveApriori、Tertius等多种关联分析算法。本文在对比实验的基础上,选择Apriori算法对针灸临床数据集进行关联分析。
3.4 结果分析,展现新知识与规律
在WEKA 3.5环境下,用数据挖掘方法得出挖掘结果并结全针灸专业知识,对针灸临床治疗的腧穴配伍规律进行分析,分析出治疗某种疾病哪些穴位配伍使用最多,他们的支持度和置信度都达到最高。在此基础上进行治疗方案决策的综合分析,从而指导医生的临床治疗方案决策。
4、结论
随着社会的不断发展,针灸医学在维护人类健康和防病治病方面的重要性越来越受到国际社会的普遍关注和重视。将数据挖掘技术应用于针灸临床治疗方案决策研究中,将原始的不规范的数据整理成合乎计算机要求的规范数据进行存储和管理;选用目前在这个领域极少人使用的Weka平台进行编程;找出适用于针灸临床治疗方案决策研究的最好方法,用以指导针灸临床医生的临床治疗方案决策,使得针灸疗效取决于针灸师个人的因素逐步减少,在医疗信息化快速发展的今天,具有极高的现实意义,能推动针灸治疗水平的提高,能产生较好的经济和社会效益。
基金项目:四川省教育厅人文社科基金(12SB025);成都中医药大学自然科学基金(ZRYB201147)
参考文献:
[1] Han Jia—wei,Pei J,Yin Y.Mining frequent patterns without eandi—date generation[J].
Data Mining and Knowledge Discovery,2004(8):53-87.
[2]肖光磊,陆建峰等.正相关关联规则及其在中医药中的应用[J].计算机工程与应用,2010(46):227—230。
[3]梁繁荣,任玉兰.针灸数据挖掘与临床决策[M].巴蜀书社,2009.5
[4]任玉兰,高燕等.数据仓库在针灸临床循证决策分析中的应用研究[J].医学与哲学,2009.11
[5]陈慧萍,林莉莉等.WEKA数据挖掘平台及其二次开发[J].计算机工程与应用,2008.44(19):76—79