论文部分内容阅读
摘要:目的 采用文献计量方法分析我国中医药数据挖掘研究现状,为更好地利用数据挖掘技术提供参考。方法 检索历年中医药数据挖掘文献,经人工拆分整理后,从年度变化、研究类型、研究领域、数据挖掘方法和软件等方面进行分析。结果 共得到中医药数据挖掘相关文献494篇,文献量逐年增加;文献类型中应用研究类文献占59.1%;研究领域中证候研究与方剂研究文献分别占29.39%和26.22%;数据挖掘方法采用关联规则、频数分析、聚类分析和人工神经网络的文献占76.36%;数据挖掘软件使用商业化数据挖掘软件的文献占61.05%。结论 数据挖掘技术适合处理中医药数据,但目前数据挖掘技术还未能改变中医药数据难以处理的大格局,只有充分利用并发展数据挖掘技术,才能将中医药数据处理能力提高到新水平。
关键词:中医药;数据挖掘;文献计量方法
DOI:10.3969/j.issn.1005-5304.2012.10.009
中图分类号:R2-05 文献标识码:A 文章编号:1005-5304(2012)10-0021-03
数据挖掘是一种以现代计算机和数据库技术为依托,从大量数据中抽取有效的、新颖的、潜在有用的以及最终可被理解知识的信息处理技术[1]。数据挖掘技术自20世纪末诞生以来在各行业得到广泛应用,其在中医药数据处理中同样展现出广阔的前景和旺盛的生命力。笔者拟通过整理分析历年中医药数据挖掘文献,以从研究类型、研究领域、数据挖掘方法和软件等方面反映我国中医药数据挖掘研究的现状。
1 资料与方法
1.1 数据来源
检索中国生物医学文献数据库(SinoMed)、中文生物医学期刊文献数据库(CMCC)、中国期刊全文数据库(CNKI)、中文科技期刊数据库(VIP)等数据库的题录及全文。
1.2 检索方法
1.2.1 检索词 经预检索,选择了与数据挖掘相关的自由词“数据挖掘”、“数据分析”、“算法”、“文本挖掘”和“知识发现”等,另外选择了与中医药相关的自由词“中医”、“中药”、“中草药”、“针灸”、“方剂”、“复方”、“配伍”、“性味”、“辨证”、“证候”、“医案”、“病案”等。
1.2.2 组合检索 采用布尔逻辑算符“AND”、“OR”和“NOT”,根据检索需要和各数据库不同的检索方式构造检索式。如对“数据挖掘”、“数据分析”和“算法”等使用OR运算,可检出与数据挖掘相关的文献。
1.2.3 检索方式 因不同数据库检索方式的差异,检索中无法使用统一的检索式,一般根据各数据库要求选择中文题名、摘要、关键词等字段,通过上述检索词的组合构造检索式进行检索。
1.2.4 检索与统计 检索结果为文献题录及全文,部分检出结果直接记录结果数值以供数据分析,全部题录数据经筛选后获取全文,全文经人工整理拆分并导入数据库进行分类索引,最后统计出数值。检索完成时间为2012年2月21日,结果数据以当日上述数据库收录的数据为准。
2 结果
2.1 一般性结果
共得到中医药数据挖掘相关文献494篇,其中456篇发表在医学类期刊(主要是中医类刊物),38篇发表在理工类期刊(主要是计算机类刊物)。上述结果中,较早发表的文献有陈氏[2] 的“神经元网络模型及其在中医诊断方面的应用”(1991年),较早将数据挖掘技术应用于中药质量评价的文献有蔡氏[3]的“运用人工神经网络法评价中药威灵仙的质量”(1993年),较早使用数据挖掘进行脉象研究的文献有胡氏等[4]的“脉象人工神经网络分析系统模型”(1997年),较早在中医药领域使用“数据挖掘”一词的文献有乔氏等[5] 的“中药(复方)KDD研究开发的意义”(1998年),较早将数据挖掘技术应用于中医证型研究的文献有边氏等的[6]“基于MFB-P算法的中医证型的神经网络模型初探”(2001年),较早将数据挖掘应用于方剂配伍研究的文献有姚氏等[7]的“消渴病复方配伍规律的关联规则分析”(2002年)和蒋氏等[8] 的“中医脾胃方配伍规律的数据挖掘试验”(2003年)。
2.2 文献量统计
中医药数据挖掘文献最早可追溯到1991年,但2004年以前的文献量较少,之后逐年增加,见图1。
图1 中医药数据挖掘文献年度分布
2.3 文献类型
本文将中医药数据挖掘文献分为4类:①应用研究,指将数据挖掘技术应用在某一特定领域的研究报道;②方法学研究,指对中医药数据挖掘技术的研究,含算法、软件及平台等研究文献;③一般性论述,指未明确提及方法和结果的一般性介绍文献,如探讨、争鸣、思路等;④综述,对中医药数据挖掘前期文献的总结和归纳。经统计,应用研究类文献292篇(59.1%),方法学研究类文献55篇(11.1%),一般性论述文献68篇(13.8%),综述文献79篇(16%)。
历年文献类型的变化情况见表1,各类文献数随年度总体增长,尤以应用研究类增长最为显著。
2.4 研究领域
数据挖掘技术已经应用在中医药研究的各大领域,本文对检索结果中的应用研究类和方法学研究类文献所属的研究领域进行了归纳,分为以下几个方面:方剂(含配伍、药对、方剂分类、用药规律等)、证候(含辨证、证候、证治等)、名老中医经验、病案、中药药性(中药四气五味、归经、功效等)、中药现代研究(中药及组分的加工、鉴别、质量评价、药理、药动等)、诊断(含舌、脉四诊及诊断)、针灸腧穴、其他(临床疗效评价、不良反应、医院信息系统等)。各研究领域文献数量分布见表2。
2.5 数据挖掘方法
中医药研究中常用的数据挖掘方法有关联规则、频数分析、聚类分析、人工神经网络、因子分析等,另有部分文献使用了遗传算法、文本分类算法、无尺度网络、小波变换、隐结构模型、主成分分析、时间序列分析和孤立点分析等。不同研究领域使用的数据挖掘方法见表3。主要数据挖掘方法的文献数见表4。 2.6 数据挖掘软件
中医药数据挖掘研究中多数使用通用型数据挖掘工具软件,如SPSS(Clementine)、SAS(Enterprise Miner)、Matlab、RapidMiner、Weka等,见图2。另外,2007年以后逐渐出现了开发或使用专业性较强的中医药数据挖掘工具的文献,如中药复方配合规律的数据多维分析系统软件、处方智能分析系统CPIAS、孔明灯隐结构分析软件、针灸处方分析软件、中医处方辨证论治特征分析及数据挖掘软件、中医临床复杂网络分析系统等[9-14]。
图2 中医药数据挖掘软件使用情况
3 讨论
从历年中医药数据挖掘文献的发表情况来看,早在数据挖掘技术诞生之初(1991年),人们便开始探索其在中医诊断领域的应用,此后文献量呈总体快速增长趋势,显示了中医药数据挖掘研究及应用发展成熟的过程。早期文献类型相对集中在应用研究和一般介绍性文献,是数据挖掘技术向中医药领域导入及尝试阶段的体现,此后随着研究总量的增长,综述类文献比例相对增加。应用研究始终是中医药数据挖掘研究的重点和最有活力部分,而方法学研究是数据挖掘技术与中医药研究深入结合的产物,因此应用研究类文献比例始终占优,且方法学研究类文献出现较晚恰好印证了上述观点。
证候研究与方剂研究是数据挖掘应用的热点,两者文献合计在诸研究领域中所占比例达55.62%。从历年研究领域分布情况看,中药现代研究和诊断研究出现较早,但后来稍显沉寂,而名老中医经验研究、中药药性研究和针灸腧穴研究类文献数量却在近年有明显增长,从文献角度反映了年度研究热点的转移。数据处理方法对研究结果影响很大,中医药数据挖掘研究采用了目前几乎所有的常用数据挖掘方法,其中最常用的有关联规则、频数分析、聚类分析和人工神经网络,四者合计所占比例达76.36%,尤其是关联规则、频数分析和聚类分析在中医药各领域研究中普遍应用。但不同研究领域使用的数据挖掘方法也稍有差异,如证候研究较多使用因子分析,中药现代研究较多使用人工神经网络等。数据挖掘软件是进行数据挖掘操作的必需工具,从文献统计数据看,中医药数据挖掘研究多数使用商业化的数据挖掘套件,如SPSS(Clementine)和SAS(Enterprise Miner),两者的文献占比达61.05%;其次是使用商业数学软件Matlab(12.63%)和开源数据挖掘软件(如Rapid Miner和Weka,11.56%)。专业的中医药数据挖掘工具软件在近年相继出现,它们为中医药数据挖掘提供了高效而便利的平台。
总之,我们认为数据挖掘技术在处理模糊、不完整及非线性特征的中医药数据时较传统数理方法有着明显优势,数据挖掘在中医药各领域的探索积极有效;目前数据挖掘技术发展水平和与中医药结合的深度还未能改变中医药数据难处理的大格局,庞大的临床、科研和历史数据依然是制约中医药快速发展的瓶颈。只有在把握中医特有理论背景和思维规律的前提下,充分利用并发展数据挖掘技术,才能在保证研究方向合理的同时,将中医药数据处理能力提高到新的水平。
参考文献:
[1] Jiawei Han, Micheline Kanber. Data mining:Concepts and techniques[M]. San Francisco:Morgan Kaufmann Publishers Inc, 2001.
[2] 陈五零.神经元网络模型及其在中医诊断方面的应用[J].中华医学杂志,1991,71(2):111-113.
[3] 蔡煜东.运用人工神经网络法评价中药威灵仙的质量[J].中国中药杂志,1993,18(9):518-520.
[4] 胡家宁,阎述池,王秀章,等.脉象人工神经网络分析系统模型[J].中国医科大学学报,1997,26(2):134-137.
[5] 乔延江,李澎涛,苏钢强,等.中药(复方)KDD研究开发的意义[J].北京中医药大学学报,1998,21(3):15-17.
[6] 边沁,何裕民,施小成,等.基于MFB-P算法的中医证型的神经网络模型初探[J].中国中医基础医学杂志,2001,7(5):66-69.
[7] 姚美村,艾路,袁月梅,等.消渴病复方配伍规律的关联规则分析[J].北京中医药大学学报,2002,25(6):48-50.
[8] 蒋永光,李力,李认书,等.中医脾胃方配伍规律的数据挖掘试验[J].世界科学技术-中医药现代化,2003,5(3):33-37.
[9] 徐姗姗,翟慕东,傅元谋,等.从数据挖掘探析桂枝汤临床运用规律[J].河南中医,2007,27(7):1-5.
[10] 舒劲,田旭东,张参军,等.王自立主任医师“运脾”系列方剂数据分析初探[J].甘肃中医,2008,21(6):12-13.
[11] 徐雯洁,王天芳,王智瑜,等.基于隐结构法的慢性阻塞性肺疾病稳定期常见证候要素的研究[J].北京中医药大学学报,2011,34(2):82-86.
[12] 赵凌,任玉兰,余毓如,等.基于数据挖掘技术分析古代针灸治疗偏头痛的经穴特点[J].中国中医基础医学杂志,2008,14(10):774-776.
[13] 邓宏勇,施毅,许吉,等.中医药关联分析数据挖掘软件开发与应用[J].时珍国医国药,2011,22(8):2023-2024.
[14] 张润顺,周雪忠,姚乃礼,等.基于复杂网络分析的肝脾不调证的配伍特点研究[J].世界科学技术-中医药现代化,2010,12(6):882-887.
(收稿日期:2012-04-23,编辑:华强)
关键词:中医药;数据挖掘;文献计量方法
DOI:10.3969/j.issn.1005-5304.2012.10.009
中图分类号:R2-05 文献标识码:A 文章编号:1005-5304(2012)10-0021-03
数据挖掘是一种以现代计算机和数据库技术为依托,从大量数据中抽取有效的、新颖的、潜在有用的以及最终可被理解知识的信息处理技术[1]。数据挖掘技术自20世纪末诞生以来在各行业得到广泛应用,其在中医药数据处理中同样展现出广阔的前景和旺盛的生命力。笔者拟通过整理分析历年中医药数据挖掘文献,以从研究类型、研究领域、数据挖掘方法和软件等方面反映我国中医药数据挖掘研究的现状。
1 资料与方法
1.1 数据来源
检索中国生物医学文献数据库(SinoMed)、中文生物医学期刊文献数据库(CMCC)、中国期刊全文数据库(CNKI)、中文科技期刊数据库(VIP)等数据库的题录及全文。
1.2 检索方法
1.2.1 检索词 经预检索,选择了与数据挖掘相关的自由词“数据挖掘”、“数据分析”、“算法”、“文本挖掘”和“知识发现”等,另外选择了与中医药相关的自由词“中医”、“中药”、“中草药”、“针灸”、“方剂”、“复方”、“配伍”、“性味”、“辨证”、“证候”、“医案”、“病案”等。
1.2.2 组合检索 采用布尔逻辑算符“AND”、“OR”和“NOT”,根据检索需要和各数据库不同的检索方式构造检索式。如对“数据挖掘”、“数据分析”和“算法”等使用OR运算,可检出与数据挖掘相关的文献。
1.2.3 检索方式 因不同数据库检索方式的差异,检索中无法使用统一的检索式,一般根据各数据库要求选择中文题名、摘要、关键词等字段,通过上述检索词的组合构造检索式进行检索。
1.2.4 检索与统计 检索结果为文献题录及全文,部分检出结果直接记录结果数值以供数据分析,全部题录数据经筛选后获取全文,全文经人工整理拆分并导入数据库进行分类索引,最后统计出数值。检索完成时间为2012年2月21日,结果数据以当日上述数据库收录的数据为准。
2 结果
2.1 一般性结果
共得到中医药数据挖掘相关文献494篇,其中456篇发表在医学类期刊(主要是中医类刊物),38篇发表在理工类期刊(主要是计算机类刊物)。上述结果中,较早发表的文献有陈氏[2] 的“神经元网络模型及其在中医诊断方面的应用”(1991年),较早将数据挖掘技术应用于中药质量评价的文献有蔡氏[3]的“运用人工神经网络法评价中药威灵仙的质量”(1993年),较早使用数据挖掘进行脉象研究的文献有胡氏等[4]的“脉象人工神经网络分析系统模型”(1997年),较早在中医药领域使用“数据挖掘”一词的文献有乔氏等[5] 的“中药(复方)KDD研究开发的意义”(1998年),较早将数据挖掘技术应用于中医证型研究的文献有边氏等的[6]“基于MFB-P算法的中医证型的神经网络模型初探”(2001年),较早将数据挖掘应用于方剂配伍研究的文献有姚氏等[7]的“消渴病复方配伍规律的关联规则分析”(2002年)和蒋氏等[8] 的“中医脾胃方配伍规律的数据挖掘试验”(2003年)。
2.2 文献量统计
中医药数据挖掘文献最早可追溯到1991年,但2004年以前的文献量较少,之后逐年增加,见图1。
图1 中医药数据挖掘文献年度分布
2.3 文献类型
本文将中医药数据挖掘文献分为4类:①应用研究,指将数据挖掘技术应用在某一特定领域的研究报道;②方法学研究,指对中医药数据挖掘技术的研究,含算法、软件及平台等研究文献;③一般性论述,指未明确提及方法和结果的一般性介绍文献,如探讨、争鸣、思路等;④综述,对中医药数据挖掘前期文献的总结和归纳。经统计,应用研究类文献292篇(59.1%),方法学研究类文献55篇(11.1%),一般性论述文献68篇(13.8%),综述文献79篇(16%)。
历年文献类型的变化情况见表1,各类文献数随年度总体增长,尤以应用研究类增长最为显著。
2.4 研究领域
数据挖掘技术已经应用在中医药研究的各大领域,本文对检索结果中的应用研究类和方法学研究类文献所属的研究领域进行了归纳,分为以下几个方面:方剂(含配伍、药对、方剂分类、用药规律等)、证候(含辨证、证候、证治等)、名老中医经验、病案、中药药性(中药四气五味、归经、功效等)、中药现代研究(中药及组分的加工、鉴别、质量评价、药理、药动等)、诊断(含舌、脉四诊及诊断)、针灸腧穴、其他(临床疗效评价、不良反应、医院信息系统等)。各研究领域文献数量分布见表2。
2.5 数据挖掘方法
中医药研究中常用的数据挖掘方法有关联规则、频数分析、聚类分析、人工神经网络、因子分析等,另有部分文献使用了遗传算法、文本分类算法、无尺度网络、小波变换、隐结构模型、主成分分析、时间序列分析和孤立点分析等。不同研究领域使用的数据挖掘方法见表3。主要数据挖掘方法的文献数见表4。 2.6 数据挖掘软件
中医药数据挖掘研究中多数使用通用型数据挖掘工具软件,如SPSS(Clementine)、SAS(Enterprise Miner)、Matlab、RapidMiner、Weka等,见图2。另外,2007年以后逐渐出现了开发或使用专业性较强的中医药数据挖掘工具的文献,如中药复方配合规律的数据多维分析系统软件、处方智能分析系统CPIAS、孔明灯隐结构分析软件、针灸处方分析软件、中医处方辨证论治特征分析及数据挖掘软件、中医临床复杂网络分析系统等[9-14]。
图2 中医药数据挖掘软件使用情况
3 讨论
从历年中医药数据挖掘文献的发表情况来看,早在数据挖掘技术诞生之初(1991年),人们便开始探索其在中医诊断领域的应用,此后文献量呈总体快速增长趋势,显示了中医药数据挖掘研究及应用发展成熟的过程。早期文献类型相对集中在应用研究和一般介绍性文献,是数据挖掘技术向中医药领域导入及尝试阶段的体现,此后随着研究总量的增长,综述类文献比例相对增加。应用研究始终是中医药数据挖掘研究的重点和最有活力部分,而方法学研究是数据挖掘技术与中医药研究深入结合的产物,因此应用研究类文献比例始终占优,且方法学研究类文献出现较晚恰好印证了上述观点。
证候研究与方剂研究是数据挖掘应用的热点,两者文献合计在诸研究领域中所占比例达55.62%。从历年研究领域分布情况看,中药现代研究和诊断研究出现较早,但后来稍显沉寂,而名老中医经验研究、中药药性研究和针灸腧穴研究类文献数量却在近年有明显增长,从文献角度反映了年度研究热点的转移。数据处理方法对研究结果影响很大,中医药数据挖掘研究采用了目前几乎所有的常用数据挖掘方法,其中最常用的有关联规则、频数分析、聚类分析和人工神经网络,四者合计所占比例达76.36%,尤其是关联规则、频数分析和聚类分析在中医药各领域研究中普遍应用。但不同研究领域使用的数据挖掘方法也稍有差异,如证候研究较多使用因子分析,中药现代研究较多使用人工神经网络等。数据挖掘软件是进行数据挖掘操作的必需工具,从文献统计数据看,中医药数据挖掘研究多数使用商业化的数据挖掘套件,如SPSS(Clementine)和SAS(Enterprise Miner),两者的文献占比达61.05%;其次是使用商业数学软件Matlab(12.63%)和开源数据挖掘软件(如Rapid Miner和Weka,11.56%)。专业的中医药数据挖掘工具软件在近年相继出现,它们为中医药数据挖掘提供了高效而便利的平台。
总之,我们认为数据挖掘技术在处理模糊、不完整及非线性特征的中医药数据时较传统数理方法有着明显优势,数据挖掘在中医药各领域的探索积极有效;目前数据挖掘技术发展水平和与中医药结合的深度还未能改变中医药数据难处理的大格局,庞大的临床、科研和历史数据依然是制约中医药快速发展的瓶颈。只有在把握中医特有理论背景和思维规律的前提下,充分利用并发展数据挖掘技术,才能在保证研究方向合理的同时,将中医药数据处理能力提高到新的水平。
参考文献:
[1] Jiawei Han, Micheline Kanber. Data mining:Concepts and techniques[M]. San Francisco:Morgan Kaufmann Publishers Inc, 2001.
[2] 陈五零.神经元网络模型及其在中医诊断方面的应用[J].中华医学杂志,1991,71(2):111-113.
[3] 蔡煜东.运用人工神经网络法评价中药威灵仙的质量[J].中国中药杂志,1993,18(9):518-520.
[4] 胡家宁,阎述池,王秀章,等.脉象人工神经网络分析系统模型[J].中国医科大学学报,1997,26(2):134-137.
[5] 乔延江,李澎涛,苏钢强,等.中药(复方)KDD研究开发的意义[J].北京中医药大学学报,1998,21(3):15-17.
[6] 边沁,何裕民,施小成,等.基于MFB-P算法的中医证型的神经网络模型初探[J].中国中医基础医学杂志,2001,7(5):66-69.
[7] 姚美村,艾路,袁月梅,等.消渴病复方配伍规律的关联规则分析[J].北京中医药大学学报,2002,25(6):48-50.
[8] 蒋永光,李力,李认书,等.中医脾胃方配伍规律的数据挖掘试验[J].世界科学技术-中医药现代化,2003,5(3):33-37.
[9] 徐姗姗,翟慕东,傅元谋,等.从数据挖掘探析桂枝汤临床运用规律[J].河南中医,2007,27(7):1-5.
[10] 舒劲,田旭东,张参军,等.王自立主任医师“运脾”系列方剂数据分析初探[J].甘肃中医,2008,21(6):12-13.
[11] 徐雯洁,王天芳,王智瑜,等.基于隐结构法的慢性阻塞性肺疾病稳定期常见证候要素的研究[J].北京中医药大学学报,2011,34(2):82-86.
[12] 赵凌,任玉兰,余毓如,等.基于数据挖掘技术分析古代针灸治疗偏头痛的经穴特点[J].中国中医基础医学杂志,2008,14(10):774-776.
[13] 邓宏勇,施毅,许吉,等.中医药关联分析数据挖掘软件开发与应用[J].时珍国医国药,2011,22(8):2023-2024.
[14] 张润顺,周雪忠,姚乃礼,等.基于复杂网络分析的肝脾不调证的配伍特点研究[J].世界科学技术-中医药现代化,2010,12(6):882-887.
(收稿日期:2012-04-23,编辑:华强)