中医药数据挖掘研究现状分析

来源 :中国中医药信息 | 被引量 : 0次 | 上传用户:quake_bj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:目的 采用文献计量方法分析我国中医药数据挖掘研究现状,为更好地利用数据挖掘技术提供参考。方法 检索历年中医药数据挖掘文献,经人工拆分整理后,从年度变化、研究类型、研究领域、数据挖掘方法和软件等方面进行分析。结果 共得到中医药数据挖掘相关文献494篇,文献量逐年增加;文献类型中应用研究类文献占59.1%;研究领域中证候研究与方剂研究文献分别占29.39%和26.22%;数据挖掘方法采用关联规则、频数分析、聚类分析和人工神经网络的文献占76.36%;数据挖掘软件使用商业化数据挖掘软件的文献占61.05%。结论 数据挖掘技术适合处理中医药数据,但目前数据挖掘技术还未能改变中医药数据难以处理的大格局,只有充分利用并发展数据挖掘技术,才能将中医药数据处理能力提高到新水平。
  关键词:中医药;数据挖掘;文献计量方法
  DOI:10.3969/j.issn.1005-5304.2012.10.009
  中图分类号:R2-05 文献标识码:A 文章编号:1005-5304(2012)10-0021-03
  数据挖掘是一种以现代计算机和数据库技术为依托,从大量数据中抽取有效的、新颖的、潜在有用的以及最终可被理解知识的信息处理技术[1]。数据挖掘技术自20世纪末诞生以来在各行业得到广泛应用,其在中医药数据处理中同样展现出广阔的前景和旺盛的生命力。笔者拟通过整理分析历年中医药数据挖掘文献,以从研究类型、研究领域、数据挖掘方法和软件等方面反映我国中医药数据挖掘研究的现状。
  1 资料与方法
  1.1 数据来源
  检索中国生物医学文献数据库(SinoMed)、中文生物医学期刊文献数据库(CMCC)、中国期刊全文数据库(CNKI)、中文科技期刊数据库(VIP)等数据库的题录及全文。
  1.2 检索方法
  1.2.1 检索词 经预检索,选择了与数据挖掘相关的自由词“数据挖掘”、“数据分析”、“算法”、“文本挖掘”和“知识发现”等,另外选择了与中医药相关的自由词“中医”、“中药”、“中草药”、“针灸”、“方剂”、“复方”、“配伍”、“性味”、“辨证”、“证候”、“医案”、“病案”等。
  1.2.2 组合检索 采用布尔逻辑算符“AND”、“OR”和“NOT”,根据检索需要和各数据库不同的检索方式构造检索式。如对“数据挖掘”、“数据分析”和“算法”等使用OR运算,可检出与数据挖掘相关的文献。
  1.2.3 检索方式 因不同数据库检索方式的差异,检索中无法使用统一的检索式,一般根据各数据库要求选择中文题名、摘要、关键词等字段,通过上述检索词的组合构造检索式进行检索。
  1.2.4 检索与统计 检索结果为文献题录及全文,部分检出结果直接记录结果数值以供数据分析,全部题录数据经筛选后获取全文,全文经人工整理拆分并导入数据库进行分类索引,最后统计出数值。检索完成时间为2012年2月21日,结果数据以当日上述数据库收录的数据为准。
  2 结果
  2.1 一般性结果
  共得到中医药数据挖掘相关文献494篇,其中456篇发表在医学类期刊(主要是中医类刊物),38篇发表在理工类期刊(主要是计算机类刊物)。上述结果中,较早发表的文献有陈氏[2] 的“神经元网络模型及其在中医诊断方面的应用”(1991年),较早将数据挖掘技术应用于中药质量评价的文献有蔡氏[3]的“运用人工神经网络法评价中药威灵仙的质量”(1993年),较早使用数据挖掘进行脉象研究的文献有胡氏等[4]的“脉象人工神经网络分析系统模型”(1997年),较早在中医药领域使用“数据挖掘”一词的文献有乔氏等[5] 的“中药(复方)KDD研究开发的意义”(1998年),较早将数据挖掘技术应用于中医证型研究的文献有边氏等的[6]“基于MFB-P算法的中医证型的神经网络模型初探”(2001年),较早将数据挖掘应用于方剂配伍研究的文献有姚氏等[7]的“消渴病复方配伍规律的关联规则分析”(2002年)和蒋氏等[8] 的“中医脾胃方配伍规律的数据挖掘试验”(2003年)。
  2.2 文献量统计
  中医药数据挖掘文献最早可追溯到1991年,但2004年以前的文献量较少,之后逐年增加,见图1。
  图1 中医药数据挖掘文献年度分布
  2.3 文献类型
  本文将中医药数据挖掘文献分为4类:①应用研究,指将数据挖掘技术应用在某一特定领域的研究报道;②方法学研究,指对中医药数据挖掘技术的研究,含算法、软件及平台等研究文献;③一般性论述,指未明确提及方法和结果的一般性介绍文献,如探讨、争鸣、思路等;④综述,对中医药数据挖掘前期文献的总结和归纳。经统计,应用研究类文献292篇(59.1%),方法学研究类文献55篇(11.1%),一般性论述文献68篇(13.8%),综述文献79篇(16%)。
  历年文献类型的变化情况见表1,各类文献数随年度总体增长,尤以应用研究类增长最为显著。
  2.4 研究领域
  数据挖掘技术已经应用在中医药研究的各大领域,本文对检索结果中的应用研究类和方法学研究类文献所属的研究领域进行了归纳,分为以下几个方面:方剂(含配伍、药对、方剂分类、用药规律等)、证候(含辨证、证候、证治等)、名老中医经验、病案、中药药性(中药四气五味、归经、功效等)、中药现代研究(中药及组分的加工、鉴别、质量评价、药理、药动等)、诊断(含舌、脉四诊及诊断)、针灸腧穴、其他(临床疗效评价、不良反应、医院信息系统等)。各研究领域文献数量分布见表2。
  2.5 数据挖掘方法
  中医药研究中常用的数据挖掘方法有关联规则、频数分析、聚类分析、人工神经网络、因子分析等,另有部分文献使用了遗传算法、文本分类算法、无尺度网络、小波变换、隐结构模型、主成分分析、时间序列分析和孤立点分析等。不同研究领域使用的数据挖掘方法见表3。主要数据挖掘方法的文献数见表4。   2.6 数据挖掘软件
  中医药数据挖掘研究中多数使用通用型数据挖掘工具软件,如SPSS(Clementine)、SAS(Enterprise Miner)、Matlab、RapidMiner、Weka等,见图2。另外,2007年以后逐渐出现了开发或使用专业性较强的中医药数据挖掘工具的文献,如中药复方配合规律的数据多维分析系统软件、处方智能分析系统CPIAS、孔明灯隐结构分析软件、针灸处方分析软件、中医处方辨证论治特征分析及数据挖掘软件、中医临床复杂网络分析系统等[9-14]。
  图2 中医药数据挖掘软件使用情况
  3 讨论
  从历年中医药数据挖掘文献的发表情况来看,早在数据挖掘技术诞生之初(1991年),人们便开始探索其在中医诊断领域的应用,此后文献量呈总体快速增长趋势,显示了中医药数据挖掘研究及应用发展成熟的过程。早期文献类型相对集中在应用研究和一般介绍性文献,是数据挖掘技术向中医药领域导入及尝试阶段的体现,此后随着研究总量的增长,综述类文献比例相对增加。应用研究始终是中医药数据挖掘研究的重点和最有活力部分,而方法学研究是数据挖掘技术与中医药研究深入结合的产物,因此应用研究类文献比例始终占优,且方法学研究类文献出现较晚恰好印证了上述观点。
  证候研究与方剂研究是数据挖掘应用的热点,两者文献合计在诸研究领域中所占比例达55.62%。从历年研究领域分布情况看,中药现代研究和诊断研究出现较早,但后来稍显沉寂,而名老中医经验研究、中药药性研究和针灸腧穴研究类文献数量却在近年有明显增长,从文献角度反映了年度研究热点的转移。数据处理方法对研究结果影响很大,中医药数据挖掘研究采用了目前几乎所有的常用数据挖掘方法,其中最常用的有关联规则、频数分析、聚类分析和人工神经网络,四者合计所占比例达76.36%,尤其是关联规则、频数分析和聚类分析在中医药各领域研究中普遍应用。但不同研究领域使用的数据挖掘方法也稍有差异,如证候研究较多使用因子分析,中药现代研究较多使用人工神经网络等。数据挖掘软件是进行数据挖掘操作的必需工具,从文献统计数据看,中医药数据挖掘研究多数使用商业化的数据挖掘套件,如SPSS(Clementine)和SAS(Enterprise Miner),两者的文献占比达61.05%;其次是使用商业数学软件Matlab(12.63%)和开源数据挖掘软件(如Rapid Miner和Weka,11.56%)。专业的中医药数据挖掘工具软件在近年相继出现,它们为中医药数据挖掘提供了高效而便利的平台。
  总之,我们认为数据挖掘技术在处理模糊、不完整及非线性特征的中医药数据时较传统数理方法有着明显优势,数据挖掘在中医药各领域的探索积极有效;目前数据挖掘技术发展水平和与中医药结合的深度还未能改变中医药数据难处理的大格局,庞大的临床、科研和历史数据依然是制约中医药快速发展的瓶颈。只有在把握中医特有理论背景和思维规律的前提下,充分利用并发展数据挖掘技术,才能在保证研究方向合理的同时,将中医药数据处理能力提高到新的水平。
  参考文献:
  [1] Jiawei Han, Micheline Kanber. Data mining:Concepts and techniques[M]. San Francisco:Morgan Kaufmann Publishers Inc, 2001.
  [2] 陈五零.神经元网络模型及其在中医诊断方面的应用[J].中华医学杂志,1991,71(2):111-113.
  [3] 蔡煜东.运用人工神经网络法评价中药威灵仙的质量[J].中国中药杂志,1993,18(9):518-520.
  [4] 胡家宁,阎述池,王秀章,等.脉象人工神经网络分析系统模型[J].中国医科大学学报,1997,26(2):134-137.
  [5] 乔延江,李澎涛,苏钢强,等.中药(复方)KDD研究开发的意义[J].北京中医药大学学报,1998,21(3):15-17.
  [6] 边沁,何裕民,施小成,等.基于MFB-P算法的中医证型的神经网络模型初探[J].中国中医基础医学杂志,2001,7(5):66-69.
  [7] 姚美村,艾路,袁月梅,等.消渴病复方配伍规律的关联规则分析[J].北京中医药大学学报,2002,25(6):48-50.
  [8] 蒋永光,李力,李认书,等.中医脾胃方配伍规律的数据挖掘试验[J].世界科学技术-中医药现代化,2003,5(3):33-37.
  [9] 徐姗姗,翟慕东,傅元谋,等.从数据挖掘探析桂枝汤临床运用规律[J].河南中医,2007,27(7):1-5.
  [10] 舒劲,田旭东,张参军,等.王自立主任医师“运脾”系列方剂数据分析初探[J].甘肃中医,2008,21(6):12-13.
  [11] 徐雯洁,王天芳,王智瑜,等.基于隐结构法的慢性阻塞性肺疾病稳定期常见证候要素的研究[J].北京中医药大学学报,2011,34(2):82-86.
  [12] 赵凌,任玉兰,余毓如,等.基于数据挖掘技术分析古代针灸治疗偏头痛的经穴特点[J].中国中医基础医学杂志,2008,14(10):774-776.
  [13] 邓宏勇,施毅,许吉,等.中医药关联分析数据挖掘软件开发与应用[J].时珍国医国药,2011,22(8):2023-2024.
  [14] 张润顺,周雪忠,姚乃礼,等.基于复杂网络分析的肝脾不调证的配伍特点研究[J].世界科学技术-中医药现代化,2010,12(6):882-887.
  (收稿日期:2012-04-23,编辑:华强)
其他文献
汽车生产厂区一角  这个春节,一场始料未及的新型冠状病毒肺炎疫情,打乱了人们对于鼠年的憧憬,不断滚动的疫情播报牵动着每个人的心。而对于本就处于市场调整期的中国汽车市场来说,新冠肺炎疫情无疑又为国内车市的未来走向增添了不安的阴云。有些人认为这次疫情将重创中国车市,有些人则认为这次新冠肺炎疫情结束后会像曾经的SARS疫情结束后一样,车市将迎来一波“报复性增长”行情。而真实情况究竟如何?笔者不能完全准确
期刊
摘要:目的 观察抗纤灵药物血清对骨髓来源的成纤维细胞转化生长因子-β(TGF-β)和Ⅰ型胶原(collagenⅠ)的抑制作用。方法 将抗纤灵方煎至含原药材3.2 g/mL,福辛普利配成含药0.33 mg/mL,给大鼠灌胃(正常组给予蒸馏水灌胃),制备抗纤灵血清、福辛普利血清和正常血清。用DMEM培养基稀释血清,将其分为正常血清组、福辛普利组、抗纤灵组、TGF-β1组、TGF-β1+福辛普利组和TG
期刊
新年伊始,在新型冠状病毒肺炎疫情蔓延的特殊时期,以大疆、极飞为主的无人机企业开始使用无人机开展疫情防控工作,无人机发挥着从消毒、宣传、巡逻、配送救援物资到疫情宣传、防控监测等各方面的作用,仅大疆农业服务平台上的“飞手”,就在全国执行了2.1亿平方米的防疫消杀任务。无人机成为抗击疫情的防控利器,在很大程度上避免了交叉感染,并且辐射范围更大,效率更高,多用途多应用场景的优势彰显着无人机产业巨大的未来前
期刊
庚子初春,突如其来的新型冠状病毒感染肺炎疫情牵动着全国亿万同胞的心。举国上下,众志成城,共抗疫情。  疫情就是命令,防控就是责任。习近平总书记强调,“把人民群众生命安全和身体健康放在第一位”“要广泛发动和依靠群眾,同心同德、众志成城,坚决打赢疫情防控的人民战争”。  为打赢这场疫情阻击战,全国各地积极行动,医务工作者冲锋陷阵,逆行而上。  疫情面前,白衣天使变身英勇战士,出现在最危险的地方,用生命
期刊
此心时欲归于是进步方超最上乘今存原地原物。说理联。“归于是”,就是要归于事物的本源,时时能抓住事物之本源,方可逐渐进步,进而达到最佳状态。此联用语虽平淡,说理却异常深刻,在稍显枯燥的说理联中,无疑是难得的佳品。积学储宝 积学储宝:努力学习,像储存珍宝一样地将知识累积,始能日有所进。南朝梁刘勰《文心雕龙·神思》:“积学以储宝,酌理以富才,研阅以穷照,驯致以绎辞。” 今存原地原物。境静心清 心清:心地
期刊
关键词:针灸学;实践教学;教学改革  中图分类号:R2-04 文献标识码:A 文章编号:1005-5304(2012)07-0101-01  《针灸学》是一门实践性很强的课程,也是本校中医学、针灸推拿、中医美容、中医骨伤和康复医疗技术等专业的必修课。根据高职高专教育以培养高等技术应用型人才的要求,以及学生职业发展的需要,近年来,本校加大了针灸学实践教学的力度,使学生的实际动手能力得到了显著提高。现
期刊
关键词:单纯舒张期高血压;中青年;中药;治疗性生活方式  DOI:10.3969/j.issn.1005-5304.2014.06.040  中图分类号:R259.441 文献标识码:A 文章编号:1005-5304(2014)06-0116-03  单纯舒张期高血压(isolated diastolic hypertension,IDH)是中青年常见的高血压亚型,多见于高血压较早期阶段。随着病程
期刊
云雾山中的千年古瑶寨 南岗村图1~图8依次为:黄家冲小学二年级 房金发、黄家冲小学三年级 房健萍、黄家冲小学三年级 房伟强、马头冲小学二年级 沈冬莲、马头冲小学二年级沈昆明、马头冲小学二年级 沈秋月、马头冲小学二年级 沈学强、马头冲小学二年级 盘秀梅  摄影家梁厚祥深深地扎进粤北地区连南瑶族自治县的大山里,与那片土地上生活的瑶族同胞结下不解之缘。十多年间,他利用业余时间上百次往返于自己居住的中山市
期刊
在那银色的冬天里  我们在长春相遇  漫步在飘雪的路上  结下了纯洁的友谊  雪地上的足迹  已被阳光擦去  你那亲切的笑脸  我永远不会忘记  ——《我们在长春相遇》长春莲花山冰雪大世界长春净月湖雾凇  雪场人头攒动,雾凇娇娆缤纷,冰雕雪雕五光十色,温泉美食热气腾腾……沉寂千万年的凛冽寒冬,在吉林长春已被时尚、欢快、火热的文旅创新产业彻底颠覆。  长春地处东北平原腹地,总面积20604平方公里,
期刊
歲末年初,一场疫情汹汹来袭。自疫情的消息传至山东,山东各级快速做出反应,踊跃投身“战疫”、共克时艰。齐鲁大地上,全面吹响了“增援集结号”。  中华崛起,民族复兴,既有岁月静好,也有负重前行。每当国家和民族有所需求,来自山东的“大爱”总是会及时出现,从未缺席。  2020年初,新型冠状病毒感染的肺炎疫情发生以来,周春卫女士心系武汉及各地人民和奋战在一线的医护人员,积极联动社会各界爱心人士为疫情防控需
期刊