论文部分内容阅读
目的:通过对国内数据挖掘方法在中药性效研究中应用的文献进行收集整理,采用循证方法对中药性效数据挖掘的文献进行统计分析,并将中药性效数据挖掘方法的比较结果直观化和客观化,以期为数据挖掘方法在中医药信息挖掘中的应用提供借鉴和启示。方法:电子检索CNKI(中国知网学术文献总库)、VIP(维普中文科技期刊全文数据库)、WanfangData(中国万方数据文献总库),检索时间范围为建库至2017年9月9日,检索词为主成分分析法、因子分析法、贝叶斯网络等52种数据挖掘方法的不同表述以及中药性效、中药药性、中药功效,检索语言限定为中文,将检索到的文献导入NoteExpress软件中建立文献数据库,对数据挖掘名称进行规范化,并通过数理统计方法分别对纳入文献的基本特征、应用趋势规律、应用内容分布及应用到的数据挖掘软件和基本功能进行归纳总结。根据预先设定好的纳入排除标准对文献进行筛选,再根据设计好的数据提取表格提取基本数据及重要信息,文献筛选和数据提取均由两人独立平行进行,对存在争议的数据则寻求第三方协助判定。并采用Excel 2016和Stata 15.0软件对提取的资料进行分析和系统评价,采用比值比OR(odd ratio,OR)值作为效应指标,对数据挖掘方法在中药寒热药性判别中的应用效果进行评估,并分别使用随机效应模型和固定效应模型进行敏感性分析。通过数理统计方法对数据挖掘方法在单味中药功效预测和中药复方功效预测中的应用效果进行分析,明确研究类型及研究对象,根据设定好的纳入标准和排除标准对文献进行筛选,并根据设计好的数据提取表格提取信息,文献筛选和数据提取均由两人独立平行进行,对存在争议的数据则寻求第三方协助判定。分别对相关文献的数据挖掘方法、建模依据、预测有效率等内容进行统计分析。结果:数据挖掘方法在中药性效挖掘中的应用数量最多的为关联规则、聚类分析、主成分分析等,且从2000年到2018年数据挖掘在中药性效研究领域发布的文献数量呈逐年递增趋势,尤其是2015年之后增长速度尤快,文献质量也不断提升,涉及方面也愈加广泛。中药寒热药性判别方面,经Meta分析,“支持向量机”和“回归判别分析”预测效果比较,总预测准确率为(OR=1.74,95%CI:1.13~2.68);“支持向量机”和“主成分线性判别分析”比较组合并OR值为1.47>1,95%CI(0.95,2.25),P=0.081>0.05。“支持向量机”和“最小二乘法判别分析”比较组合并OR值为1.15>1,95%CI(0.75,1.77),P=0.512>0.05);“回归判别分析”和“主成分线性判别分析”比较组合并OR值为1..19>1,95%CI(0.77,1.83),P=0.440>0.05;“回归判别分析”和“最小二乘法判别分析”合并OR值为1.51>1,95%CI(0.98~2.32),P=0.063>0.05;“主成分线性判别分析”和“最小二乘法判别分析”合并OR值为1.27>1,95%CI(0.83,1.95),P=0.275>0.05,剩余两组因异质性较大放弃合成。数据挖掘在功效预测方面常用到的数据挖掘方法有神经网络和贝叶斯网络,目前发现神经网络已被用于单味中药功效预测和复方功效预测中,贝叶斯网络只应用于了单味中药功效预测。功效预测常用的建模依据通常为药理指标、归经、功效、主治、剂量等,目前文献报道中所建的模型预测率均较高。结论:目前已有较多数据挖掘方法投入中药性效研究应用中,预测准确率较高,在该研究领域中适用性较强。已报道的研究主要集中在寒热药性判别方面,支持向量机在寒热药性判别应用中应用结果比较突出,其他统计到的可进行比较的数据挖掘方法在此方面应用效果的比较结果相当,均无明显差异。目前报道的中药功效预测方面的研究相对较少,主要应用的挖掘方法为贝叶斯网络和神经网络,预测准确率均较高;其中神经网络对于单味中药功效预测和中药复方功效预测均适用,成为目前功效预测研究中首要选择的数据挖掘方法。由于此类研究数量不足,无法形成比较,随着证据的增多,研究将呈现出更多更为可靠的比较结果。