论文部分内容阅读
目的:基于中医证候诊断客观化、可量化研究的需求和证候类中药新药研发中面临的中医证候信息难以标准化采集等瓶颈问题,本研究的总体目标是完成痰瘀互结证诊断量表的研制与考评,具体目标包括:一、以痰瘀互结证为例,探索中医证候诊断量表概念框架的研制思路和方法;二、以痰瘀互结证为例,探索构建中医证候最有效诊断特征的筛选方法和步骤,探析机器学习算法在痰瘀互结证诊断量化诊断模型的构建与共性关键特征条目筛选中的适用性;三、初步形成一套较为系统、完整的中医证候诊断量表研制与量化模型构建方法。材料与方法:1.成立研究小组,基于古今文献研究,初步构建痰瘀互结证诊断量表的理论框架,形成痰瘀互结证诊断量表条目池。1.1借助辽宁中医药大学《中医典海》客户端作为古籍资料查阅的数据库,对痰瘀相关估计文献进行梳理和研究,以《中医证候鉴别诊断学》《中医诊断学》《中医临床诊疗术语国家标准·证候部分》作为痰瘀互结证诊断标准的参考资料,同时以《中医证候学·瘀证门·痰瘀证类》为专著资料对痰瘀同病进行研究,综合上述资料,结合研究小组意见,初步构建痰瘀互结证诊断量表的理论框架。1.2选取《中医证候鉴别诊断学》《中医诊断学》《中医临床诊疗术语国家标准·证候部分》作为痰瘀互结证诊断标准的参考资料,同时结合期刊文献中有关痰瘀互结证的临床研究开展研究,借助数据统计和研究小组讨论的方式形成条目池。2.基于临床研究开展痰瘀互结证诊断量表初稿的研制与考评:2.1设计半开放式问卷,通过辽宁省中西医结合学会痰瘀论治分会组织发放问卷,将定性判定与定量判定相结合的方式融入问卷答案的设计中,对前期研究形成的痰瘀互结证诊断量表条目池中的条目贡献度进行评价,为痰瘀互结证诊断量表初稿条目筛选提供意见。问卷设计包含专家基本信息和判定痰瘀互结证的症状、体征及补充症状、体征等信息。采用Excel表进行数据管理和锁定,借助SPSS21.0等统计分析软件进行数据统计和分析。2.2设计临床横断面调查,于2019年12月-2021年12月期间在辽宁中医药大学附属医院、辽宁中医药大学附属二院门诊和病房采集患者资料。临床横断面调查设计内容包括患者基本信息、患者日常生活习惯、患者中医证候基本判别、痰瘀互结证相关临床症状体征信息、补充症状五大部分。第一部分基本信息包括:性别、年龄、出生地、工作性质、西医诊断及病程、合病疾病及病程、身高、体重、血压;第二部分日常生活习惯包括:吸烟、饮酒、饮食习惯、日常体力活动、熬夜、久坐等内容;第三部分患者中医证候判别包括:最感痛苦症状、舌象、脉象、证候诊断等内容;第四部分痰瘀互结证相关临床症状体征信息40个条目,并对每一个条目按照“无”“轻”“重”三个等级进行严重程度判别;第五部分主要结合临床调查实际补充前述研究中未囊括的主要症状。借助描述性分析、相关性分析、主成分分析、因子分析等方法对痰瘀互结证诊断量表的条目进行归类分析,并进一步结合专家意见、区分度分析、相关系数分析、文献对照比较等方法对条目进行综合筛选。2.3以前期临床横断面调查中采集的临床资料作为研究基础,开展量表信度、效度、反应度等测量学性能的考评。采用内部一致性信度和分半信度两种方法进行量表初稿的信度评价。通过内容效度和结构效度两个方面来评价量表初稿的效度。通过反应度的评价来衡量其是否具有区分痰瘀互结证或其他证候类型的能力。借助逻辑回归分析(LR)、支持向量机(SVM)、随机森林(RF)、极限梯度提升法(XGboost)四种算法开展量表初稿诊断学性能的初步评价,主要考察其特异度、敏感度和ROC曲线下面积三个指标。3.采用传统机器学习算法与深度学习算法相结合的方式,进一步优选痰瘀互结证诊断模型条目,并将机器学习算法模型优选结果进一步通过logistic逐步回归方程获取方程痰瘀互结证诊断量表终选条目及其条目权重,运用ROC曲线诊断学试验评价量表的诊断学性能。3.1研究以研究对象是否处于痰瘀互结为因变量,以筛选得到的24个核心症状和体征为特征自变量,并从24个特征中挑选12个局部最优特征作为自变量,通过机器学习算法对数据进行拟合分析。特征挑选方法为依次遍历跳跃选取,从24个特征选取12个特征的可能性有C1224=270万特征组合,每一万个特征组合挑选一个特征组合进行分析,总共分析270次,挑选出270次中最好与最差结果。采用了逻辑回归分析(Logistic regression analysis LR)、随机森林(Random Forest,RF)、支持向量机(Support Vector Machine,SVM)、极限梯度提升法(The extreme Gradient Boosting,XGboost)、卷积神经网络(Convolutional Neural Network,CNN)五种算法,在训练集上构建诊断模型。采用了交叉验证的方法,以调优诊断模型中的相关参数。在测试集上绘制机器学习模型的诊断格表。采用准确率、灵敏度、漏诊率、特异度、误诊率五个指标测评模型性能,并根据准确率筛选最优参数组合,提取关键特征条目。3.2以3.1中5种机器学习算法提取的共性关键特征条目为基础,采用SPSS21.0软件进行统计分析,借助logistic逐步回归方程进一步优选条目并确定条目赋权,形成痰瘀互结证诊断量表终稿。将上述研究已经构建的痰瘀互结证诊断量表终稿回代到临床横断面调查采集的866例合格病例中,得到一份由该诊断量表判断的患者数据,将该量表结果结合医生判别结果制成四个表,初步评价量表诊断的准确度、特异度、敏感度。结果:1.基于文献研究和研究小组讨论,初步构建了痰瘀互结证诊断量表理论框架,形成了痰瘀互结证诊断量表原始条目池。1.1依托《中医典海》数据库平台,查阅到自汉代以来有关“痰”的文献共计121849条,有关“瘀”文献共计23158条,查阅到自宋代以来有关“痰瘀”合病论述的文献共计105条,基于此并结合现代有关痰瘀的文献研究,构建痰瘀互结证诊断量表理论框架。痰瘀互结证诊断量表理论框架是基于整体观念和辨证论治的基本原则,包含辨证信息采集途径和辨证思维方法两个层次,主要基于八纲辨证和气血津液辨证两种思维方法,从望诊、问诊、脉诊三种途径搜集辨证诊断信息。1.2参照《中医证候鉴别诊断学》《中医诊断学》《中医临床诊疗术语国家标准·证候部分》中的痰瘀互结证诊断标准提取13个症状和体征条目,借助114篇合格研究文献提取38个条目,最终对上述51个条目进行规范化的拆分、合并处理,最终提取38个症状和体征条目作为痰瘀互结证诊断量表研制的原始条目池。2.采用专家问卷咨询和临床横断面调查相结合的方式开展条目筛选。2.1完成44份合格专家问卷,专家均具有副高级以上专业技术职称,综合运用描述性分析、离散趋势法、多维尺度分析方法分析专家问卷咨询数据,筛选出胸闷痰多、肢体沉重、痞满(胸脘腹部)等26个条目。2.2临床横断面调查共采集合格病例866份,借助多种统计分析方法进行条目筛选分析,最终保留疼痛(刺痛、闷痛、胀痛)、疼痛位置固定、肢体沉重、胸闷痰多、痞满(胸、脘、腹部)、头重眩晕、倦怠乏力等28个条目。最终,综合专家问卷咨询和临床横断面调查的条目筛选结果,共有24个条目进入痰瘀互结证诊断量表初稿。2.3对包含24个条目的痰瘀互结证诊断量表初稿进行初步的信度、效度、反应度、诊断性能评价。一、信度评价:结果提示量表内部一致性信度中Cronbach’s Alpha系数为0.766,分半信度相应的Spearman-Brown系数为0.763。二、效度评价:采用Spearman相关系数考察量表初稿的内容效度,24个条目与量表总表的相关系数在0.086-0.731之间,且结果具有显著的统计学差异(p<0.01,p<0.05)。采用探索性因子分析,KMO统计量为0.731,Bartlett球形检验的P值小于0.01,提示适合采用因子分析法进行分析,共提取8个公因子,累计方差贡献率为61.778%,与预设理论框架基本契合。三、反应度评价:采用独立样本t检验,结果提示两组间除“脉涩”(P=0.135)“脉沉”(P=0.087)两个条目区分度没有显著统计学差异之外,两组间其余22个条目及量表总表均提示较好的反应度,结果具有显著统计学差异(P<0.01)。四、诊断学性能评价:采用XGboost模型算法考察量表初稿的诊断性能,特异度为87.0%、敏感度为80.2%,ROC曲线下面积为0.870;采用SVM线性函数模型算法考察量表初稿的诊断性能,特异度为85.2%、敏感度为76.3%,ROC曲线下面积为0.807;采用SVM线性函数模型算法考察量表初稿的诊断性能,特异度为85.2%、敏感度为76.3%,ROC曲线下面积为0.807;采用径向基核函数模型算法考察量表初稿的诊断性能,特异度为88.5%、敏感度为83.0%,ROC曲线下面积为0.858;采用SVM多项式核函数模型算法考察量表初稿的诊断性能,特异度为85.4%、敏感度为89.7%,ROC曲线下面积为0.875;采用Sigmoid函数模型算法考察量表初稿的诊断性能,特异度为88.4%、敏感度为74.6%,ROC曲线下面积为0.815;采用LR模型算法考察量表初稿的诊断性能,特异度为83.8%、敏感度为83.9%,ROC曲线下面积为0.839;采用RF模型算法考察量表初稿的诊断性能,特异度为87.0%、敏感度为81.6%,ROC曲线下面积为0.843。提示痰瘀互结证诊断量表初稿具有较好的诊断学性能。3.初步构建了痰瘀互结证诊断量化模型,完成了痰瘀互结证诊断量表条目的量化赋分及诊断阈值研究。3.1采用LR、RF、SVM、XGboost、CNN五种机器学习算法构建痰瘀互结证量化诊断模型,评估准确率、灵敏度、漏诊率、特异度、误诊率五个方面指标进行模型评估和特征提取。各模型最优参数如下:线性SVM模型的准确度为0.85,灵敏度0.85,特异度0.86,漏诊率0.15,误诊率0.14;多项式核函数SVM模型的准确度0.86,灵敏度0.91,特异度0.80,漏诊率0.09,误诊率0.20;径向基核函数svm模型准确度0.87,灵敏度0.87,特异度0.87之间,漏诊率0.13,误诊率0.13;LR模型的准确度0.85,灵敏度0.88之间,特异度0.81,漏诊率0.12,误诊率0.19。RF模型的准确度0.86,灵敏度0.85,特异度0.86,漏诊率0.15,误诊率0.14。XGBoost模型的准确度0.84,灵敏度0.81,特异度0.86,漏诊率0.19,误诊率0.14。CNN模型的准确度0.838,灵敏度0.876之间,特异度0.795,漏诊率0.124,误诊率0.205。综合上述五种算法中七个模型的数据结果,共提取20个痰瘀互结证诊断的共性关键特征。3.2基于机器学习模型提取的20个共性关键特征,进一步运用SPSS软件,借助逐步回归分析构建量表量化诊断模型,12个条目进入最终模型,并根据各条目的原始权重系数,构建了痰瘀互结证量化诊断模型,该模型的约登指数值为0.684,相应的敏感度81.1%,特异度为87.3%,诊断界值3.6625。将诊断界值3.6625设定为20分,相当于扩大了9.872倍,将12个条目按照等比例扩大,并按照四舍五入的原则保留整数值,初步构建具有权重赋分功能的痰瘀互结证诊断量表,其最高诊断分值为76分,最低诊断阈值为20分,形成具有量化赋分功能的痰瘀互结证诊断量表。3.3将上述己构建的痰瘀互结证诊断量表回代到临床采集的866例合格病例的临床信息中,评价其诊断学性能,量表敏感度为80.33%,特异度为88.10%,诊断准确率为83.72%,量表的诊断性能基本达到预期目标。结论:1.痰瘀互结证是现代临床常见证候,其主要共性临床特征为疼痛、肢体沉重、面色晦暗、口唇舌色暗或有斑点,舌苔厚腻,脉象滑、沉等,对痰瘀互结证本身的量化诊断研究有助于推动临床研究中该证候的量化辨识。2.初步研制形成了痰瘀互结证诊断量表,该量表在痰瘀互结证临床研究领域具有一定的通用性,为开展此类中药新药临床研究提供了可应用的诊断信息量化采集工具。3.以痰瘀互结证为例,构建了以证统病模式下证候本身量化诊断研究的方法学思路,初步构建了痰瘀互结证的量化诊断模型,研究中探索性引入的人工智能机器学习算法在中医证候宏观诊断共性、关键特征的提取中具有适用性。