论文部分内容阅读
摘要:目的 探讨心血管疾病的中医问诊证候分类特征,为中医证候诊断标准的建立提供客观依据。方法 利用中医心系问诊采集量表,采集大样本心血管疾病临床病例,根据问诊信息的“有、无”分别赋值“1、0”,建立问诊数据库;基于隐结构分析,找出规律,建立隐结构模型;人机结合,对部分隐变量进行综合聚类分析和类的细分;基于模型结果,分析心血管疾病的临床中医问诊证候分类特征。结果 心血管疾病中医问诊证候以心气虚、心阳虚、气阴两虚、痰湿、血瘀、气滞、心火亢盛、津液亏虚为主,并兼见胃气上逆、肾气不固、脾胃虚寒等证,其出现率依次为46%、23%、34%、18%、19%、39%、14%、1.7%、19%、27%、25%,并提示了这些证候与关系密切的各问诊症状之间的相关性(包括出现的概率和互信息)。结论 隐结构分析方法能为中医证候的分类提供定性定量依据,并提示综合聚类分析和类的细分方法的应用能进一步明确隐变量与变量之间的定量关系,从而为临床中医证候标准的建立提供依据。
关键词:隐结构模型;综合聚类分析;证候分类;中医问诊;心血管疾病
DOI:10.3969/j.issn.1005-5304.2012.03.005
中图分类号:R259.4 文献标识码:A 文章编号:1005-5304(2012)03-0009-05
证候规范化研究一直是中医研究的热点。特别是与临床流
基金项目:“十一五”国家科技支撑计划(2006BAI08B01-4);上海市优秀学科带头人项目(09XD1403700);上海市科委择优委托项目(09DZ1907902);上海市重點学科项目(S30302)
通讯作者:王忆勤,E-mail:[email protected]
行病学、数据挖掘技术和人工智能等多学科交叉结合后,证候研究在原有基础上取得了重大进展。利用现代科学技术,为中医证候分类提供客观科学的依据已成为证候研究的主要方向之一。问诊在四诊中占有重要地位,被视为“诊病之要领,临证之首务”,对中医辨证有重要作用。近年来,中医问诊客观化、规范化、程序化研究取得了一定的进展。隐结构模型是张连文教授[1]提出的旨在为中医证候客观化研究的分析方法,其基本原理是,首先进行疾病的流行病学调查,采集患者的临床症状或体征,并对其进行量化处理,然后用隐结构模型对数据进行分析,系统揭示症状或体征同步出现的规律,并且基于同一组数据同步出现频率高的症状或体征对数据进行划分,从而从不同角度得到多个划分,每个划分反映患者在某个病情侧面的客观分布情况。目前,隐结构分析方法已经在肾虚证、抑郁症等方面得到了一定的应用[2-3],但尚未对大样本某一人群进行过证候的分类研究。本研究基于隐结构模型分析,首次人机结合,提出了综合聚类和类的细分方法,对3 021例心血管疾病患者的中医问诊信息进行分析,旨在探索心血管疾病的临床中医证候特征,并为心血管疾病的中医证候分类标准的确立提供依据。
1 临床资料
1.1 一般资料
全部病例为2007年1月-2010年11月在上海交通大学附属仁济医院、复旦大学附属中山医院、上海中医药大学附属龙华医院、上海中医药大学附属曙光医院、上海市中医院及岳阳中西医结合医院的心内科住院患者。共采集有效病例3 021例,其中男性1 600例,女性1 421例;平均年龄(64.93±19.59)岁;属于西医内科冠心病、高血压、心律失常等疾病范畴。
1.2 病例选择标准
纳入西医心血管内科疾病患者,且符合中医“心主血脉”的生理功能失调者(即排除以神志异常为主要临床表现的心系病证);对本调查知情同意者。
排除神志不清及语言不清,病情叙述有困难者;兼有脑、肺、肾、肝等脏器的严重器质性疾病者;临床资料严重不全者;拒绝配合者。
1.3 病例采集
采集小组利用本课题组研制的中医心系问诊量表和采集系统[4-5]采集临床病例,并记录下患者的面色及舌、脉象。每个采集小组最少有1名主治医师以上职称(或具有博士学位)的专业人员。为保证在调查过程中采集标准的统一,采集前对采集人员进行培训,熟悉问诊量表的结构和内容,并了解量表中各症状或体征的涵义,对典型病例进行讨论,以尽可能保证所采集信息的规范性、一致性。
2 数据库的建立及数据准备
根据问诊信息的“有、无”,分别赋值“1、0”,采用Epidata软件双人录入数据并核对,建立心血管疾病患者的中医问诊信息数据库。基于专家论证和临床流行病学调查,对问诊数据进行筛选,最后确定心悸、胸闷、胸痛、气短、乏力等81个问诊信息参与隐结构分析。
3 数据分析及隐结构模型的建立
3.1 基于隐结构分析的初步模型建立
本研究基于孔明灯隐结构分析软件[6]对数据进行了分析,得到隐结构模型(见图1)。
图1 3 021例心血管疾病患者的中医问诊隐结构模型
3.2 隐结构模型中的涵义
如图1所示,模型中的Y标记的34个变量是隐变量,是在数据分析过程中根据数据分布特点而引入的。每个隐变量代表的是从某个角度(或者某个侧面)对患者进行的一个划分。每一隐变量与关系密切的问诊症状之间的定性定量关系,包括隐变量在此研究人群中出现的概率,以及各隐变量与问诊信息之间的关联程度(用问诊信息在该隐变量中出现的概率以及与之的互信息表示)。变量之间连线的粗细代表变量关联的强弱。例如模型中,Y21与夜尿频多、余沥不尽、小便频数、小便清长的关系密切,但是与余沥不尽的关系就很弱。隐变量后括号里的数字为取值个数,代表对这几个数据划分的类别数,即Y21有2个取值。
如图2、表1所示,隐变量Y21有2个取值,表示它将本研究人群分为2个隐类,分别记为Y21=S0和Y21=S1。并根据隐变量Y21的信息曲线和症状变量在隐类Y21=S0和Y21=S1中的概率分布来对这2个隐类进行区别。在图2中,有上下2条曲线,下面的是两两互信息曲线,上面的是累计互信息曲线。横坐标上是显变量,按与Y21的两两互信息大小排列;纵坐标左边是互信息,单位是比特(bit),右边是信息覆盖度,取值范围为0~100%。即在横坐标上的症状是按其在隐类Y21的取值中重要性大小依次排列的。如表1所示,Y21=S0(27)和Y21=S1(73)表示这2个隐类自己出现的概率分别为73%和27%,每个症状后的数值分别表示该症状在所其所对应的隐类中出现的概率。 3.3 综合聚类与类的细分的分析方法在本研究中的应用
在分析所得隐结构模型时,发现存在多个隐变量对应同一证候的现象。如Y2、Y3、Y12均反映心气虚证的某个侧面,Y2和Y3反映气虚的主要自觉症状,Y12反映这些主要症状的诱发或加重及其缓解因素。临床辨证时也需要综合考虑不同侧面的信息。为了给临床辨证提供依据,在无监督数据分析阶段,有必要全面考虑不同隐变量反映出的信息,对数据进行分析。因此在分析此批数据时,首次人机结合提出了综合聚类的分析方法,即将与隐变量Y2、Y3、Y12相关的问诊信息进一步进行分析,得出相应的隐变量及其概率关系。依此方法,在中医理论指导下,我们将表中有关联的隐变量进一步做聚类分析,如:Y14和Y15,Y6、Y7和Y11,Y20和Y25,Y26、Y27、Y28和Y33分别做聚类分析,得到相关的类别,其中Y26、Y27、Y28和Y33聚类分析后出现4类,其中2类分别与中医胃气上逆和脾胃虚寒相对应。同时,有些类别,如Y1是從不同侧面(即胸痛的性质、部位等)反映与胸痛相关的信息,就可以进一步做类的细分,即将出现胸痛的患者按照其出现的性质及部位进行进一步的分类。
4 基于中医理论对隐结构模型的阐释结果
基于初步隐结构模型中的具体信息,并结合综合聚类分析及类的细分方法,模型中所有隐变量和变量之间的关联性中医理论阐述如下。基于中医学理论,我们对模型中的隐变量与问诊症状之间的关系进行阐释,总结出模型中所包含的中医证素候的分类及其依据,以及这些证候类型在本研究人群中出现的概率,见表2~表4。隐结构模型中,各类隐变量和其关联密切的变量之间,即证候类型与问诊信息之间的关联性,可以通过症状出现的概率、问诊之间的互信息来表示。根据初步模型及综合聚类分析、类的细分等方法分析,本研究所得的证候类型与问诊之间的关联性见表5。
5 讨论
隐结构法是一种通过分析无监督症状数据来研究证候的新方法,目前已用于分析多组中医数据[2-3,7],所获得的结果与相关中医理论基本吻合。证候是一个不可直接测量且带有综合特性的变量,因此,如何建立一种客观定量的证候诊断标准,是中医证候规范化研究的难题。隐结构分析是针对这一研究难点而提出来的,可客观反映心系疾病的临床证候规律以及这些证候与问诊信息之间的定性定量关系。
目前,在证候规范化研究中应用较多的方法有回归分析、熵的复杂系统划分、多元对应本联统计方法等,其中重点在中医证候类型与四诊信息之间的相关性。且较多研究在中医各证候类型与西医理化检查结果如心电图、血脂、冠脉造影等指标的相关性,对证实质研究起到了一定的推动作用。本研究与其他研究方法相比,样本量大,涉及心内科冠心病、心律不齐、高血压等常见疾病,且样本人群相对固定,集中在上海地区心内科病房。研究结果显示,中医证候主要集中在心气虚、心阳虚、气阴两虚、痰湿、血瘀、气滞、津液亏虚、心火亢盛等主要心系病证,同时,胃气上逆、肾气不固、脾胃虚寒三证也有出现。分析其主要原因是,本研究人群平均年龄(64.93±19.59)岁,年龄较大,胃气上逆、肾气不固等证为年老者多见的证候。研究结果客观反映了本研究人群的临床特征[8]。
本研究在中医证候规范化研究中的作用有:①隐结构模型中各隐变量与自变量之间的关系能用中医理论来阐释,从一定程度上证实了中医证候的客观性。②隐变量与自变量之间的概率关系能客观反映临床数据中的真实客观的规律,可为中医证候的规范化提供一定依据。③提示心血管疾病不同中医证候与问诊信息之间定性和定位的辨证关系,为中医证候标准的建立提供客观依据。④揭示心血管疾病的中医心系证候分布特征。⑤基于隐结构模型,可研制中医证候诊断系统,为中医临床诊疗提供帮助。本研究的局限性:①数据取值只有“1、0”两种,只能反映症状出现与否,难以全面反映症状的辨证意义,而临床症状的轻重在同样能对辨证产生影响。②临床样本的局限。中医证候诊断标准的建立需要基于大量、真实、准确的临床数据,目前的样本均来自于上海本地的6家医院心内科病房。
关键词:隐结构模型;综合聚类分析;证候分类;中医问诊;心血管疾病
DOI:10.3969/j.issn.1005-5304.2012.03.005
中图分类号:R259.4 文献标识码:A 文章编号:1005-5304(2012)03-0009-05
证候规范化研究一直是中医研究的热点。特别是与临床流
基金项目:“十一五”国家科技支撑计划(2006BAI08B01-4);上海市优秀学科带头人项目(09XD1403700);上海市科委择优委托项目(09DZ1907902);上海市重點学科项目(S30302)
通讯作者:王忆勤,E-mail:[email protected]
行病学、数据挖掘技术和人工智能等多学科交叉结合后,证候研究在原有基础上取得了重大进展。利用现代科学技术,为中医证候分类提供客观科学的依据已成为证候研究的主要方向之一。问诊在四诊中占有重要地位,被视为“诊病之要领,临证之首务”,对中医辨证有重要作用。近年来,中医问诊客观化、规范化、程序化研究取得了一定的进展。隐结构模型是张连文教授[1]提出的旨在为中医证候客观化研究的分析方法,其基本原理是,首先进行疾病的流行病学调查,采集患者的临床症状或体征,并对其进行量化处理,然后用隐结构模型对数据进行分析,系统揭示症状或体征同步出现的规律,并且基于同一组数据同步出现频率高的症状或体征对数据进行划分,从而从不同角度得到多个划分,每个划分反映患者在某个病情侧面的客观分布情况。目前,隐结构分析方法已经在肾虚证、抑郁症等方面得到了一定的应用[2-3],但尚未对大样本某一人群进行过证候的分类研究。本研究基于隐结构模型分析,首次人机结合,提出了综合聚类和类的细分方法,对3 021例心血管疾病患者的中医问诊信息进行分析,旨在探索心血管疾病的临床中医证候特征,并为心血管疾病的中医证候分类标准的确立提供依据。
1 临床资料
1.1 一般资料
全部病例为2007年1月-2010年11月在上海交通大学附属仁济医院、复旦大学附属中山医院、上海中医药大学附属龙华医院、上海中医药大学附属曙光医院、上海市中医院及岳阳中西医结合医院的心内科住院患者。共采集有效病例3 021例,其中男性1 600例,女性1 421例;平均年龄(64.93±19.59)岁;属于西医内科冠心病、高血压、心律失常等疾病范畴。
1.2 病例选择标准
纳入西医心血管内科疾病患者,且符合中医“心主血脉”的生理功能失调者(即排除以神志异常为主要临床表现的心系病证);对本调查知情同意者。
排除神志不清及语言不清,病情叙述有困难者;兼有脑、肺、肾、肝等脏器的严重器质性疾病者;临床资料严重不全者;拒绝配合者。
1.3 病例采集
采集小组利用本课题组研制的中医心系问诊量表和采集系统[4-5]采集临床病例,并记录下患者的面色及舌、脉象。每个采集小组最少有1名主治医师以上职称(或具有博士学位)的专业人员。为保证在调查过程中采集标准的统一,采集前对采集人员进行培训,熟悉问诊量表的结构和内容,并了解量表中各症状或体征的涵义,对典型病例进行讨论,以尽可能保证所采集信息的规范性、一致性。
2 数据库的建立及数据准备
根据问诊信息的“有、无”,分别赋值“1、0”,采用Epidata软件双人录入数据并核对,建立心血管疾病患者的中医问诊信息数据库。基于专家论证和临床流行病学调查,对问诊数据进行筛选,最后确定心悸、胸闷、胸痛、气短、乏力等81个问诊信息参与隐结构分析。
3 数据分析及隐结构模型的建立
3.1 基于隐结构分析的初步模型建立
本研究基于孔明灯隐结构分析软件[6]对数据进行了分析,得到隐结构模型(见图1)。
图1 3 021例心血管疾病患者的中医问诊隐结构模型
3.2 隐结构模型中的涵义
如图1所示,模型中的Y标记的34个变量是隐变量,是在数据分析过程中根据数据分布特点而引入的。每个隐变量代表的是从某个角度(或者某个侧面)对患者进行的一个划分。每一隐变量与关系密切的问诊症状之间的定性定量关系,包括隐变量在此研究人群中出现的概率,以及各隐变量与问诊信息之间的关联程度(用问诊信息在该隐变量中出现的概率以及与之的互信息表示)。变量之间连线的粗细代表变量关联的强弱。例如模型中,Y21与夜尿频多、余沥不尽、小便频数、小便清长的关系密切,但是与余沥不尽的关系就很弱。隐变量后括号里的数字为取值个数,代表对这几个数据划分的类别数,即Y21有2个取值。
如图2、表1所示,隐变量Y21有2个取值,表示它将本研究人群分为2个隐类,分别记为Y21=S0和Y21=S1。并根据隐变量Y21的信息曲线和症状变量在隐类Y21=S0和Y21=S1中的概率分布来对这2个隐类进行区别。在图2中,有上下2条曲线,下面的是两两互信息曲线,上面的是累计互信息曲线。横坐标上是显变量,按与Y21的两两互信息大小排列;纵坐标左边是互信息,单位是比特(bit),右边是信息覆盖度,取值范围为0~100%。即在横坐标上的症状是按其在隐类Y21的取值中重要性大小依次排列的。如表1所示,Y21=S0(27)和Y21=S1(73)表示这2个隐类自己出现的概率分别为73%和27%,每个症状后的数值分别表示该症状在所其所对应的隐类中出现的概率。 3.3 综合聚类与类的细分的分析方法在本研究中的应用
在分析所得隐结构模型时,发现存在多个隐变量对应同一证候的现象。如Y2、Y3、Y12均反映心气虚证的某个侧面,Y2和Y3反映气虚的主要自觉症状,Y12反映这些主要症状的诱发或加重及其缓解因素。临床辨证时也需要综合考虑不同侧面的信息。为了给临床辨证提供依据,在无监督数据分析阶段,有必要全面考虑不同隐变量反映出的信息,对数据进行分析。因此在分析此批数据时,首次人机结合提出了综合聚类的分析方法,即将与隐变量Y2、Y3、Y12相关的问诊信息进一步进行分析,得出相应的隐变量及其概率关系。依此方法,在中医理论指导下,我们将表中有关联的隐变量进一步做聚类分析,如:Y14和Y15,Y6、Y7和Y11,Y20和Y25,Y26、Y27、Y28和Y33分别做聚类分析,得到相关的类别,其中Y26、Y27、Y28和Y33聚类分析后出现4类,其中2类分别与中医胃气上逆和脾胃虚寒相对应。同时,有些类别,如Y1是從不同侧面(即胸痛的性质、部位等)反映与胸痛相关的信息,就可以进一步做类的细分,即将出现胸痛的患者按照其出现的性质及部位进行进一步的分类。
4 基于中医理论对隐结构模型的阐释结果
基于初步隐结构模型中的具体信息,并结合综合聚类分析及类的细分方法,模型中所有隐变量和变量之间的关联性中医理论阐述如下。基于中医学理论,我们对模型中的隐变量与问诊症状之间的关系进行阐释,总结出模型中所包含的中医证素候的分类及其依据,以及这些证候类型在本研究人群中出现的概率,见表2~表4。隐结构模型中,各类隐变量和其关联密切的变量之间,即证候类型与问诊信息之间的关联性,可以通过症状出现的概率、问诊之间的互信息来表示。根据初步模型及综合聚类分析、类的细分等方法分析,本研究所得的证候类型与问诊之间的关联性见表5。
5 讨论
隐结构法是一种通过分析无监督症状数据来研究证候的新方法,目前已用于分析多组中医数据[2-3,7],所获得的结果与相关中医理论基本吻合。证候是一个不可直接测量且带有综合特性的变量,因此,如何建立一种客观定量的证候诊断标准,是中医证候规范化研究的难题。隐结构分析是针对这一研究难点而提出来的,可客观反映心系疾病的临床证候规律以及这些证候与问诊信息之间的定性定量关系。
目前,在证候规范化研究中应用较多的方法有回归分析、熵的复杂系统划分、多元对应本联统计方法等,其中重点在中医证候类型与四诊信息之间的相关性。且较多研究在中医各证候类型与西医理化检查结果如心电图、血脂、冠脉造影等指标的相关性,对证实质研究起到了一定的推动作用。本研究与其他研究方法相比,样本量大,涉及心内科冠心病、心律不齐、高血压等常见疾病,且样本人群相对固定,集中在上海地区心内科病房。研究结果显示,中医证候主要集中在心气虚、心阳虚、气阴两虚、痰湿、血瘀、气滞、津液亏虚、心火亢盛等主要心系病证,同时,胃气上逆、肾气不固、脾胃虚寒三证也有出现。分析其主要原因是,本研究人群平均年龄(64.93±19.59)岁,年龄较大,胃气上逆、肾气不固等证为年老者多见的证候。研究结果客观反映了本研究人群的临床特征[8]。
本研究在中医证候规范化研究中的作用有:①隐结构模型中各隐变量与自变量之间的关系能用中医理论来阐释,从一定程度上证实了中医证候的客观性。②隐变量与自变量之间的概率关系能客观反映临床数据中的真实客观的规律,可为中医证候的规范化提供一定依据。③提示心血管疾病不同中医证候与问诊信息之间定性和定位的辨证关系,为中医证候标准的建立提供客观依据。④揭示心血管疾病的中医心系证候分布特征。⑤基于隐结构模型,可研制中医证候诊断系统,为中医临床诊疗提供帮助。本研究的局限性:①数据取值只有“1、0”两种,只能反映症状出现与否,难以全面反映症状的辨证意义,而临床症状的轻重在同样能对辨证产生影响。②临床样本的局限。中医证候诊断标准的建立需要基于大量、真实、准确的临床数据,目前的样本均来自于上海本地的6家医院心内科病房。