论文部分内容阅读
帕金森病(Parkinson’s Disease, PD)是一种在中老年人中常见的慢性中枢神经系统变性疾病。中医采用辨证论治来诊疗帕金森病,确定了该病可由5种证型描述。为了方便对帕金森数据的收集和分析,中医学家提出了帕金森中医量表来规范诊断过程。中医量表涵括了与帕金森病相关的临床症状,医生在诊断患者时只需在量表中标记相应的症状,一张量表对应一个病例。然而,对于如何从量表推断出具体的证型,中医界依然无法达成共识,各家仍以经验为主。本文将多标签分类技术应用于中医治疗帕金森,试图将医生的诊断经验构建成模型,希望能够发现一些尚未被注意到的规律,促进中医在治疗帕金森领域的发展。本文的研究思路是将中医量表作为特征属性,把每个量表对应的证型作为标签,而症状到证型的推断依据将由多标签算法自动学习得到。早期,中医认为帕金森患者同时最多伴有两个证型。而随着该领域的发展,中医又将患者的证型分为主证和次证。本文分别对修正前和修正后的帕金森数据展开工作,分为两部分:1)对于修正前的帕金森数据,我们提出了一种基于Classifier Clains思想的算法ETCC(EnTropy Classifier Clains),该算法能够从全局角度优化预测顺序链,探讨了帕金森证型间的全关联性。算法的思想如下:依据特征选择的原则,ETCC认为标签的贡献度越高,则在顺序链中的排名就越高。通过引入信息熵理论,ETCC能够计算得到一个贡献度矩阵,矩阵中的元素表示两两标签间的局部贡献值。同时,利用PageRank算法将标签间的局部贡献度转化为全局贡献度。最后依据每个标签的贡献度决定预测顺序链,并构建相应的模型。2)帕金森数据集经修正后区分了主证和次证,为了保留数据的原始信息,我们将数据集中5种证型进行主次分离,即得到10个标签。分离后,由于次证标签过于稀疏,基本上无法被模型学习,导致预测效果非常不理想,因此我们提出了基于标签组合处理多标签不均衡的算法DEML(Dealing with labels imbalance by Entropy for Multi-Label classification)。DEML首先定义了多标签数据集不均衡的标准和计算类别不均衡的方法,同时采用一种随机的策略构建均衡的标签子集。然后对标签子集逐个进行二进制编码,将多标签问题转化为多元分类问题,最终集成所有多元分类器得到预测结果。实验表明,以上两种算法不仅能够挖掘一些帕金森数据集的有用信息,对于其它数据集同样拥有优秀的性能表现。