论文部分内容阅读
研究目的在糖尿病肾病的计算机辅助辨证研究背景下,基于复杂网络理论解决以下建模工作中存在的实际问题:1.提出并分析糖尿病肾病数据的多标签属性特点,探索糖尿病肾病多标签数据的处理方法,解决以往单纯采用单标签学习所导致的证型分类结果偏离实际的问题。2.建立适合糖尿病肾病的多标签数据特征选择方法,解决建模过程中数据维度高而稀疏、缺乏典型特征组合对模型性能造成严重影响的问题。3.建立糖尿病肾病的多标签辨证模型,完善糖尿病肾病的多证型及兼夹证型的诊断问题。研究方法1.针对糖尿病肾病数据的多标签属性,在广泛文献调研的基础上,利用复杂网络理论构建糖尿病肾病辨证网(DNBZN),对糖尿病肾病多标签数据进行合理、有效的表征。2.针对中医药数据维度高而稀疏的特点,首先提出一种新的特征选择方法对糖尿病肾病数据进行预处理。该特征选择方法建立在复杂网络广义社会合作网的理论基础上,利用重叠社区发现Bitector算法对网络进行重叠社区发现,进而选择出对证型分类代表性强且区分度高的典型特征组合。然后在网络社区发现结果的研究基础上,建立糖尿病肾病多标签特征数据集,并将数据集结构化处理,为下一步多标签分类模型研究提供数据基础。3.针对糖尿病肾病的多证型分类问题,探索和使用多种建模策略,利用SVM、 AdaBoost、ANN和KNN最近邻等多种机器学习方法进行建模,并尝试使用多种不同的基础分类器组合形成不同的多标签分类器,依据训练结果学习和调整模型参数,寻找适合糖尿病肾病的多证型辨证模型。4.针对辨证模型的分类性能评估问题,调用Hamming Loss、Ranking Loss、One-error、 Coverage、Average Precision等5种公认的多标签学习评价指标对每种多标签辨证模型的性能进行综合评价。研究结果1.经过文献调研,共收集来自256篇文献中的113个症状(特征)和15个证型(标签),每个症状至少属于1个证型,至多属于6个证型。建立的DNBZN具有113个症状节点和15个证型节点,边代表症状节点对相应证型节点的特异度,边权由基尼指数量化表示。使用二分网络Bitector算法对DNBZN进行重叠社区发现后,发现了肝肾阴虚、气阴两虚的重叠社区和脾肾气虚、脾肾阳虚、阴阳两虚重叠社区,以及其余10个非重叠社区。每个社区内部的节点是对该证型标签区分度高及代表性强的特征组合,其余未进入该社区的节点被视为该证型的冗余或不相关特征删除,有效降低了特征维数。结合中医理论对特征选择结果进行验证,结果表明基于重叠社区发现的特征选择方法选择出的症状特征合理有效,符合中医理论和临床实际。2.依据文献调研和网络构建结果,建立了一个拥有113个特征和15个类别标签的糖尿病肾病多标签特征数据集。在数据集中构建特征及特征组合与证型标签之间的映射关系。单个症状与其所归属的证型标签之间的映射关系为189条,在此基础上结合社区发现结果,扩展特征组合与证型标签之间的映射关系。最后建立的特征数据集中共拥有1759条映射关系,作为后续多标签辨证建模工作的数据来源。3.在“转化问题”和“算法适应”两种多标签学习的建模策略下完成建模工作。在“转化问题”策略下使用SVM和AdaBoost建立多个二分类基础分类器对糖尿病肾病特征数据集进行多标签分类建模;并分别选择线性核函数、二次方程核函数、多项式核函数、径向基核函数和多层感知核函数等5种核函数作为支持向量机的核函数进行建模,评估模型的分类效果,发现模型对每个证型二分类准确率达到97%以上;分别使用Real AdaBoost, Gentle AdaBoost和Modest AdaBoost算法作为AdaBoost的基础二分类分类器进行多标签建模,发现模型对每个证型的二分类准确率接近98%。在“算法适应”策略下,使用ANN和KNN直接在特征数据集上进行多标签分类,优化参数后,ANN模型整体分类准确率达到96.2%;KNN模型整体分类准确率达到94.67%。4.使用10折交叉验证方法,计算Hamming Loss、Ranking Loss、One-error、Coverage、 Average Precision等5个指标的平均值,对SVM、Adaboost、ANN和KNN模型的性能进行综合比较,结果表明这四种模型都达到了令人满意的分类精度,具有良好的性能。相比较之下SVM的综合性能最佳,其次是AdaBoost和ANN,KNN的综合性能相对较弱。研究结论1.多标签学习更符合中医临床实际,多标签数据处理方法和多标签机器学习策略可以提高糖尿病肾病计算机辅助辨证的准确性、完善多证型及兼夹证型的诊断,进一步为临床遣方用药提供参考。2.本文提出的基于复杂网络重叠社区发现算法的特征选择能有效提取出对证型代表性强且区分度高的典型特征组合,显著提高分类器的分类性能,是糖尿病肾病数据特征选择的一种新的有效方法。3.本文使用的多种建模策略能够胜任糖尿病肾病多证型分类任务,分类性能令人满意;同时模型也适用于中医药领域具有高维度、稀疏性和非线性特点的其他数据和类似问题的建模研究。