论文部分内容阅读
                            
                            
                                传统中医问诊是通过询问病人的症状判断所患证型,这种诊断过程需要医生在辨证医治时有丰富的经验。近年来随着机器学习和模式识别的快速发展,很多需要人为判断的问题可以通过构建复杂的数学模型,由计算机完成结果的预测。多标记学习技术是数据挖掘中一个新的研究方向。因为在现实生活中得到的数据无论是特征之间,类别之间,还是特征和类别之间都是相互紧密联系的。相对于单标记学习来说的,多标记学习将不仅仪是针对每组互不相关的标记,进行两两分类。这种考虑了标记之间关联的分类方法不但更符合实际情况,而且对分类准确率也有更大的提高。但是单一的多标记学习只是考虑了标记之间的关联,而忽略了在原始数据集中特征和标记之间的关联性。所以,为了有效地去除与标记集不相关的或者冗余的特征,提高分类精度,特征降维技术又成为了改善多标记学习方法的新的研究热点。本文主要围绕机器学习中医CHD数据的分类算法,进而开发中医问诊系统这一主题,定义了一种基于类对特征选择的多标记REAL学习框架。在这个学习框架中,我们阐述了设计思想,改进了已有的多标记学习方法,并对CHD, Medical, Enron和Scene四个数据进行了实验对比。进一步,我们通过协同进化遗传算法优化已经得到的类对特征子集,并且针对CHD数据,将二次优化特征集输入到改进的框架分类器中,进行训练和预测。最后,我们在VC++软件平台上设计了中医问诊信息管理系统,基本实现了机器判别病人证型的功能。论文取得的主要成果与创新有:1.选用特征选择方法。目已有多标记学习算法很少用到特征选择方法,少有的方法包括MLS1, MLNB, MDDM, MEFS等,它们都是直接作为多标记学习分类前预处理过程。这样针对所有类标记选择的特征集有可能对每组类标记会出现偏置(Bias)的情况。我们选用了类对(Pairwise-class)的特征筛选(Filter)方式对原数据进行特征挑选。这种方法充分考虑了特征和每组类标记之间的关联。2.设计新的多标记REAL学习框架。这种新的策略融合了类对特征筛选方法,在保留原有标记之间关联的基础上,考虑了特征和标记之间的关系。该框架可以选用多种类对特征选择和多标记分类器的组合。本文在改进ML-kNN算法和LIFT算法的基础上选择了CMIM特征选择方法。更进一步,我们利用协同遗传对我们先前得到的特征子集进行二次优化,从而滤掉冗余保尉更为重要的信息。我们针对多标记学习分类的每一种改进方法进行了实验,使得CHD数据的分类准确率达到了87.8%。3.开发基于VC++编程的中医问诊信息系统。通过实现有效的多标记分类算法,我们把REAL算法封装到VC++6.0创建的问诊系统中。该系统具体实现了几个功能:患者基本信息的录入,患者症状的输入和读取,基于REAL算法的辨证模型的训练,辨证结果的预测,证型的统计和分析,问诊病历的打印输出等。