论文部分内容阅读
人工智能的发展对科技和经济的发展起了重大的推动作用。尤其在解决复杂优化、减少反应时间和促进产品的开发等方面表现更为突出。随着科技的进步,大量数据的产生需要有效的方法才能得出更加可行的结果,有利于促进科技的快速发展。因此研究新的高效数据挖掘方法和寻找规律已成为人工智能研究的迫切需要。 本文对一种新的数据挖掘方法:基因表达式编程(gene expression programming,GEP)进行研究,GEP是一种新的机器学习算法,具有优异的泛化能力,是由Ferreira C.于1999年根据遗传算法和遗传程序发展而来的。本论文主要对GEP的原理和在定量结构—性质/活性关系(QSPR/QSAR)和疾病诊断方面的进行了应用研究。 第一章:对GEP算法原理、实现步骤以及研究现状进行了详细的综述,并对GEP和支持向量机(support vector machines,SVM)在疾病诊断和QSAR中的应用现状进行了综述。 第二章:应用GEP和SVM方法对疾病的诊断和发病率进行预测,包括:(1)用SVM方法对346例(冠心病172例,健康体检174例)进行了分类判别,同时用线性判别分析方法(linear discriminant analysis,LDA)作为对照研究,对训练集的预测准确率分别是96.86%和78.18%,测试组的预测准确率分别是90.57%和72.73%;(2)用SVM和LDA算法对70例(肾病综合征50例,肾小球肾炎20例)进行了诊断,训练集的预测准确率分别是94.6%和89.86%,测试组的预测准确率分别是78.18%和72.73%。表明用SVM方法建立的模型其预测能力要优于LDA;(3)用GEP方法对2003年我国SARS的高发地区北京市和山西省的发病趋势进行建模预测,其拟合情况与当时SRAS实际发病和死亡情况基本一致,实验结果表明其在精度和速度上都优于神经网络算法。 第三章:GEP和SVM方法在药物性质方面的应用研究:(1)应用启发式方法(HM)和支持向量机方法建立了70种药物与血浆蛋白结合率的定量构效关系模型,研究了分子结构对药物与血浆蛋白结合率的影响。两种方法均得到了较好的结果,交互检验的相关系数平方(R~2)分别为0.80和0.82;通过对模型的稳