论文部分内容阅读
中医药数据表现出的多个成分、多个药效、多个靶点和非线性等特征,决定了中医药数据呈现的是一种多自变量与多因变量的非线性关系。同时,中医药实验数据累积成多,受客观原因限制导致这些数据分析往往停留在基本分析阶段。由此可见,研究一种深入的、适合中医药数据特点的多元非线性分析方法很有必要。因而尝试将偏最小二乘方法与随机森林算法进行结合,并将这种数据分析模式应用于中医药实验数据,为更深入地挖掘中医药信息提供技术支撑。本文所做的主要工作有:第一,由于偏最小二乘自带的T2椭圆图特异点方法在高维空间分析时受限,提出SBM算法对中医药数据进行特异点识别,通过综合评分,筛选出有效数据进行偏最小二乘回归,并在大承气汤整方剂量变化治疗实验性肠梗阻实验和经典刀具磨损实验上进行验证,实验结果表明平均相对误差出现一定程度的下降。第二,基于经典模型树和偏最小二乘方法,将模型树的叶子节点原本采用多元回归方法改进为根据样本信息自动判断选择偏最小二乘或均值的处理方式,即偏最小二乘模型树。然后对偏最小二乘模型树进行集成学习,提出偏最小二乘随机森林回归算法。并在麻杏石甘汤君药平喘实验、麻杏石甘汤君药止咳实验和5个UCI机器学习样本数据集等数据上进行实验,结果表明,模型解释程度得到一定改善,验证了该算法具有一定的有效性与可行性。第三,根据偏最小二乘的变量重要性分析,结合四参数逻辑Hill方程,提出一种基于变量重要性投影分析的中药复方量效关系建模方法,通过大承气汤整方剂量变化治疗大鼠实验性肠梗阻实验和葛根芩连汤整方剂量变化治疗溃疡性结肠炎实验,结果认为:大承气汤用于治疗肠梗阻临床成人用量不推荐低剂量;葛根芩连汤用于治疗溃疡性结肠炎推荐中剂量。第四,在基于以上研究成果的基础上,按照中医药数据分析需求,采用JAVA相关编程语言和开发工具,设计和开发了基于PLS-RF的中医药数据分析系统。