论文部分内容阅读
数据挖掘的目的是从大量数据库中发现人们感兴趣的、隐藏的、先前未知的知识。在实践中经常为了考察某个效果与某些因素之间的关联而进行相关的测量实验,得到一些离散的效果数据,那么这些离散的效果数据与测量因素之间关系的分析将是一项非常重要的工作。在药剂实验中通过实验测试,可以得到一些离散的实验数据,这些实验数据是在各种因素(如药物浓度、药物起作用所需温度、药物起作用所需浸泡的时间等)共同作用下所得的效果数据。这些效果数据中隐藏着一些关联规则,若只凭借人的先验知识和经验是无法发现的。本文试图将数据挖掘技术应用到这类数据,以发现其中隐含的有用信息,为药剂研发提供科学的理论依据。数据挖掘中的有关数据库方法主要是多维数据分析即OLAP方法,在OLAP多维结构上可以采取多种技术对数据进行操作,使用的技术是切片、切块、旋转、下钻及上卷。但这些技术会对数据处理产生一些片面性。在切片处理后的各个数据子集上用回归分析建立相关函数模型,以切片因素为单位对所有的函数模型分组,对每一组模型中的变量因素进行偏微分系数的全面挖掘,这样可以消除切片处理带来的片面性。本文针对实践中的要求和要处理对象的特点,提出了高维数据挖掘模型。通过应用多维数据分析中的切片技术对离散的药剂效果数据预处理,再采取一种多因素模型方法,得出每个切片因素不同取值下数据子集上的有效相关函数模型。然后在每一切片因素下的模型组中对每一变量因素进行偏微分效应分析,揭示了药剂产生效果的过程中各个影响因素的整体变化规律,用偏微分效应分析来挖掘数据中隐含的有用信息的技术同时消除了切片过程中产生的片面性。根据挖掘出的结果,结合实践中的约束条件,求出实践中的最优参考解,此参考解与药剂研发过程中的实验效果数据非常吻合,得到了药剂研发工作人员的认同。