论文部分内容阅读
数据挖掘是从大量的、随机的数据中,提取潜在有用的信息和知识的过程。贝叶斯网络起源于贝叶斯统计学,是一种图型化的模型,能够图形化地表示一组变量之间的联合概率分布函数。近年来人们发现利用贝叶斯网络进行数据挖掘能挖掘出多层、多点的因果概念联系,因此数据挖掘与贝叶斯网络的结合自然是顺理成章。
本文简要介绍了新药试生产管理系统的主要功能,重点研究了采用贝叶斯网络进行数据挖掘的过程。针对新药试生产数据的特点,改进了现有的贝叶斯网络结构学习和推理算法,并在实际系统的应用中取得了良好的效果。
新药试生产的数据具有量小、不集中、不完整等特点,为进行贝叶斯网络的结构学习带来了一定的困难。首先,需要定义并查找相似数据,从数据库中抽取出一定规模的数据。其次,采用系统聚类法对抽取出的数据作适当的预处理。系统聚类法是聚类分析的一种,能对数据进行离散化处理。然后,参考在贝叶斯网络学习中经典的期望最大值(EM)算法,采用一种改进的期望最大值(Struct EM)算法,专门用来解决不完整数据问题,在一定程度上满足了实时应用的需要。随后,对于学习得到的贝叶斯网络,设定一些已知条件,采取联结树(Juction Tree)算法进行贝叶斯推理,实现应用系统的最终目的:推理出用户关注的未知条件的结果,为用户提供决策支持。最后,在论文结尾以具体的实验数据,展示了该套方案的可行性以及有效性。