基于贝叶斯网络的数据挖掘及其在新药试生产中的应用

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:ljyxq13571302523
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从大量的、随机的数据中,提取潜在有用的信息和知识的过程。贝叶斯网络起源于贝叶斯统计学,是一种图型化的模型,能够图形化地表示一组变量之间的联合概率分布函数。近年来人们发现利用贝叶斯网络进行数据挖掘能挖掘出多层、多点的因果概念联系,因此数据挖掘与贝叶斯网络的结合自然是顺理成章。 本文简要介绍了新药试生产管理系统的主要功能,重点研究了采用贝叶斯网络进行数据挖掘的过程。针对新药试生产数据的特点,改进了现有的贝叶斯网络结构学习和推理算法,并在实际系统的应用中取得了良好的效果。 新药试生产的数据具有量小、不集中、不完整等特点,为进行贝叶斯网络的结构学习带来了一定的困难。首先,需要定义并查找相似数据,从数据库中抽取出一定规模的数据。其次,采用系统聚类法对抽取出的数据作适当的预处理。系统聚类法是聚类分析的一种,能对数据进行离散化处理。然后,参考在贝叶斯网络学习中经典的期望最大值(EM)算法,采用一种改进的期望最大值(Struct EM)算法,专门用来解决不完整数据问题,在一定程度上满足了实时应用的需要。随后,对于学习得到的贝叶斯网络,设定一些已知条件,采取联结树(Juction Tree)算法进行贝叶斯推理,实现应用系统的最终目的:推理出用户关注的未知条件的结果,为用户提供决策支持。最后,在论文结尾以具体的实验数据,展示了该套方案的可行性以及有效性。
其他文献
在计算机辅助语言学习CALL(ComputerAssistedLanguageLearning)中,语音处理技术的应用越来越广泛。当今已经存在很多方法来判断和评估发音的准确性,并取得良好的结果。对于口语中
危险化学品种类繁多,且具有易燃、易爆、毒害、腐蚀等特性,对我国的城镇、人群、河流造成不可忽视的威胁,其安全经营、储存、运输等工作显得十分重要。本文旨在上海市科委“现代
软件能力成熟度模型集成(Capability Maturity Model Integration,CMMI)是由美国卡内基·梅隆大学的软件工程研究所提出的一套针对软件过程的管理、改进与评估的模式,其根本
近几年,随着因特网的普及,计算机网络信息安全研究得到飞速的发展。但是,有线网络中的信息安全与无线网络既有联系也有区别。因此,研究无线网络的安全问题,在移动通信的高度
随着当今互联网的飞速发展,互联网上的信息挖掘也变得越来越重要。而在这大量的数据中,深层互联网中的信息不仅从数量还是从质量上来说,都大大地优于表层互联网。然而,相对于表层
随着多媒体通信技术的不断发展,作为人机通信重要方式之一的语音合成技术以其方便、快捷的优点受到了研究者的广泛关注。语音合成的目标是使合成的语音可懂、清晰、自然而富有
生物信息学是最近几年兴起并得到快速发展的交叉学科,它是在生物分子(DNA和蛋白质)数据海量涌现的情况下采用传统的生物学方法无法处理的背景下产生的。生物信息学综合运用数学
随着呼叫中心的日益发展和普及,计算机电话集成(CTI,Computer Telephony Integration)技术也日趋完善,为提高开发效率,CTI中间件应运而生。然而,传统的CTI中间件开发模式受开发领
随着无线网络和移动定位等相关技术的发展,人们希望方便快捷地获取和利用移动对象的位置信息。近年来,移动对象数据库(Moving Objects Database)逐渐成为数据库领域研究的热点
随着电信业务的快速发展,电信管理网络规模日渐扩大,管理日趋复杂,网络管理软件的开发也日趋复杂。随着软件工程体系的不断规范化和标准化,对软件质量的要求越来越高,软件测试作为