论文部分内容阅读
面向医学海量资源宝库的智能化再加工的所谓医学数据仓库技术以及面向临床的医学数据库知识挖掘技术已成为从事数据库技术研究的科研人员与医务工作者通力合作的热点、难点和重点。本课题正在开发的肺癌数据库挖掘系统是计算机教研室与我校第一附属医院呼吸科共同研制的、以科研为主要目的、支持数据挖掘和知识获取的综合型数据库系统,用于肺癌的相关研究。本论文的主要工作如下:1.建立了具有层次关系的肺癌数据库系统的树形代码体系。在分析肺癌数据库数据特点、肺癌研究需求及医学数据挖掘难点等基础上,建立了具有层次关系的肺癌数据库系统的树形代码体系,实现了医学数据代码化、标准化和特征化;在保证医学对象数据自然聚合性(如:一张化验单的数据必须自然聚合,方能综合反映患者一种状态)基础上,为肺癌数据库扩充了N1NF功能,全面提高了数据库系统的时空效率。2.建立了肺癌数据库查询及数据挖掘的数据模型,并给出了相关操作的形式化定义及基本算法思想。本文把医学对象(如疾病、诊断、医疗方案等)表示为多个属性单元,通过属性单元的不同运算(或者操作)实现所谓的查询分析、统计汇总及数据挖掘等综合性操作。将关系数据库中面向字段的表达式组合的、按自然关联通过连接操作重新聚合的、面向大批量数据库字段(包括多个数据表)的查询,简化为面向层次代码化的数据集合运算(或者操作),并引入了相似度的概念,解决了医学数据挖掘中的模糊匹配问题。3.肺癌数据库中,为了保证数据存储的时空效率,描述患者的数据通常由多个物理数据库表存储。为了为终端用户提供一个以全局模式分析及各种条件组合的环境以及以医学对象整体的方式对结果进行解释的目的,本文引入了泛关系模式的概念,把肺癌数据库的所有属性组成一个关系模式,这个关系模式就称为泛关系模式,并提供了专用的泛关系数据库操作接口。为了解决泛关系模式中数据表连接操作中的大体积、大冗余及时空低效率问题,本文提出增量式(只聚集涉及的数据库表、数据库字段)泛关系运算的概念,引入与关联和或关联的构造算法,取得了较为理想的运行效果。4.建立自然表接口。以临床实际使用的表单作为数据录入修改、查询统计、数据挖掘等综合操作的用户操作接口,称之为自然表接口,增强了操作界面的用户友好性,受到了用户的一致好评。5.建立数据处理模板。以代码重用、功能封装、面向对象、OLE技术、组合使用等为主要特点的程序模板化技术,是目前软件技术中倍受推崇的技术之一。本文把这一技术引入到肺癌数据库系统之中,建立代码驱动的数据处理模板。模板采用基于树视图的表达结构,可清晰地表达数据之间的层次关系、并列关系以及数据的组合状态。针对不同的肺癌数据,只要进行模板的组合,用相应的代码驱动各个组合的模板,就可轻松地解决各种层次型数据和组合型数据的界面表达。在本文中,模板的组合使用构成了系统中各部分的用户界面,便于用户的交互,解决了数据的输入输出、查询条件的构造生成、挖掘条件的组合生成、结果的表达等问题。6.软件开发与实现。在Microsoft WindowsXP系统上,采用MicrosoftSQL Server 2000和Sybase PowerBuilder 10.0开发肺癌数据库系统。