论文部分内容阅读
数据挖掘(Data Mining),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘的广义观点:数据挖掘就是从存放在数据库,数据仓库或其他信息库中的大量的数据中“挖掘”有趣知识的过程。数据挖掘,又称为数据库中知识发现(Knowledge Discovery in Database, KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程以下步骤组成:(1)数据清理,(2)数据集成,(3)数据选择,(4)数据变换,(5)数据挖掘,(6)模式评估,(7)知识表示。数据挖掘可以与用户或知识库交互。数据挖掘利用了来自如下一些领域的思想:(1)来自统计学的抽样、估计和假设检验,(2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。信息技术和生命科学被认为是21世纪的标志性学科。本世纪的人类社会被誉为“信息社会”,信息化,网络化,高科技化已成为社会发展的基本特征。特别是20世纪90年代Internet等现代信息技术的飞速发展和人类基因组计划的完成,使人们面临的不仅仅是一个庞大的信息数据库,而是浩瀚的信息海洋。正是生物技术和信息技术的有机结合,催化一个新的学科——检验医学信息学的诞生。医学是一门与试验和信息结合非常紧密的科学,检验医学更不例外。完成一个诊断或治疗的过程,也就是信息的获取,处理和利用的过程。可以说,更广泛地获取信息,更科学地分析信息,更合理地利用信息决定了医疗质量和医疗水平,而计算机技术在其中起到非常重要的作用。也正是由于计算机技术使医学检验发生革命性变化,改变了医学检验的学习理念和工作方式。随着信息技术的发展,主要是基因信息库和蛋白质信息的利用,高度集成的试验室信息系统(Laboratory Information System, LIS)和医院信息系统(Hospital Information System, HIS)的建立,临床医学信息学和疾病信息学的高速发展,医学检验教育的方向适应新的形式,在全体检验同仁的共同努力,医学检验也就很快发展成为不仅仅为临床提供实验数据,而且为临床诊疗决策提供重要信息的检验医学。研究目的:将有限的检验信息提炼为高效的诊治信息,从技术层面探索检验医学的临床实践新途径。研究方法:以CA72-4,CA199和CEA三项血清标志物检验诊断大肠癌为例,依托实验信息系统(LIS)与医院信息系统(HIS)的数据信息平台,利用人工神经网络(Artificial Neural Network, ANN)为数据挖掘工具和SPSS统计软件构建受试者工作特征曲线(Receiver Operating Characteristic, ROC)数据集,以验后概率解释每一份胃肠肿瘤标志物检验报告。研究结果:纳入研究的1206份胃肠道肿瘤标志物检验标本中大肠癌占11.5%;构建了CA199,CA72-4,和CEA检验筛查和诊断大肠癌的ROC数据集;大肠癌组三项血清标志物浓度均显著高于健康对照组和其他疾病组(<0.01);CA199,CA72-4,CEA和人工神经网络诊断模型预测值筛查大肠癌的ROC曲线下面积分别是0.624,0.692,0.721和0.785。而诊断大肠癌的ROC曲线下面积分别是:0.607,0.762,0.687和0.795。赋予验后概率的检验报告客观地提供了检测结果的参考价值。研究结论:人工神经网络(Artificial Neural Network, ANN)模型在多项检验项目分析具有更高的诊断效率,构建ROC数据集并赋予验后概率的检验报告是检验医学临床实践切实可行的新途径。