论文部分内容阅读
出生缺陷是全世界面临的重要公共卫生问题。出生缺陷的发生给家庭和社会带来了诸多压力,严重的阻碍了人口的可持续发展。中国是世界上人口出生缺陷率最高的国家之一,并且我国出生缺陷的发生呈上升趋势,对控制出生缺陷这类非传染性疾病的传统研究采用的是线性还原式的研究方法,这种方法存在着相当的局限性。针对传统研究的局限性,本文将数据挖掘算法引入出生缺陷发生规律的研究中.数据挖掘是当前国际学术界一项前沿的研究课题,它是一个多学科领域。涉及了数据库技术、人工智能、机器学习、神经网络、统计学、模式识别、知识库系统、知识获取等诸多领域。数据挖掘(Data Mining),也称之为数据库中知识发现,是自动的或方便的模式提取,这些模式代表隐藏在大型数据库、数据仓库或其他大量信息存储中的知识。分类是数据挖掘的重要内容之一。目前,分类已广泛应用于许多领域,如医疗诊断、天气预测、信用证实、顾客区分、欺诈甄别。挖掘分类模式的方法有多种,如决策树方法、贝叶斯网络、后向传播法、遗传算法、基于关联的分类方法、粗糙集和模糊集方法等等。其中决策树方法在海量数据中的应用最为广泛。决策树因其结构象一棵树,而且可以用于决策而得名。ID3和C4.5是两个最为著名的决策树分类算法,是Quinlan为了从数据中归纳分类模型而构造的算法。C4.5算法继承了ID3的全部优点。它是一种归纳学习算法,先从所有的事例中选取一部分构造决策树,再用剩下的事例测试决策树并对它进行调整。它不仅能处理连续值类型的属性,还可以对属性的取值集合进行等价类划分,划分在同一类的属性值在属性值判断时走向同一分支。本文首先详细介绍了数据挖掘概念、数据挖掘技术、应用领域等。其次对分类、分类方法进行了分析研究。在此基础上,对决策树分类方法进行了系统、深入的分析研究。并采用C4.5算法在出生缺陷数据上进行了发生规律的学习和规则提取,为出生缺陷诊断和预测构造系统,在经过处理数据的基础上生成了一组出生缺陷诊断与预测规则。