贝叶斯分类器的增量学习及缺失数据处理的研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:yiqikeren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库、数据仓库以及Internet 技术的应用发展,使得数据挖掘(Data Mining)和知识发现(Knowledge Discovery)引起了大量学者与专家的关注,越来越显示出其强大的生命力。分类是数据挖掘中一项十分重要的任务,目的是找出分类函数或者分类模型。贝叶斯网络作为一种有效的知识表示方式和概率推理模型,是处理不确定信息的强有力图形决策化分析工具。近年来,基于贝叶斯网络的数据挖掘取得了良好的效果,成为研究热点。本文首先阐述了数据挖掘中分类的主要的方法,介绍、分析了现有的分类方法的定义以及作法,着重介绍了贝叶斯分类技术。贝叶斯网络G=(Bs,Bp)是一个带有概率注释的有向无环图,由网络的拓扑结构Bs和局部概率分布Bp两部分组成。它是以贝叶斯定理、最大后验假设、贝叶斯网络理论为基础的。用于分类的贝叶斯网络叫做贝叶斯分类器。贝叶斯分类器是特殊形式的贝叶斯网络,变量的选取和状态数均已确定,属性结点已知,类结点未知。贝叶斯分类器的学习包括结构学习,参数学习和最大后验概率类结点的推理。由于在大部分的分类系统能够有效地学习是基于这样一个前提:用于训练和测试的数据集是完整的,或者只有很少的特征值是不完整的,而且这些缺失值均匀分布于样本中。事实上,由于各种原因,在许多现实数据库中都存在丢失数据的现象,人们所能收集到的大量信息往往是不完全的(incomplete)或者称之为缺失的(missing)数据。数据的缺失可能与某些属性特征值的状态有关,这时缺失的数据中蕴含着一定的信息量。大部分的分类器在处理这一类的数据集中,将所有的丢失值作为一个单独的值来处理,这势必会影响到分类系统的准确性。因此对于缺失数据的取值或取值趋势进行预测和估计都是非常重要的,在解决实际问题时必须对缺失数据进行正确、有效的处理。贝叶斯网络具有将先验知识和样本数据结合起来进行推理的优点,因此在处理缺失数据问题时,贝叶斯方法是一个强有力的工具。本文主要工作从以下三个方面展开: ⑴归纳简述了贝叶斯网络的理论基础,对当前贝叶斯分类领域的研究成果进行分析,主要是朴素贝叶斯分类器NBC,树扩展朴素贝叶斯分类器TAN 和贝叶斯分类器的增量学习。并对缺失数据的定义,产生的原因以及处理方法进行了分析。⑵结合TAN 和增量学习的思想,本文提出了一种增量的树扩展朴素贝叶斯分类器
其他文献
随着电子技术、计算机技术、通信技术的迅速发展,电力远动系统将面临重大的技术革新。本文通过对当前电力远动系统的分析,提出了基于IEC 61850的电力远动实时信息交换方案。
现场总线适应工业控制系统的分散化、网络化和智能化的要求,促使目前的自动化仪表、集散控制系统等产品面临体系结构和功能结构的重大变革,导致了工业自动化产品的又一次更新
随着社会的发展进步,提出智慧城市的设想也在逐步落实到国家城市规划中来,而智慧路灯管理控制系统作为市政建设的重要基础设施,是智慧城市建设的一个重要分支。本文针对于智
随着网络技术在社会各个领域的迅猛发展和互联网上资源的迅速积累,海量数据的共享、异构数据源(结构化、半结构化、非结构化)的统一管理已经成为当务之急。企业也需要将DBMS,
网络安全是关系到国家利益、集体利益和用户切身利益的大事,是只能依靠我国自身力量发展的技术。其中数字签名技术能够确认参与者的身份,防止恶意的伪造、窜改,在网络通信安
模式匹配问题在计算机科学的基本问题之一。随着科技的发展,带有通配符的模式匹配技术在诸多领域都有重要的应用,如在信息检索、计算生物学和序列模式挖掘等领域。带通配符的
复杂网络是指具有复杂拓扑结构特征的一类网络,现实世界中的社交、运输、生物等许多系统都可以被看作是复杂网络。由于它的广泛应用,复杂网络的脆弱性问题已经成为被大量关注
本文针对工商行政管理的具体特点,给出了一个覆盖工商行政管理绝大部分业务,适用于多级工商管理部门的系统解决方案,并就其数据库设计、开发和数据同步进行了详细的阐述。项
本文在研究建模与元建模理论的基础上,对现有建模方法和元建模现状进行了对比和分析,提出一套比较实用的基于MOF标准的元建模方法。在此基础上,设计了一个基于MOF标准的元建模环
近年来多目标进化算法引起了许多研究者的广泛关注,并且先后出现了很多多目标进化算法。研究者认为一个真正有效的进化算法在于它能求解较难和较复杂的问题,而不只适用于求解