构造性知识发现方法研究

来源 :安徽大学 | 被引量 : 12次 | 上传用户:qq_13439718
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科学和网络技术的不断发展,数据的产生量急速增加,海量数据中知识发现成为人工智能领域研究的重要课题。决策树、神经网络、Bayesian网络等是当前知识发现的重要工具。但这些方法存在速度慢、网络结构难以确定等问题,难以满足知识发现对时效性的要求。张铃教授等在对BP等算法分析的基础上提出了基于覆盖的构造性机器学习方法,该方法根据样本自身的特点,构造神经网络,方法直观高效,较好地解决海量数据的处理问题。本文在分析当前知识发现中常用的分类方法的基础上,结合Rough集、SVM等理论,对该方法进行了深入研究,取得以下研究成果: (1) 基于覆盖的构造性学习方法直接根据样本数据构造覆盖网络,克服了传统神经网络计算中网络结构难以确定、运行速度慢、局部极小等问题,适宜于多类别、海量数据的处理。本文对该方法进行深入的分析,在领域构造、激励函数、距离函数等方面提出改进措施,实验证明这些改进进一步提高了覆盖算法的性能; (2) 学习样本的选择和学习顺序对神经网络的结构和网络的性能有直接影响,覆盖网络也与学习顺序密切相关,本文给出三种顺序覆盖方法,实验表明这些顺序覆盖方法不是最优的学习顺序,但其精度都接近或高于随机学习的平均值。在顺序覆盖的基础上,本文给出覆盖算法的增量学习和领域约简方法,有效地降低覆盖领域个数并提高覆盖网络的识别精度; (3) 由于描述对象的相关属性未知,现有的数据库使用大量的属性描述对象,大量冗余属性的存在,致使分类系统无法有效运行,合理选取属性特征,在保持分类能力的前提下,降低数据量,以提高分类的速度。Rough集理论为特征属性的选择提供了重要工具。本文利用Rough集方法选择属性,建立基于Rough的覆盖算法,在基本保持分类能力的前提下,提高分类的速度,并提出加权覆盖的设想。 (4) 建立在统计学习理论基础上的SVM方法,通过映射到高维空间和最大化分类间隔,构造最优分类超平面,具有较高的泛化能力和推广能力。本文分析了SVM与覆盖算法的共性和径向基函数的特点,提出基于径向基函数的覆盖算法,实验表明这一算法可以大幅度地降低覆盖个数和拒识样本数,同时实验也表明当参数选择适当时特征空间确实现线性可分。在 安徽大学博士学位论文商空间理论的指导下,本文提出覆盖领域溶合的概念,并给出领域的最大值融合和组合优化溶合的具体算法。领域溶合算法光滑了覆盖领域的分类边界,简化了SVM问题求解的复杂度,提高了覆盖算法的性能,将覆盖算法与统计学习理论结合起来,为覆盖算法提供了理论依据。 ⑤目前分类的方法众多,如何求出个数最少的分类超平面或者说隐层元,一般是很困难的。本文利用样本集和超平面的对偶关系,提出求解分类问题的对偶算法,它将样本集和超平面投影到各自的扩充空间,用遗传算法的思想,给出求划分矩阵的连线搜索法,然后用粗糙集的约简方法求出分类问题的解域,最后用求最大间隔解的方式求出问题的最优(次优)解。这一方法仍须进一步完善,但为我们求解分类问题提供一个全新的方法和思考问题的角度,具有广阔的应用前景和丰富的研究内容。
其他文献
在数据仓库系统中,一个仓库数据项的精确的历史沿革,即该数据项从获取、转换、集成到现状这一完整过程的相关描述和信息,称为数据志(Data Lineage)。数据志包含两个部分:起始数据
人类已经进入信息社会,计算机网络技术为信息的获取、传输、处理、利用提供了越来越便捷的手段。由于网络“黑客”与“入侵者”的活动日益频繁,使得计算机网络中的信息变得越来
叛逆者追踪技术是国际上90年代以来才形成的一个交叉研究方向。近几年来,叛逆者追踪技术的研究发展十分迅速,研究队伍迅速壮大,现在已成为信息安全领域的一个热门研究课题。目前
一项最新的研究显示,蛇类可以在缺乏食物的情况下将新陈代谢的频率降低70%之多,这使得它们不仅可以长时间不吃不喝而不死亡,甚至还可以长得更大。美国阿肯色州立大学的生物学研究
计算机辅助设计引起了工业设计行业的变革,也对工业设计教育提出了更高的要求。计算机辅助设计在工业设计的流程数据管理,产品效果表现以及计算机辅助模型制作中发挥了工具化的
试验、建模和计算是工程力学的重要组成部分,也是计算机辅助工程技术的基础。计算机辅助工程技术的进步和发展,使得过去无法处理的大量自然现象可以利用计算机技术来进行高精
图论是一门充满生机的学科。它与理论计算机科学有密切的关系,图论为研究理论计算机科学提供了强有力的数学工具,高速发展的计算机技术又促进了图论学科的发展。图论在以信息
可变剪接是指从一种前体mRNA(Pre-mRNA)中产生不同mRNA剪接型(异构体)的过程。它对真核生物中蛋白质组多样性具有重要贡献,并且使得蛋白质异构体的表达受到更多调控信号的调