海量数据约简与分类研究

来源 :中国科学院研究生院(计算技术研究所) | 被引量 : 10次 | 上传用户:dingdingdeaiqing86
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文的主要研究是在国家863高技术项目——面向CIMS的数据仓库及数据挖掘研究(863-511-946-01)、渔情分析专家系统(818-07-03),以及国家自然科学基金项目——多策略数据库知识发现研究(69803010)支持下完成的。本文介绍了KDD中机器学习和统计学习理论,研究了大规模数据约简和分类中的基于格的数据约简、高维数据的降维、决策树的画法与可视化等关键技术,并给出了应用实例。本文的贡献主要包括如下几个方面:(1)基于格的数据约简:数据约简是保留决策相关信息的前提下减少数据的尺寸。本文着重讨论了基于格的约简中的机制,提出了基于格的约简算法INREDUCT和INREDUCTCLS。前者用于聚类问题,后者用于分类问题。它们生成最小E-集和最大E-集之间的超元组,从超元组中能够得到与原始数据相同的、甚至更好的决策。超元组h表示成三元组(|h|, {xdsp}, {childi}),其中|h|表示h中包括的简单元组数目,{xdsp}是每个属性的表示,{childi}是指向h包含的元组的指针的集合。超元组是特征空间中的超立方体,通过分析它们边界的密度朝样本密集区域移动,因而具有很好的代表性和概括能力。算法是渐增的,次优的,具有近似线性的复杂度。在该方法中,我们首次提出利用各个维上的边界(处密度)控制超元组对应的超立方体在特征空间中调整,达到次优的覆盖能力和代表性,前者是约简率的保证,后者是正确性的保证,并且通过引入格的方法可以从理论上分析该方法的有效性和合理性。(2)高维数据中高效的相似性计算方法:相似性的计算是CBR和k-NN等Lazy Learning研究中十分关键的问题。本文研究了降低相似性计算代价的方法,并以k-NN为例,介绍了基于部分特征的相似性算法和基于投影的相似性算法,它们能够通过减少计算距离过程中所涉及的特征数目来提高算法的效率。实验表明效率的提高是明显的,其中基于部分特征的k-NN算法效率提高26~28%,基于投影的k-NN算法效率提高48~83%。(3)决策树的画法及可视化技术:提出了一种新的画树方法。通过对美观的树的定义,给出了三个调整算子。在该方法中,先画出一个正态树,然后在对树的遍历过程中利用这三个算子依次调整结点,将得到一棵最紧凑的任意叉树。算法的复杂度较低,结构清晰。同时,描述了树的可视化要点,并成功用于数据采掘系统的决策树可视化。(4)超范例与专家知识的融合:数据库中发现的知识与领域专家的知识
其他文献
激励模式的确定应以企业人力资本结构为基础。战略性经营管理能力、战术性经营管理能力、科技创新与应用能力、执行能力及市场营销能力是企业必须的五种人力资本,各有其特点。
简要介绍了"卡西尼/惠更斯"土星探测器的系统构成.对土星探测所采用的关键技术进行了分析.归纳总结了土星探测全部计划、实施目标.最后提出了我国发展深空探测技术的几点建议
摘要:结合《先进制造技术》课程教学内容和机械类专业的培养目标,剖析授课对象特点,提出自主式教学课堂和应用“案例 启发式”相结合的教学方法,激发学生自主学习兴趣,对提高教学质量,提升学生的工程素养、工程实践能力和创新创业意识具有积极的推动作用。  关键词:先进制造技术;自主式教学课堂;教学方法  中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2017)22-0175-02 
目的系统评价细胞色素CYP2C19*2基因多态性对服用氯吡格雷的冠心病患者的临床预后影响。方法通过检索Pubmed、EMBASE、Scopus、Cochrane图书馆、中国生物医学文献数据库(SinoMe
随着我国新课改的实施和推进.思维导引教学法得到了较好的发展和应用.这种教学课堂不但可以极大地提升学生对语文学习的兴趣,而且实现了学生对语文知识着灵活运用.积极主动引导学
长期以来,隐喻作为一种重要的修辞手段,被文学家关注和运用,并成为哲学家和语言学家研究和争论的焦点,随着研究的不断深入,人们对隐喻的理解也经历了从表层到深层的发展过程,现代认
黑龙江省是蚕业资源大省和全国优质蚕茧产地,有着丰富的宜蚕资源与自然气候条件.嫩江县位于黑龙江省北部,属温带大陆性季风气候,年平均气温0℃左右,系我国较冷地区,但夏季气
针对材料科学与工程专业实验教学环节所面临的问题,将3D打印技术引入材料科学与工程专业实验教学中。在分析3D打印技术原理的基础上,深入剖析了开设3D打印实验教学项目的必要
目的探讨多个椎板间潜行式开窗,减压术治疗多节段退行性腰椎管狭窄症的手术特点及疗效,旨在较大限度地保持脊柱的稳定性,预防传统的椎板切除减压手术引起的不良综合症.方法自