数据挖掘的统计模型和算法的研究

被引量 : 0次 | 上传用户:fox_pop
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,无论是在学术界还是产业界,数据挖掘(Data Mining)都是一个相当热门的专题,它是从大量数据源中,利用模式识别、统计和数学的技术、筛选发现新的有意义的关系、模式和趋势的方法。数据挖掘是一个交叉性的学科领域,受多个学科的影响,包括数据库技术、统计学、信息科学、机器学习和可视化等。所以数据挖掘并不只是一种技术或是一套软件,而是数种专业技术的综合应用。其中有相当大一部分是建立在统计分析的基础上的,如预测模型中应用较广泛的回归和时间序列的方法。数据挖掘的一个难题是异常挖掘,而另一新兴学科-统计诊断中的相关理论很大程度上解决了这一难题。本文在前人的研究基础上,对数据挖掘的理论进行研究,从统计的角度出发,研究了数据挖掘中异常点、影响点挖掘的相关理论。我们在第一章中介绍了数据挖掘、统计诊断的发展情况和国内、外的研究现状,并介绍了本文的主要工作。第二章给出了本文涉及到的相关理论的综述,包括数据挖掘、线性模型、统计诊断的相关理论。第三章研究了椭球约束下线性模型的影响点挖掘,给出了相应的统计量,并设计异常挖掘算法。第四章研究了当线性模型的参数估计不是最小二乘估计而是泛岭估计时的异常挖掘,给出了针对泛岭估计的COOK距离,用其作为挖掘强影响点的工具。第五章利用时间序列的方法对证券交易数据进行了挖掘,找出了数据中的模式和异常,相对传统方法而言,给出了更精确的预测模型和异常挖掘方法。最后对本文做了总结,并对相关问题做了展望。
其他文献
本论文综述了国内外锌镍电池的研究和发展现状,指出了锌镍电池研究中目前存在的问题,采用化学分析、X-射线衍射分析(XRD)、扫描电镜(SEM)、充放电性能测试等多种化学与电化学研究
随着中国综合国力的增强和国际地位的提高,中国在国际舞台上越来越令人瞩目,外界了解中国的愿望也日益强烈。一年一度的《政府工作报告》是中国政府向其人民代表所做的工作总
吴筠是唐代著名道士,其《高士咏》与《览古》诗是前代少见的咏史组诗。《高士咏》的创作目的是为了批判当时社会上的伪隐之风,对历史上的高士进行咏赞。《览古》诗则从道家哲
河北省晋州市周家庄乡是全国唯一实行乡一级核算的乡镇,是现阶段全国最大的人民公社,其利用合作这一核心优势在经济发展、乡镇规划、福利保障等方面均以不同程度领先于普通农
从20世纪60年代开始,当企业的环境构成及其变化已深刻地影响到企业的生产经营决策与运营过程的有效性,企业管理就开始走向了战略管理时代。从此,企业就开始从注重内部组织与
目前因特网在信息表达和检索方面存在的缺陷成为智能知识检索的一个瓶颈问题,主要是其设计目的是面向用户直接阅读与处理,而没有提供计算机可读的语义信息,因此限制了计算机
南水北调中线工程是南水北调工程的重要组成部分,它对缓解京津及华北地区水资源短缺,改善受水区生态环境,促进华北地区经济和社会的持续稳定发展具有巨大作用。汉江中下游河
随着我国政府对于加快小城镇发展的各项政策的逐步出台以及这些计划的逐步实施,我国小城镇正在经历一个快速发展的阶段。但伴随发展而来涌现了各种各样的问题。虽然关于小城
本文首先对绩效的概念、性质和特点进行了分析和解释,认为绩效是一个具有层次结构的概念,是指那些经过评价的行为、过程和结果。它具有多因性、多维性和动态性。对绩效不同的