基于聚类和半参数Logistic的缺失数据插补研究

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:gf2516
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和信息技术的发展,数据在技术革新、产业发展、科学研究等方面成为了重要的资源。从海量的数据中发现潜在有用的信息、知识和科学规律需要建立在高质量的数据集上。然而在现实世界中得到不完备数据集是不可避免的,数据缺失将会导致模型性能损耗。缺失值插补是统计学领域热点的研究方向。当前主流的数据插补方法中,多数针对缺失数据类型为连续型的缺失数据集展开,缺失数据为类别型的插补方法较少。当前经典的类别型缺失数据处理方法中,大多数通过直接删除缺失样本或者用众数填补法、K近邻填补法等方法来解决这个问题,这些方法一方面造成巨大的信息损失或者偏差,另一方面这些插补方法多数仅仅考虑数据样本间的相似性或者属性值之间的相关关系其中一个方面,未能利用不完备数据集中的全部信息进行精细建模。聚类算法作为一种典型的无监督机器学习算法,根据数据集的样本之间的距离,将数据集中相似的样本尽可能划分到同一组中,相异度大的样本尽可能区分到不同的组中;半参数logistic模型可以同时考虑自变量中线性相关关系和其他干扰作用;考虑到聚类算法能够把相似的样本数据划分到一个分组中、半参数logistic能反映充分挖掘属性值之间潜在线性相关关系和非线性相关关系的优势,本文提出了一种基于聚类和半参数logistic的类别型缺失数据插补方法,为处理调查数据集中的缺失数据提供了方法。该模型可以划分为两个阶段。第一阶段是预插补和聚类阶段,主要的任务是将含有缺失值的原始不完备数据集划分为两个独立的数据集,对划分出来完整数据集的属性进行相关性分析,然后通过完整数据集训练K近邻插补算法插补缺失数据集,也称为预插补。预插补完成后,对形成的初步完备数据集,利用K-means聚类方法对其划分为K个数据分组,同一数据分组中的样本具有很高的相似度,不同数据分组之间的样本相似度较低。第二阶段是半参数logistic学习和插补阶段,主要的任务是完成半参数logistic的参数估计和缺失数据集的再次插补。根据第一阶段得到的K个数据分组,根据阶段一的相关性分析把自变量划分为线性部分和非线性部分,在每一个数据分组中建立半参数logistic,对该数据分组内的缺失数据集的样本进行缺失值插补。为了验证本文提出的插补模型有效性,本文使用模拟数据和中国家庭金融调查数据集开展实验研究。实验结果表明,采用本文模型填补的结果较优于众数填补法、K近邻填补法、随机森林填补法这三个经典类别型缺失值填补方法。最后进行了总结并提出了研究展望。
其他文献
“三农”工作是全面建设社会主义现代化国家的重中之重。我国农村金融发展进入快车道,然而由于多种历史及现实因素的交织作用,在我国农村地区亟待完善的金融服务体系下,农村地区金融服务需求与供给的匹配度还难称令人满意,农村金融排斥现象依然存在,农村地区处于传统弱势地位的部分群体被主流金融系统排斥在外,自身合理甚至必要的金融需求难以得到满足。吉林省作为我国的农业大省之一,是重要的粮食主产区,第一产业在吉林省经
学位
摘要: 【目的】对上海市某社区糖尿病高危人群追踪并随访2年,观测血糖控制水平,分析高危人群发病情况及危险因素,掌握糖尿病高危人群中发病及危险因素分布情况,为上海市社区制订糖尿病早防早治策略提供依据。【方法】按照糖尿病高危人群标准收集580例研究对象,其中血糖已达糖尿病诊断标准者77人进入患者组,其余503人进入高危组,给予门诊随访、健康教育等相应的干预方法,并在入选后第12、24个月再次进行血糖
期刊
随着我国电力企业的快速发展,电网规模不断扩大,对于电网系统运行的安全性要求越来越重要。传统的电厂安全巡检主要依靠人工,需要耗费大量的时间和人力资源,且巡检效果无法得到有效保证。基于物联网技术,利用传感器采集电厂设备的状态信息,通过网络平台进行数据传输,实现精准定位和预警。对基于物联网技术的电厂安全监控预警平台进行详细分析,提供行之有效的建议。
期刊
绿色信贷政策在我国已经实施了多年,信贷政策体系也得到较为完善地发展,信贷规模也稳步上升。随着我国经济社会的发展,人民日益增长的美好生活需求使得我国人民对良好的生态环境有了新的、更高的要求。现如今,我国正顺应着全球低碳、绿色、可持续发展趋势大力发展绿色金融,而当今我国绿色金融的重点绿色信贷,对于实现习近平总书记所提出的关于二零三零年碳达峰、二零六零年碳中和的目标,也扮演着关键的角色。本文在分析我国绿
学位
成渝地区在国家整体发展中具有十分重要的战略地位,以成都、重庆两城市为核心的成渝地区双城经济圈为进一步开发西部地区提供了支点优势,同时也将成为带动全国发展的重要增长极和西部地区经济发展新的动力源。建设成渝地区双城经济圈,提升其战略地位和综合实力,需要与之配套的产业定位、产业结构和发展模式。因此,成渝双城经济圈产业结构的分布特征、演变规律及其驱动因素等问题具有重要的研究意义,在区域内部产业结构的发展中
学位
报纸
中国作为人口众多的发展中国家,减少贫困人口一直以来是一个非常艰巨的任务。改革开放以来,我国的经济取得了巨大的发展,与此同时扶贫开发工作也取得了显著的成效。2021年我国脱贫攻坚战取得了全面胜利,现行标准下9899万农村贫困人口全部脱贫,832个贫困县全部摘帽,12.8万个贫困村全部出列,区域性整体贫困得到解决,完成了消除绝对贫困的艰巨任务。我国解决贫困问题的工作重心由消除绝对贫困逐步过渡到改善相对
学位
随着建筑行业的快速发展,工程施工安全成为人们越来越关注的问题。建筑工程安全管理通过应用建筑信息模型(Building Information Modeling,BIM)技术能够实现工程智能化管理,有效降低安全风险发生的概率。基于此,本文以建筑工程安全管理中应用BIM技术的意义为切入点,阐述了工程安全管理中构建BIM模型的要求,并结合具体建筑工程安全管理过程中应用BIM技术的实例,提出安全管理措施,
期刊
新型农业经营主体(新农体)是推动农业现代化,促进农民增收,实现乡村振兴战略的关键载体,为此,党中央国务院出台了一系列金融支持政策。目前,新农体由于自身规模效益、经营管理、风险分担等原因,遭遇到了融资困境,金融支持面临一些新问题尚待破解。本论文着重研究新农体高质量发展中的金融支持路径以及融资模式问题。本文梳理了国内外相关文献,研究表明金融支持新农体高质量发展路径尚不清晰,融资渠道有待畅通。通过厘清基
学位
我国经济发展正在向实现高质量和高效率增长的目标进行推进。但就目前情况来看,我国的金融体系丞需完善,虽然一定程度上充足的资金对经济增长起到了重要的作用,但仅仅依靠资本在“量”上累积是不够的,还需要注重其在“质”上的发展,金融发展的总体增长作用不仅依赖于适度扩张的金融规模,还要额外考虑金融体系中金融效率这一影响因素。只有将资源高效率的配置才能真正地起到对经济增长促进的作用。因此对于研究金融发展对经济增
学位