数据块状缺失情景下的信用评估建模研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:zhongfeiran
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着金融业务的不断拓展,信贷市场规模逐渐扩大,线上线下齐头发展,信用评估在金融机构的风险管理中日趋重要,提升信用评估的精度是金融机构在风险控制环节中的核心,在风险防范方面具有重要作用。由于大数据、信用决策等科学技术在信用评估领域中的引入,被评估人的信用信息包含更全面的特征指标,也可能从多个不同来源收集申请人的各种历史信息以对其信用状况进行综合评价。然而,在此情景下,信用评估数据集普遍出现某些被评估人信用数据的多种相同特征同时发生缺失——块状缺失问题,其缺失比例大,缺失特征多,这阻碍信用评估模型的构建与应用,尤其是针对中小企业或者个人的信用评估。传统地,一般会在模型训练之前删除缺失样本或对缺失值进行填补以获得一个完整的数据集,但对于块状缺失问题会导致大量有用信息的丢失或对分析产生偏差影响。针对以上弊端,本文提出了一种基于多任务学习的信用评估模型构建方法。该方法主要包括两个步骤:识别缺失模式,并以此将数据集划分为若干不重叠的子集;将Logistic回归嵌入多任务学习方法,对所有子集进行联合特征学习,最终得到多个最优子模型用于预测。同时,考虑到用于预测的新样本可能存在缺失数据、且其缺失模式可能与训练集样本的缺失模式不同的问题,基于集成学习中的融合思想,根据新样本与子模型缺失模式的样本相似度和各最优子模型的预测准确率,对最优子模型进行加权聚合,以得到新样本的最佳预测结果。本文方法的优势在于不需要对块状缺失进行数据预处理,模型学习可以充分利用给定数据,也避免了数据删除或数填补方法带来的信息丢失或数据分布偏差,并可以降低过度拟合风险,同时还可以解决信用评预测样本存在缺失数据的问题。方法方便简洁、适用范围广。在实验过程中,采用来自UCI的三个信用数据集对提出的方法以及其拓展的性能进行检验,并将该方法与常用的缺失数据处理方法进行了比较。结果表明,本研究提出的方法比数据删除法和数据填补法能产生更好的信用评估模型。
其他文献
20世纪初,随着金融投资者在商品市场中的作用日益增强,大宗商品金融化的术语应运而生。此后,大宗商品价格的波动愈发与股票价格相似,隐有超出经济基本面趋势,这不仅不利于大宗商品市场的正常运行,可能还会使配置投资组合失灵。在金融市场面临的不确定性不断升高的环境下,大宗商品的金融化属性不断增强。因此,在时变条件下,分析大宗商品市场与股票市场之间的相关性和波动溢出效应具有重要意义。本文选取了2004年6月1
学位
波动率是制定金融衍生产品价格、资产分配、风险管理和量化交易战略的重要基础,是金融研究的热点。随着信息技术的快速发展,取得能够反映市场上更多信息的高频率日内波动率研究数据变得容易,促进了对高频率领域的波动率研究的发展;另一方面,为了形成和发展高频率交易,制定交易战略,管理交易风险,优化交易过程,均需要高频率数据下已实现波动率。本文首先引入非对称因子检验沪深300指数高频数据日内波动率和收益率的非对称
学位
在这个科技与经济急速发展的时代,各类产品更新换代的步伐也在不断增速。这不仅对环境造成了污染,也使得消费者对产品的技术水平提出了更高的要求。因此对产品或制造流程进行技术创新,已经成为很多制造企业提高市场竞争力的重要战略决策。同时各国政府也开始对产品创新予以高度重视,通过制定政策来激励企业进行创新研发,以提高企业的利润及生产效率。兼顾国家可持续发展战略与新时期经济高质量发展要求,技术创新下考虑政府补贴
学位
随着我国绿色循环经济的不断发展和进步,越来越多的企业开始认识到只是完成正向供应链中的采购、生产储存、运输流通及销售等环节是完全不够的,逆向供应链中废旧品的回收再制造、再利用等也是提高效益的重要环节。在现实的商业环境中,许多大型企业可以借助一定的营销和销售努力行为来吸引消费者,增加消费者的好感度,从而提高产品的市场占有,刺激市场需求量的增加,而且消费者在选购产品的时候,也会同时关注企业的产品质量和社
学位
在后危机时代,准确地度量金融机构之间的关联性与系统性金融风险成为监管当局与学术界广泛关注的热点问题。而以往针对关联性的研究大多数都假设机构之间的关联性在所有频率上都是相同的,而忽略了网络中金融机构之间关联性的方向和强度可能随频率而发生变化。因此,为了探索中国金融机构在时频范围内的关联性,提出时频信息溢出网络模型,以度量金融机构间风险溢出的方向、强度及期限结构。本文以A股上市的30家中国金融机构为研
学位
Skyline查询广泛应用于多准则决策,作为一种强大的数据分析工具,它可以从不同分销商的大量绩效数据中检索出最具代表性的绩效信息,能够有效地满足分销渠道绩效评价的需求。但是,分销商提交的绩效数据可能包含敏感信息,Skyline查询过程也可能进一步泄露隐私信息,从而导致商业机密的泄露。因此,如何保证基于Skyline查询的分销渠道绩效评价的隐私性成为迫切需要解决的问题。由于差分隐私在隐私保护方面具有
学位
随着“互联网+”技术对各行业不断渗透,在线教育行业得到迅速发展,尤其在2020新冠疫情影响后,更是得到迅猛发展。同时,互联网巨头的不断加入导致商业模式下的在线教育行业规模不断扩大,竞争越来越激烈。在线教育高速发展的背后存在着学习者粘性低、体验满意度低及多数课程处于休眠状态的问题。如何及时识别学习者需求及态度、提高课程质量及满意度一直以来都是运营商及学者关注的问题。通过传统的调查问卷、专家访谈、文献
学位
近年来,随着金融市场体系的日渐完善,量化投资的蓬勃发展,越来越多的投资者尝试将机器学习算法应用于股票市场中以获得超额收益。股票指数走势作为股票市场趋势的综合表现,对其进行准确预测能够对投资起到重要的参考作用。然而由于股票市场受到各种复杂因素的影响,导致金融时间序列信噪比极低,这大大降低了股指趋势预测模型的有效性和准确性。在实际中,大多研究都着眼于优化模型自身以提高预测精度,而忽略了数据中噪声的存在
学位
互联网对人们生活的全面渗透以及电子商务市场竞争的愈发激烈,迫使企业必须不断地更新产品销售模式以夺取市场优势。生鲜农产品作为日常生活中必不可少的消耗品,同时又有着保质期短、易腐烂、价值随时间变化的特性,因此预售模式受到了生鲜农产品供应链管理者的青睐。由于现实中生鲜农产品供应链的预售定价决策不仅与新鲜度、价格、时间相关,还会受到两阶段需求相关性、零售商的销售努力以及消费者对平台的偏好等因素的影响,因此
学位
电子商务的发展使得双渠道供应链成为众多企业的主流运营模式。同时,废旧产品数量的逐年增加,进一步加剧了环境污染和资源短缺的问题。回收再制造作为发展循环经济的有效途径之一,其社会效益和经济效益吸引了众多原制造商和第三方再制造商开展回收再制造活动。本文以具有较高企业利润和社会效益的混合再制造为背景,基于由受专利保护的原制造商、零售商和第三方再制造商组成的双渠道闭环供应链,对比三种决策模型的均衡解,探究原
学位