大规模二分类任务的预选数据方法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:yp888yp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习中的二分类问题有广泛的应用,如贷款违约预测。随着数据量增加,基于数据训练的机器学习模型在很多领域已经接近甚至超过人类。但训练一个有效二分类模型,所需算力也大幅增加。首先,很多机器学习算法时间复杂度,与数据量呈线性、二次甚至高次增长;其次,模型中包含多个超参数,需尝试大量参数组合来选择最优组合。本文拟研究的二分类任务的数据预选问题是,如何从训练数据集中筛选出一个子集,使得基于子集训练的二分类器的预测准确度接近完整数据集的性能。以损失微小的预测准确度为代价,换来训练时间的大幅缩小,可使各行各业以更低成本投产。本文将二分类任务分为正负类对象可分的相对容易任务与不可分的相对复杂任务。在可分二分类任务中,正负类对象分布在最优决策面两边,两类之间有一个隔离带,最优决策面落在隔离带中。离最优决策面近的对象,也离对岸近。因此,可用一个对象到对岸的距离近似它到最优决策面的距离,称为该对象的异类距离。本文因此设计出按照异类距离筛选数据的方法DOC,并对它进行加速来处理大规模数据集。针对相对复杂不可分二分类任务,本文基于二分类任务概率模型刻画最优决策面。在最优决策面上,一个对象属于正负类别的概率相同。一个对象属于正负类的概率之差越小,距离最优决策面越近。本文提出异类概率差(PDOC-V)来刻画正方两类对象到最优决策面的距离并通过沃罗诺伊图找到每个对象的邻居,基于邻居来估计一个对象属于正负类别的概率。由于计算沃罗诺伊图的时间复杂度与数据维度呈指数增长,随机射线加速算法可将时间复杂度降到O(N~2)。当数据在空间中不同区域的密度不均匀时,本文的DOC方法及文献中基于距离预选数据的方法会受到干扰,找到的子集不能准确刻画最优决策面。而PDOC-V算法可全面衡量空间中不同方向邻居的影响力,减少这种干扰。本文在4种人工数据集和来自不同应用场景9个真实数据集上进行大量数值实验展示新算法效果及适用范围。结果表明:在可分情况下,各种算法都表现较好;当正负对象重叠比较严重(不可分)时,只有本文提出的PDOC-V算法找到的决策面与最优决策面很接近,其它算法甚至会出现决策面完全倒置的情况。当筛选比例在40%左右时,各算法都可以找到比较好的子集,当筛选比例继续降低时,文献中的方法的性能急剧下降;而本文提出的PDOC-V算法性能下降轻微。即使筛选比例降至10%以后,PODC-V选的子集训练的模型的预测准确率还能超过原数据集上训练的模型的95%以上。
其他文献
智能医疗的构建需要全面科学的知识体系网络来支撑,医疗知识图谱的应用推进非结构化知识被更加有效的管理和利用,不仅使患者的就诊流程简易化,还使医务人员的工作量降低,从而使其诊治效率提升。现阶段医疗网站层出不穷,可从中抽取关键的医疗信息知识为医患提供辅助参考,相比于以往集中于医学文献和电子病历的医疗研究,更加贴近现代社会人们对健康问题的关注侧重点。此外,当前知识图谱构建的研究大多集中于知识抽取方向,然而
学位
对于普通中小股东而言,收集上市公司私有信息的成本较大,翻阅上市公司的年度报告是了解企业信息的重要途径。信用评级作为减弱信息不对称的桥梁,其质量好坏对企业融资成本有直接影响,因此企业极可能通过盈余管理来获得更高评级,以便降低融资成本。同时,年度财务报告语调、可读性等非财务信息作为财务信息披露的有益补充,可以最直接地影响着信息传递效率,其重要性也日益突显。因此,高质量的信用评级应当具备企业盈余管理的甄
学位
随着市场竞争的加剧以及全球化的盛行,原本单一的企业与企业之间的竞争早已经转化为供应链与供应链之间的竞争,而新冠疫情的爆发对全球供应链造成了致命打击,导致供应链市场动荡加剧。在此基础上,部署数字技术以推动供应链数字化转型,从而更好地应对新冠疫情对全球供应链带来的挑战成为目前供应链管理的重点。尽管许多公司都在试图通过在其供应链上部署各种数字技术来减轻新冠疫情对公司运营的负面影响,但这些数字技术资产是否
学位
近年来,新能源电动汽车保有量在国家政策助力以及资本入局的推动下逐年攀升。但与此同时,充电基础设施的建设落后于日益增长的充电需求,成为制约新能源汽车普及与相关产业发展的主要瓶颈。政府、运营商以及各大新能源汽车企业正大力发展公用或专用的充电设施网络,以期推动电动汽车的需求。电动设施规划与布局优化方法成为业界及学术界的热点研究问题。然而,目前的相关研究往往考虑给定充电需求下的充电网络设计和优化布局,而忽
学位
现实中存在数值估计、区间估计和概率估计三种决策判断场景。将群体的观点使用聚合策略合并,得到的群体观点的表现能超过个人,包括专家,这被称为“群体智慧”(Wisdom of Crowds,WOC)。群体智慧是聚合个人意见的有效机制,利用观点多样性带来的红利,最大程度地集结群体中的信息,在决策任务中辅助管理者进行决策。本研究聚焦于探索提升群体智慧效度的方法,从分析群体智慧效度的影响因素入手,迁移到聚合策
学位
随着互联网的快速发展,人们进入了信息过载的时代。个性化推荐系统作为一种高效的信息过滤工具,已经被广泛地应用于各大传统网络媒体和在线购物网站中,虚拟知识社区也成为重要的应用场景之一。基于区块链的知识社区作为新形态的虚拟知识社区,与传统知识社区一样面临着信息过载的问题,个性化推荐系统的引入具有重要的意义。但与传统知识社区不同,区块链知识社区通过通证设计来实现对用户知识贡献行为的激励,个性化推荐系统的引
学位
在新冠肺炎疫情大流行期间,数字技术应用水平较高的企业似乎比没有使用数字技术的企业更好地应对危机,并更快地从新冠肺炎疫情造成的中断中恢复过来。通过对现有研究的梳理发现,理论界对数字技术应用与企业运营韧性之间的关系没有一致结论。持积极观点的研究普遍认为,数字技术应用促进了灵活性、伙伴关系和可见性,从而进一步增强了企业运营韧性。然而,持相反观点的研究认为,由于网络风险增加、冗余资源减少以及与数字技术相关
学位
在全球金融市场一体化程度加深的背景下,随着中国内地企业实力的增强,越来越多企业开始选择境外上市进行融资,目前香港股票市场已成为内地企业境外上市的首要选择。然而随着赴港上市内地企业数量的增加,就上市企业首日股价表现来看却出现较大面积的破发现象。在2013~2019年间,港股市场的内地企业IPO首日破发率均高于港股整体市场。因此,探究内地企业在港股市场上市首日破发的原因,挖掘影响破发程度的因素,并对后
学位
随着近年来电子商务交易额增速的显著放缓,以及实体零售给顾客带来的接触式体验价值的日益凸显,线上线下相互协作,互利共惠,逐渐探索形成了一种新型合作模式。为了探究该合作关系对企业订货决策及供应链整体绩效产生的影响,本文将以库存转运为企业合作的连结点,构建三种具有相应特征的双渠道供应链库存合作模型,对其中零售商的契约设计、订货决策及供应链协调问题进行研究。首先,本文考虑了在线零售商与实体零售商之间的库存
学位
随着国家出台相关政策鼓励银行业进行跨境金融业务的创新,跨境银团贷款这一金融业务在我国迅速发展,在一定程度上满足了大中型企业和项目的资金需求,对银行的信用风险起到分散作用。但是相继而来的是,我国银行业与境外的银行更加紧密,风险聚集效应也更为明显。因此,本文主要从以下方面展开研究:(1)对国内跨境银团贷款这一融资方式的发展现状和主要产品进行了分析,对其特点和可能存在的风险进行总结。跨境银团贷款模式下的
学位