【摘 要】
:
数据的分析和应用为经济生产、生物研究、医学治疗等行业带来了信息技术改革创新的无限发展机遇,但是数据的缺失问题却为数据挖掘和建模工作带来极大的挑战和阻碍。插补缺失是最常使用的缺失处理方法,能够尽可能保留原始数据和完整的数据结构,但是当数据出现大量非随机缺失的情况,尤其是当缺失的变量对于模型建立具有重要的影响时,仅有少量的已知数据,很难插补得到与原始数据相同分布的数据集,并且无法继续使用传统机器学习算
论文部分内容阅读
数据的分析和应用为经济生产、生物研究、医学治疗等行业带来了信息技术改革创新的无限发展机遇,但是数据的缺失问题却为数据挖掘和建模工作带来极大的挑战和阻碍。插补缺失是最常使用的缺失处理方法,能够尽可能保留原始数据和完整的数据结构,但是当数据出现大量非随机缺失的情况,尤其是当缺失的变量对于模型建立具有重要的影响时,仅有少量的已知数据,很难插补得到与原始数据相同分布的数据集,并且无法继续使用传统机器学习算法建立有效模型。而迁移学习具有不需要数据分布完全一致便可用来训练模型的特点,其核心就是找到源域数据和目标域数据在不同分布样本之间的相似性,将源域数据中的相似性顺利迁移到目标域数据的建模中。考虑到以上情况,本文提出了一种将实例迁移学习中的Tr Ada Boost算法应用到缺失数据建模领域的研究思路,用来解决插补后数据集分布出现偏差的现象。该算法的使用过程是,首先使用缺失处理方法插补训练集中缺失的部分,将插补缺失后的训练集样本看作与原始分布不同的源域数据,训练集中没有缺失的样本看作与原始分布相同的目标域数据,待预测的测试集数据是无缺失的来自原始分布的样本。然后在源域和目标域数据组成的训练集上建立使用逻辑回归模型作为基分类器的Tr Ada Boost算法框架模型,计算过程中增加属于目标域中错分类样本的权重,减少属于源域中错分类样本的权重,使模型更多地学习源域与目标域之间的相似信息,将迭代后得到的多个基分类器预测结果根据其预测的效果进行加权,综合得到一个具有较高分类精度的强学习器。为了验证本文提出方法的成效,本研究仿真生成5维特征的二分类数据集,根据非随机缺失机制模拟单变量缺失数据,采用缺失数据处理方法插补缺失,然后在补全后的训练集上建立Tr Ada Boost算法模型、逻辑回归模型、Ada Boost模型和XGBoost模型,以及删除缺失变量的逻辑回归模型,比较不同建模方法下模型的AUC分类效果。经过仿真实验,本文发现当发生缺失率高于85%的非随机缺失时,使用Tr Ada Boost算法建立模型能取得比传统机器学习算法要更加优秀的效果。同时,本文还对变量间相关程度以及类别标签对变量缺失概率的影响进行研究,在非随机缺失率处于85%以上时,不论特征变量之间的相关性强还是弱,不论类别标签对缺失概率的影响程度的高低,实验结果都表明本文提出的基于Tr Ada Boost算法的模型AUC比传统机器学习算法的模型AUC都要高。此外,本文还发现当类别标签对缺失影响较大时,Tr Ada Boost算法的模型相比于其他算法的模型有更加明显的提升效果。
其他文献
随着我国经济进入“新常态”,中国经济面临的不只是增长速度的放缓,还要面临竞争态势更加复杂的局面以及经济结构的调整,新的矛盾和问题将不断出现。经济需要新的增长动力,习近平主席多次提到以创新能力为驱动的战略计划,在十九大报告中强调创新是发展的第一动力。创新是一项高风险、高投资和高回报的活动,企业是创新活动的主体同时也要以盈利为目的,如何处理好创新和盈利之间的关系,是值得探讨的话题。现代企业中,企业所有
中车株洲所是一家锐意创新的制造型企业,部分业务在香港和上海股票交易所上市。为提高信息技术对业务的有效支持和应对上市企业合规性需求,中车株洲所陆续通过了ISO27001信息安全管理国际认证、ISO20000信息服务管理国际认证和国家信息安全等级保护二级测评。为不断提高中车株洲所的信息安全水平,为后续通过ISO27001、ISO20000的新版本认证,为应对可能的等级保护三级测评,展开了对中车株洲所信
量化投资最早可追溯至上世纪五十年代,至今已有六十多年的历史。随着计算机技术和大数据技术的飞速发展,量化投资再次成为了当下投资界的热点。量化投资主要分为量化选股、量化择时、股指期货、商品期货、统计套利、资产配置等六种类型。本文主要的研究工作将集中在量化择时和量化选股这两部分。量化择时能够预测股票市场的未来走势,为投资者做出投资抉择提供行情信息,而量化选股则能为投资者筛选出上涨几率最大的股票,获取稳定
随着我国老龄化程度的加剧,通货膨胀的不确定性以及养老待遇的增长,我国养老保险基金面临着巨大的给付压力。而作为中国养老保险基金体系中最重要部分的国家基本养老保险基金则承担着支付养老金的主要责任。但是随着通货膨胀率和工资替代率的波动下,如果还是按照以前的投资方式进行投资,投资组合的收益低,将越来越不能满足基本的保值增值目标。所以,解决问题的关键在于拓宽投资渠道,构建科学、合理、高效的投资组合。因此本文
目前,随着互联网的发展,传统的新闻媒介受到了较大的冲击,论坛、微博、微信、贴吧、抖音等新兴信息传递媒介受到了越来越多人的喜爱,与此同时,互联网中的信息不再是被传统新闻机构所掌控,网民不断在互联网上发表着自己的见解。近几年更是出现了不同于传统媒体的“自媒体”,“自媒体”的出现,使得个人话语权在网络中的影响力逐步上升,有影响力的自媒体往往能够影响某一互联网群体的行为。对于中国股票市场来说,传统新闻机构
尽管目前我国公布的地方政府显性债务率低于国际通行的100%警戒线,总体风险可控,但近年来由于地方政府通过融资平台公司、PPP、政府投资基金等方式违法违规变相举债,导致隐性债务规模增长迅速,地方政府债务风险问题仍不容忽视。在“守住不发生系统性金融风险”的要求下,持续上升的地方政府债务风险已成为我国当前亟待解决的问题。然而,由于隐性债务披露不充分,地方债务总规模不明,给地方政府债务风险的防范工作带来了
近年来,我国债券市场得到了快速的发展,主要体现在交易品种多样化、参与主体多元化,融资规模扩大化等方面。2014年以前,我国债券市场一直未出现违约的情况。然而近几年我国经济进入“新常态”阶段,实施“三去一降一补”政策,产能过剩、周期性强的企业开始出现频繁的债券违约事件。2019年共有153只债券违约,涉及的金额高达1185.64亿元,总体情况不容乐观。本文以庞大集团债券违约案为例,采用文献分析法、案
2018年末,随着韩国率先宣布在部分地区推出第五代移动通信技术(5th Generation Mobile Communication Technology,简称5G)商用服务,全球移动通信技术领域迎来了新一轮技术巨变。而5G作为一项具有颠覆性、革命性以及里程碑意义的移动通信技术,这对于承载5G技术的各类媒体而言,移动通信技术的变革对其造成的影响尤为深远。在历经5G技术与媒体的不断变革、融合与发展
改革开放以来,特别是党的十八大之后,习近平总书记高度重视创新的发展。创新是发展的基点,是发展的第一动力。而制造业在国民经济占据了主体地位,是兴国之大器、强国之基石。但是中国制造业虽大却不强,不论是在自主创新能力,还是在产品质量效益等方面,与世界先进水平相比还存在着显著差距,因此迫切需要完成转型升级和跨越发展的艰巨任务。在新时代推进中国现代化经济体系建设中,我国制造业要想掌握关键核心技术,完善产业链
自从改革开放以来至今已经过去了整整40年,这40年是我国腾飞的40年,更是中国工业发展的黄金40年,在这期间,我国实现了经济领域的辉煌和政治地位的崛起,但是在这风光的背后却是以生态被严重破坏为代价。纵观全球各国工业化历程和发展之路来看,外商直接投资(FDI)的踏足在很大程度上对生态环境起着重要作用。另一方面工业化进程导致了城镇化的推进,在城镇化的路上或多或少也对生态环境有着很大的影响。单单以地区内