基于随机森林算法的企业非法集资风险预测

来源 :消费电子 | 被引量 : 0次 | 上传用户:jacky1228
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读

一、背景介绍


  企业非法集资具有严重社会危害性。一是参与者容易遭受经济损失。犯罪分子通过高回报利诱等方式聚揽资金后,任意挥霍、转移或者非法占有,参与者难以收回资金。二是非法集资严重扰乱正常经济金融秩序,容易引发金融风险。三是非法集资容易引起社会不稳定和社会治安问题,甚至引发局部地区的社会动荡。如何基于大量企业信息构建预测模型,并判断企业是否存在非法集资风险,对于监管机构、公司合作伙伴和投资者具有一定价值。

二、研究思路


  根据大量企业信息,利用随机森林和LightGBMi两种机器学习算法分别构建企业非法集资风险预测模型,并对其模型性能指标F1-score值进行对比。

三、实验过程


  (一)數据预处理
  本文实验中用到的企业信息数据集源于某竞赛数据集,包含24865家企业数据,其中14865家企业数据带有是否非法集资标注,可作为训练集;剩余10000家企业数据不带是否非法集资标注,可作为测试集。数据由企业基本信息、企业年报、企业纳税情况、企业变更信息、企业新闻舆情信息和企业其他信息等组成,数据包括数值型、字符型、日期型等众多数据类型,部分字段内容有缺失,其中第一列id为企业唯一标识,label为目标变量。
  对获取的数据进行数据预处理,包括数据分析、变量筛选、填充缺失值、特征编码、可解释性特征提取等操作。
  1、变量筛选
  根据缺失值占比、Ⅳ值(Information Value,即信息价值)和高相关性进行变量筛选,变量缺失值大于0.5被删除,变量Ⅳ值小于0.02被删除(Ⅳ值是用来衡量变量预测能力的,Ⅳ值越大,表示该变量的预测能力越强,一般会舍弃lV值小于0.02的变量),两个变量相关性高于0.7时,Ⅳ值低的变量被删除。opto、compform、parnum、exenum、opform、ptbusscope、venind、enttypeminu、midpreindcode、protype、reccap、brreccap、forregcap、congro变量因缺失值大于0.5被删除,adbusign、regtype变量因Ⅳ值小于0.02被删除,enttype、enttypegb变量因高相关性被删除。
  2、企业经营范围关键词筛选
  对标注为非法集资企业的经营范围进行词频分析,再对出现频率较高的词语进行人工筛选。若企业经营范围包含这些关键词,则判定为特殊特征。最终筛选的关键词为:投资、咨询服务、融资、金融、担保、代客理财、企业管理、股权、实业、资产、创业投资、证券期货、房地产、咨询服务、经纪、营销策划、商务信息、财务咨询、进出口、房产中介、贷款。
  (二)实验评价标准
  本实验采用分类任务的F1-score指标作为模型性能的评判标准。F1-score值越高,说明模型预测性能越好。F1-score计算公式如下所示:



  P表示精确率(precision),R表示召回率(recall),TP(True Positive)表示正确预测非法集资的企业数目,FN(False Negative)吲表示实际上是非法集资但预测不是非法集资的企业数目,FP(False Positive)是实际上不是非法集资但预测为非法集资的企业数目。
  (三)实验设计
  在训练过程中,将数据集按4:1分成训练集和验证集,构建随机森林、LightGBM两种机器学习算法模型,对训练集进行训练,对验证集进行验证,对测试集进行预测,得到两种算法模型的F1-score指标。

四、实验结果


  随机森林、LightGBM模型的F1-score指标表现如表1所示,无论是否对企业经营范围进行特征提取,随机森林模型的F1-score指标都优于LightGBM模型。

表1 随机森林、LightGBM模型的F1-score指标对比



五、结语


  本文根据大量企业信息数据,构建基于随机森林、LightGBM两种机器学习算法的企业非法集资风险预测模型。基于随机森林模型构建的企业非法集资风险预测模型的F1-score指标优于LightGBM模型。根据企业信息,基于随机森林算法构建的企业非法集资风险预测模型能够有效预测企业是否存在非法集资风险,有助于防范化解金融风险,维护经济秩序稳定,营造良好的金融环境。下一步工作将继续优化缺失值填充算法和模型参数,充分挖掘算法潜力,进一步提高企业非法集资风险预测模型的性能指标。
其他文献
【关键词】计算机;人工智能;AI;应用发展;硬件技术  人工智能简称AI是21世纪新兴的技术内容,结合当前应用发展情况来看,计算机人工智能已经应用于各行业生产领域当中,并且在应用质量与效率方面取得了良好成果。鉴于计算机人工智能的重要性,研究人员针对计算机人工智能的技术发展动态以及趋势问题进行了大量实践研究。并根据研究反馈结果,对计算机人工智能体系进行适当健全与完善,以期可以进一步提高计算机人工智能
诺基亚SP-101(蓝牙音箱)  2021年6月11日,诺基亚发布了便携无线蓝牙音箱SP-101。精巧机身,仅重160g,内置大动圈,支持20小时超长续航,内置麦克风,支持免提通话及Micro SD卡、立体声组合,售价199元。诺基亚BH-205(耳机)  6月11日,诺基亚发布了BH-205真无线蓝牙耳机。该耳机采用了大尺寸动圈单元,声音浑厚,还原更多音乐细节。该耳机还支持触控操作,单耳、双耳模
期刊
一、设计电子产品结构时需要遵循的基本原则  在设计电子产品结构时,设计人员需要关注的问题主要包括:第一,若想保证电子产品的性能,就需要从整体的角度优化电子产品的性能,深入地研究电子产品结构中各零件的功能。第二,为了保证电子产品自身的刚度与强度,设计人员需要重点分析电子产品的随机应变能力,最大限度地防止因为外界的冲击而影响到电子产品的运行。除此之外,还需要尽可能地保证电子产品各个构成零件配置的简单化
众所周知,闪迪的内存卡存储设备一直都是非常可以的,闪迪拥有丰富的消费级闪存产品,高性能的闪迪至尊超极速、主流的至尊极速以及高性价比的至尊高速系列已被消费者所熟知,直
期刊
【关键词】船舶通讯导航设备;内通系统;卫星电视系统;船用WIFI 系统  笔者主要从事船用通讯导航设备的调试及维修工作。调试的主要设备品牌有JRC、MRC、INETELLIAN、YOKOGAWA等等,船舶类型包括了油轮,散货,集装箱,滚装船,海上生活平台等多种项目。  在这些年的调试工作中,经过不断学习,不断积累经验,掌握了各种通讯导航设备的调试技术,成功地完成各项调试任务。下文中,笔者将工作过程
新冠疫情的蔓延使得旅游教育面临巨大的困境和挑战,相关院校和从事旅游教育的老师需要通过加n强对学生和家长的引导,帮助学生树立对旅游行业的信心。学校需要立足实际,完善教学
【关键词】电力企业;财务管理;精细化;预算管理;策略  电力企业是市场经济的基本构成,未来的发展前景相对较为宽广。而且电力企业在运营管理期间,没有良好的市场竞争意识,因此在预算管理实践阶段,财务管理部门会出现一定的工作疏失。在现代社会背景之下,人们在生活、学习、工作等方面对电力资源的需求量逐渐增多,同时,电力企业在运营管理阶段所面对的发展形势较为严峻,也会遇见诸多的挑战与困难。因此电力企业需要遵从
【关键词】老龄化;安全看护;无感远距离监测  传统的独居及空巢老人看护,是通过配备专业的人员定期查看,以及让老人穿戴心率设备,来实时监测老人心率和运动等,以此确定老人是否存在生命体征。但实际情况是,由于部分老人对新事物有一定排斥,很多时候没有穿戴手表,导致大部分时间是无法确定其是否存在生命体征。毫米波设备是固定在老人活动的场所的墙面,通过反射毫米波来检测心率和呼吸,以确定老人是否安全,不会给老人增
【关键词】机电一体化;智能制造;应用  工业制造业的发展能带动社会经济的增长。随着我国制造技术的不断提高,工业发展模式得到了调整和升级,全新的生产技术能帮助工业生产体现出智能化、自动化特点,全面提高工业生产的质量和速度,促进我国工业机械生产拥有可持续发展的动力。在智能制造过程中,运用机电一体化技术有利于全面提高我国工业生产质量,全面促进我国经济发展水平的提高,加快我国机械制造产业升级调整。一、机电
【关键词】起落架;舱门;装配;工艺性  飞机设计是综合多个方面后选取最优组合的结果。进行飞机零部件设计时未必能够兼顾所有设计目标,但是最终的设计结果应该是综合考量后最易接受的。  飞机零部件的设计,直接影响飞机零部件的制造成本、装配成本、维护成本以及飞机运营成本。好的设计可以降低飞机零件的制造难度、飞机部件的装配难度、飞机零部件的维护难度以及零部件的重量以降低飞机的运营成本。  本文将以某型飞机起