基于Benford-Boosting方法的统计数据准确性检验研究

来源 :山东财经大学 | 被引量 : 1次 | 上传用户:dfqq209
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据采集与存储技术的发展,数据规模量急剧增长的同时,不可避免地会存在大量的异常数据,数据的准确性问题严重制约着大数据时代的决策质量,统计数据的准确性检验成为人们关注的重点问题。文献研究发现,应用了几十年的Benford法则,存在着一定的问题。本文在综述了国内外数据质量准确性检验方法与大数据技术算法的基础上,归纳分析了Benford法则优势和局限性,引入Boosting算法与Benford法则相结合,提出了检验统计数据准确性的组合算法,解决了传统Benford法则只能定位于数据首位数字的问题,改进了统计数据准确性检验方法。研究内容、结论与创新主要表现在:(1)研读了Benford法则及其应用的相关文献,发现使用Benford法则可能出现“与数据规模要求不成比例,仅能筛选出异常数据范围,对数据集增减变动敏感,以及难以适应新时代人们对异常数据的具体时点以及整体规律性要求”等问题。需进一步完善Benford法则,以使其适应统计数据准确性的检验研究。(2)为克服Benford法则的局限性,提出了统计数据准确性检验的Benford-Boosting算法模型。首先将数据整理成含有时间和地区的面板数据;其次通过相关系数比较筛选出存在问题的指标,建立异常数据池;三是对异常数据池采用逐步剔除的方法找到问题指标的时间点,并利用距离占比定位问题指标的具体地区,进而筛选出异常数据点,其他数据点设为正常数据点;四是利用随机森林算法对存在问题指标的相关指标进行重要指标选择,形成含有正常数据点和异常数据点的数据集;最后利用Boosting方法进行数据质量检验的分类学习。(3)选择2010-2017年《中国工业经济统计年鉴》的工业销售产值、资产总计、流动资产合计、负债合计、流动负债合计、所有者权益合计、主营业务收入、主营业务成本、销售费用、管理费用、财务费用、营业利润、利润总额等13项财务指标数据,利用Benford-Boosting算法进行实证研究。首先将数据整理成“特征指标×时间维度”的面板数据,利用相关系数法判断“营业利润”指标可能是问题指标;其次采用逐步剔除法和距离占比定位进行异常数据点筛选,研究发现,2012-2017年的营业利润指标中首位数字为2、3、4、6的地区出现问题,将这些数据判定为异常数据点,标识为1,其他时期和地区的数据设定为正常数据点,标识为为-1,形成含有13个财务指标的数据集(1);三是利用随机森林算法进行指标重要性排序,依次为利润总额、营业利润、主营业务收入、主营业务成本、工业销售产值、负债合计、财务费用、流动资产合计、销售费用等,形成含有这9个财务指标的数据集(2);四是利用本文构建的Benford-Boosting模型和文献中常用的Benford-决策树模型,针对数据集(2)和数据集(1)进行分类学习,得到的模型准确率分别为93.8%、87.5%和79.1%、60.4%,验证了Benford-Boosting模型的有效性。总之,本文构建的Benford-Boosting模型具有一定的创新性,对完善统计数据质量检验方法具有较强的理论意义和应用价值。
其他文献
教师提问作为课堂教学技巧之一,是检验学生知识掌握度的捷径,也是提高教学质量的方法,从而也成为对外汉语教师普遍采用的教学技巧之一。在对外汉语课堂上,学习者的学习目标是为了熟练掌握汉语,了解中国文化,因此,更需要教师通过课堂提问来促使学生们进行语言输出,进而培养并提高学生用汉语进行交际的能力,习得汉语。作为对外汉语课的分支——对韩汉语教学亦是如此。本文的研究对象对韩汉语教师,研究方法为文献研究法、文本
西尔维娅·普拉斯是美国现当代自白派女诗人和作家。她的遗世之作《钟形罩》是一部饱含浓厚自传色彩的小说。主人公埃斯特的心路历程是普拉斯本人在青年时期主要经历的真实写照。小说以自白化叙述的方式讲述了20世纪50年代父权制社会背景下埃斯特在纽约担任《淑女时代》杂志社客座编辑、暑假写作班被拒、自杀未果而被送到精神病院接受治疗后重返社会的过程。这期间的经历对埃斯特的心灵造成了极大的创伤,导致了自我迷失和对未来
本文是对《联合国可再生能源PPP项目标准》英汉翻译实践的反思性报告。联合国文件属于公文体,其风格庄重、严谨,语气严肃、正式,语言表达简洁、有力,且高频词汇居多、句式较为固定、专业术语性强。另外,联合国文件属于信息型文本,具有较强的目的性,旨在准确且高效地传递其官方机构所发布的信息。译者以目的论为指导,完成此次翻译任务。本文共分为五章:第一章是任务描述,包括任务背景、原文语言特点和委托方要求。第二章
医疗健康行业与信息技术的深度融合,不仅创新了医疗服务模式,还改变了患者就医时的消费习惯,特别是在线医疗社区作为“互联网+医疗”服务模式的典型代表,其发展虽然遵循着传统电子商务的商业逻辑,但是由于医疗健康服务的信任商品的特征,在线医疗社区的运营和发展模式又面临着新的挑战。在线医疗社区以患者需求为中心,汇集了大量的优质医疗资源,并衍生出海量的医疗健康信息,进一步形成多维度的医生线上口碑。患者获取和利用
爱德华·琼斯(1950-)是20世纪美国黑人文学的杰出代表。他的第一部长篇小说《已知世界》(2003)书写了美国内战前南方黑人奴隶主的未知真相,再现了南方奴隶社会的复杂性和残酷性。现有研究多侧重论述小说独特的叙述形式、身份建构和奴隶制主题,对其中的白人至上主义现象关注较少。本论文通过小说文本细读,分析其中跨越种族、性别和阶级的白人至上主义现象,进而剖析白人至上主义的危害和病态性。本文共分为六个部分
本文是一篇基于《联合国PPP项目原则》的翻译实践报告,全文主要是为促进实现联合国可持续发展目标而确立的十个Pf PPP(以人为本的政府与社会资本合作)原则。本次翻译报告所选文本为项目原则中的4-10,主要包括腐败零容忍、以人为本项目的甄选标准、混合融资以及如何降低风险等方面。根据凯瑟琳·莱斯的文本类型理论,源文本属于信息型文本。本篇报告一共分为五个部分。第一部分是任务描述,包括对任务背景介绍和文本
奈保尔的短篇小说集《米格尔街》以英国前殖民地特立尼达为背景,描绘了生活在米格尔街上的被殖民者的日常琐事。面对殖民者的压迫以及殖民文化的入侵,他们在物质和精神上都承受着巨大的压力,生存的困境和思想的贫瘠使他们对自我的身份产生了迷茫和焦虑。因此,米格尔街上的人们渴望寻求身份认同、进行身份重构,而具有相对稳定性的性别,为他们破碎的身份提供了重新整合的机会。在《米格尔街》中,奈保尔笔下的男性角色通过暴力、
学位
数据包络分析(Data Envelopment Analysis,DEA)作为一种衡量相对效率和排序同质决策单元的方法,广泛应用于金融、医疗等诸多领域。传统的数据包络分析模型要求投入和产出均为精确数,但在实际应用中,我们有时无法获得精确的投入和产出数据,比如一些定性指标,很难精确量化到DEA模型中。模糊数可以很好的表示不确定信息,因此,基于模糊数的模糊DEA研究,引起了广泛关注。此外,传统数据包络
学位