【摘 要】
:
预测分析是一种基于统计或数据挖掘技术的决策方法,准确的预测分析能够为企业、政府等不同主体提供切实可行的决策依据,提高决策效率。近年来,大数据概念被广泛提及,各行业采集并储存着海量领域数据,以大数据为基础的机器学习能够帮助数据用户从这些海量数据中提取出有价值的信息,进而运用到预测、诊断、优化、控制、决策等多个方面。基于数据挖掘技术的预测分析模型已经被广泛应用到制造业、政府机构、电商等各行各业,并且在
论文部分内容阅读
预测分析是一种基于统计或数据挖掘技术的决策方法,准确的预测分析能够为企业、政府等不同主体提供切实可行的决策依据,提高决策效率。近年来,大数据概念被广泛提及,各行业采集并储存着海量领域数据,以大数据为基础的机器学习能够帮助数据用户从这些海量数据中提取出有价值的信息,进而运用到预测、诊断、优化、控制、决策等多个方面。基于数据挖掘技术的预测分析模型已经被广泛应用到制造业、政府机构、电商等各行各业,并且在实际运用中被证实能够很好地提高预测精度。但由于构建的预测分析模型多为高复杂性的黑箱模型,其预测逻辑并不具备可解读性,因此很难获得使用者的信任,这也极大地限制了复杂黑箱模型的实际效用。针对这一问题,本文构建了一套基于可解读机器学习概念的预测分析模型解读及评估方法。研究首先运用机器学习算法构建高精度的预测分析模型,其次建立了两种不同形式的模型解读及评估方法,以满足不同应用场景。构建的两种解读及评估方法分别如下。(一)基于局部可理解的与模型无关的解释技术(Local Interpretation Modelagnostic Explanations)的模型解释及评估方法本文建立的第一种模型解读方法是基于局部可理解的与模型无关的解释技术(LIME)的模型解释及评估方法。其主要思想是通过构建局部线性解释模型对预测个体进行解读,同时基于局部解释模型的参数建立一种信任指数,用于评价复杂黑箱模型的实际表现。(二)基于if-then规则的模型解释及评估方法本文建立的第二种方法是基于if-then规则的模型解释及评估方法。其主要思想是基于if-then规则对影响预测结果的规则进行筛选及提取,得到分流预测结果的规则滤网,进而为模型提供解释。第一种方法能够让预测模型用户了解对单个样本分类贡献最大的以及与之矛盾的部分特征,理解它们如何影响预测结果;而第二种方法则是以“因为特征x=…,所以y=…”的直观因果规则为用户提供预测结果分流的重要原因,并以简单的因果规则为模型的单个样本提供预测解读。这两种方法都能为复杂的高精度预测模型用户提供与模型结构无关的、针对个体样本的解释,为模型理解、评估以及诊断等实际应用场景提供了有效的运维决策依据。本研究采用物流及建筑领域的实际数据对该解读及评估方法的有效性及其普适性进行实例验证,证实可以针对复杂黑箱模型的预测逻辑提供一套普适且有效的解读及评估方法。与一般解读与评估方法不同的是,本研究提供的模型解释及评估方法是针对个体样本的,能够对不同情景下的模型预测逻辑进行更有针对性的解读。同时研究根据个体的预测解读为模型构建新颖的评估指标,为模型评估提供一种全新的个体预测质量评估方法。本研究的成果能够对可解读机器学习相关研究进行拓展,为黑箱模型的解读提供新的方向;同时,方法可以帮助模型使用者更加全面和快速地了解复杂黑箱模型的预测逻辑,增强模型用户对模型的信任度,有利于拓宽模型在数据决策过程中的实际效用。
其他文献
目的从影像学及应用解剖方面探索内镜经外耳道前庭进路切除听神经瘤的可能性,观察并记录此进路的安全边界、相关重要解剖标志及内听道内神经解剖关系。方法1.回顾性分析深圳大学第一附属医院100例患者(200侧)的颞骨CT,观察并记录其内听道形态以及内听道底的前后径、上下径。2.选用5具(10侧)新鲜冰冻成人尸头行颞骨CT扫描,行内镜经外耳道前庭进路暴露内听道,观察、记录此进路的安全边界、途经解剖结构、恒定
背景和目的:P53在人体中是一种最常见的突变基因,在肿瘤的发生发展中起着重要作用。因此,构建检测P53蛋白的有效探测器在癌症研究领域中的意义重大。然而,目前缺乏检测野生型P53蛋白(WTP53)或区分野生型和突变型P53蛋白的方法。本课题组设计并构建了一个P53探测器,该探测器可检测细胞中WTP53的表达。此外,我们使用CRISPR-Cas9系统将P53探测器与白喉毒素结合在一起,构建了一个P53
青光眼是目前世界范围第二大致盲因素,全球的发病率约在3.5%。白内障是目前全球致盲的首要因素。青光眼和白内障随年龄发病率增高,一项2002至2020年的大样本研究显示,白内障患者中有19.1%左右有伴发青光眼。原发性闭角型青光眼(primary angel-closure glaucoma,PACG)和白内障这两大类疾病在临床上易伴发。其机制或是因为青光眼患者病程自然发展的过程中,晶状体较正常群体
核蛋白TP53INP2已经成为参与合成代谢和分解代谢过程的关键因素之一,在代谢活跃的组织(如骨骼肌和心脏)中高表达。在功能上,TP53INP2的消融能够增加脂肪生成相关基因的表达,并导致小鼠肥胖增加。在包括核仁在内的细胞核中,TP53INP2与多个转录相关因子结合调节转录,如甲状腺激素相关基因和核糖体DNA(r DNA)的转录。在营养剥夺时,TP53INP2能够迅速从细胞核转移到细胞质,参与自噬的
背景:非小细胞肺癌(NSCLC)是世界上造成癌症患者死亡的最主要原因。转运RNA(tRNA)修饰是一种新发现的致癌调控机制。然而,tRNA修饰在NSCLC中的作用尚不清楚。方法:采用高效液相色谱-质谱法测定非小细胞肺癌癌组织和NSCLC细胞中tRNA修饰的水平。采用比较基因组学方法鉴定tRNA修饰基因并用qRT-PCR分析进行定量验证。用体外细胞表型实验及体内动物实验分析tRNA修饰基因在NSCL
在我国经济朝着友好的方向发展的前提下,我国物流需求回升,近年来同城货运行业取得了飞速的发展。相关数据显示,截止2019年,同城货运市场中的货运司机已经达到1500万人,市场规模已超过1万亿元。未来随着新技术的应用、政府相关政策的促进以及智慧物流的普及,同城市场的规模将会出现稳中有增的趋势,预计在2021年,同城货运市场的规模将会超过1.5万亿元,同城货运市场的发展前景是非常广阔的。随着互联网技术的
胃癌(Gastric Cancer,GC)是最常见的消化道恶性肿瘤之一,其一般起源于胃粘膜上皮细胞。由于缺乏早期筛查,大部分胃癌患者就诊时已发生了侵袭和转移,治疗和预后效果较差,严重影响患者健康和生活质量。2019年中国国家癌症中心发布的数据显示,胃癌发病率占恶性肿瘤第2位,死亡率居第3位。虽然已经明确胃癌的发生与幽门螺杆菌感染、饮食、抽烟喝酒等因素密切相关,但其确切的发病机理仍待进一步阐明。因此
随着移动互联网的发展与共享经济理念的普及,市场上出现了不同品牌的网约车平台。网约车平台的出现弥补了城市公共交通系统的不足,更好地满足了居民的出行需求。由于网约车平台的发展周期较短,没有比较完备的法规条例约束网约车平台的运营,网约车平台的定价很大程度上是不受政府监管的,网约车平台实施价格补贴策略在一定程度上挤压了传统出租车市场,因此研究网约车平台的定价策略是十分有必要的。网约车平台是一个比较复杂的系
得益于科学技术的飞速发展,传统货运物流行业与移动互联网技术实现了深度融合。在国家政策的大力推动下,无车承运人平台作为一种新的货运模式,对于带动行业转型升级,促进物流“降本增效”起到了显著效果,其运作模式自然成为了行业新的发展方向之一。细化到集装箱拖车运输市场,无车承运人平台的出现,很大程度上改变了原先行业“小、散、乱、差”的状况,对于行业的集约化和规模化做出了突出的贡献。目前,中国的集装箱拖车平台
在“互联网+”的浪潮下,即时配送成为近些年迅速发展的一种服务样态。据统计,自2014年到2018年即时配送市场以30%的增长率快速增长。在2017年年底,中国外卖市场的交易额已近3000亿元,且中国外卖市场于2018年交易额突破了3600亿元。此外,在用户数量上,2017年超2.9亿人,2018年达到3.6亿人。巨大的消费市场给商家带来了红利的同时,也使行业间的竞争变得愈加激烈。随着平台抽成点数越