【摘 要】
:
可视化机器学习平台依赖拖拽式建模方法进一步降低了入门机器学习的门槛,也简化了专业领域从事人员定义和训练模型的操作,逐渐成为未来机器学习的主流工具之一。目前,不少头部企业如阿里巴巴、微软等将机器学习平台商业化,为其它企业、公司和个人提供服务。但这类云平台购买价格高昂,配置和使用各不相同,平台学习成本较高,当处理中小规模的机器学习问题时往往显得繁杂和冗余。同时,进行算法实验时需要将数据集上传到云服务器
论文部分内容阅读
可视化机器学习平台依赖拖拽式建模方法进一步降低了入门机器学习的门槛,也简化了专业领域从事人员定义和训练模型的操作,逐渐成为未来机器学习的主流工具之一。目前,不少头部企业如阿里巴巴、微软等将机器学习平台商业化,为其它企业、公司和个人提供服务。但这类云平台购买价格高昂,配置和使用各不相同,平台学习成本较高,当处理中小规模的机器学习问题时往往显得繁杂和冗余。同时,进行算法实验时需要将数据集上传到云服务器,不能完全保障数据的安全。因此,大多数中小企业研发本地的机器学习平台,不仅能够按需定制化私有的算法,而且可以保障数据不被泄漏。针对上述问题和需求,对机器学习平台可视化和本地化技术进行充分调研,本论文设计和实现了基于Spark和Keras的拖拽式机器学习平台。平台可以部署在本地服务器,用户数据的安全性可以得到保障,支持用户通过拖拽合成算法逻辑流程,可视化完成了从数据接入到模型搭建及结果可视化展示,提供完整的一站式算法实验流程,降低了平台用户学习成本。本文的主要研究内容包括:(1)基于mxGraph绘图框架和JQuery组件库实现平台的拖拽可视化功能。首先平台依据功能对算法平台页面进行分区,包括组件选择区、网络拓扑编辑区、参数配置区等。通过JQuery组件库实现组件选择区算法组件的树型列表结构;通过mxGraph框架实现网络拓扑编辑区的组件拖放,满足拖拽式建模的功能。(2)基于Spark和Keras框架实现机器学习平台算法功能。通过加载和分析网络拓扑结构生成的XML(可扩展标记语言)数据,后端合成相应的算法逻辑流程,构建机器学习或深度学习算法模型。平台支持100余种常用机器学习算法和深度学习算法。机器学习算法功能在Java虚拟机进程中通过调用Spark MLlib框架实现,深度学习算法功能在Python进程中通过调用Keras框架实现,Java虚拟机进程采用远程过程调用与Python进程进行通信。(3)在不同的浏览器环境下对平台主要模块进行功能测试。针对一种实际中的轴承机械数据的故障诊断问题,设计算法实验,构建算法模型进行训练和预测,验证平台的可行性和稳定性。
其他文献
微生物作是自然界中普遍存在的生命体,一个微生物群落中通常包含几十到数千种不同的微生物,这些物种相互协作适应环境的变化而繁衍不息。它们的生命活动也对环境产生了长期而深刻的影响。鉴于微生物的重要性及其复杂性。然而,目前微生物研究服务平台比较稀少,大部分平台都不能满足对复杂的微生物数据进行深入分析与挖掘的要求。目前已有的微生物服务平台,只是初步分析数据并展示给用户并提供下载。这种做法只是单纯进行样本处理
“弹幕”评论是时下最为流行的在线视频即时评论和交流方式。看弹幕时能直观感受到其他用户在观看视频时的情感、褒贬评价和热议话题,因此弹幕深受年轻一代网民青睐。弹幕是网络亚文化的重要组成部分,也是日益受到学界关注的焦点问题。学术界对弹幕语言的研究主要集中于弹幕源起与发展、弹幕语言分类与特点、弹幕语言规范路径等方面。综合各类研究,弹幕语言具有语义表达碎片化、词汇来源多元化、用词过度随意化等特点,且正负能量
在气候变暖、林火高发及森林生态系统遭到严重破坏的背景下,要求我们必须采用合理的可燃物调控方法,既减少森林火灾的发生,又维持林分生长及森林生态系统的多样性及稳定性。本文以北京西山林场侧柏林(Platycladus orientalis)为研究对象,设置立地因子和林分特征均具有代表性的样地28块,通过林地调查掌握林分因子及可燃物特征,通过内业试验测定可燃物理化性质;采用样地林分因子为聚类变量,通过系统
随着炼焦行业原材料成本的逐年增加,焦化企业在大幅度控制原材料及能源消耗的同时,也采取各种手段最大限度地提高能源回收利用效率,以此来控制高额的炼焦成本。干熄焦余热回收系统作为焦化企业最大的能源回收工序,其能源转换效率的高低直接影响着整个焦化公司的运营成本。如果不能科学、合理地完成干熄焦系统的余热回收,将会引起巨大的能源浪费。因此,将先进的六西格玛管理理念与方法应用到JT公司干熄焦余热回收效率提升项目
近年来,“智慧交通”的理念被不断提及,公共交通正不断向着便捷、高效、智能的方向发展。作为缓解城市交通拥堵头号功臣的地铁自然成为了智慧交通网中的重要一环,对其进行智能化建设的呼声也愈来愈高。虽然我国地下铁路网建设蓬勃发展,但在铁路线布局规划、站点设置、运营管控等方面仍有提升和优化的空间,需要向发达国家学习,而这一切的基石便是精准的客流预测能力。世界人口密度排名第二的新加坡交通问题本应尖锐,但该国居民
当今社会,随着加工技术的不断进步,对加工精度、加工效率、加工质量的要求也不断提高,陶瓷结合剂CBN砂轮凭借着其优异的性能,成为了砂轮未来发展新的趋势。本文以研究纳米陶瓷结合剂砂轮对镍基合金的可磨削性为目的,探索了不同含量纳米材料对砂轮性能的影响。分别制备了纳米陶瓷结合剂砂轮和普通陶瓷结合剂砂轮,并分别对GH4169镍基高温合金进行了磨削实验。分别测量了磨削过程中工件的表面粗糙度、磨削温度、磨削力。
数控机床是“中国制造2025”及“工业4.0”重点发展的领域,是衡量一个国家制造化程度的关键评判标准。可靠性作为数控机床的重要指标也越来越受到重视。可靠性建模和可靠性分配方法是数控机床可靠性研究的主要内容和重要发展方向,也是提高数控机床整体可靠性的重要过程和方法。本文通过对某型号数控机床的故障数据进行建模,考虑故障间隔时间相关性,进一步优化、改进可靠性分配方法,并对分配结果进行可靠性预计验证可靠性
随着传统能源的逐渐消耗和环境污染加剧,发展绿色能源逐渐成为共识。太阳能是未来绿色能源的首选,具有经济、环保、可持续等优点。光伏发电是太阳能主要应用之一,其核心硬件电路包括光伏阵列和阵列功率调节器等。光伏阵列是光伏系统的电源,其输出具有非线性特性;阵列功率调节器是光伏系统的控制器,可调节光伏阵列工作在稳压模式或最大功率点追踪(MPPT)模式。一般情况下,传统MPPT算法可使光伏阵列工作在最大功率点处
隐私泄漏检测对于保障云环境的安全具有重要意义。当前隐私泄漏检测的相关工作多采用动态污点分析技术分析恶意程序的隐私数据流转情况,然而存在隐私数据需要事先指定、动态迁移时污点信息丢失和局限于单虚拟机内进行的问题。通过虚拟机自省技术创建虚拟机模拟目标环境,针对发生隐私泄露的潜在不同场景,虚拟计算环境下的隐私数据自动定位与泄漏检测研究从虚拟机内和虚拟机间两个方面解决了以上问题。通过分析致使隐私泄露的恶意程
为了更深入地研究蛋白质的功能与性质,需要通过多种方法获得它们高分辨率的三维空间结构。如果我们已知确定了组成蛋白质的氨基酸分子的序列,就可以预测出蛋白质的三维空间结构。一般进行蛋白质结构预测都会有多个结果,为可以辅助使用同种类型蛋白质结构在实验中所测得的蛋白质冷冻电镜的图像,将二者的结构进行高精度的匹配,通过定量计算二者的匹配度,对预测得到的结构进行评分,从而实现冷冻电镜图像辅助蛋白质结构预测。首先