【摘 要】
:
如今计算机学科领域急速发展,不但有前沿的模型算法不断出现,相关模型和算法的落地速度也随之加速。在现有的数据挖掘框架帮助下,数据挖掘算法能快速地应用在实际的问题上。然而大多数情境下,用户并不能有效地利用这些模型进行数据挖掘,结合CRISP-DM理论分析,其中原因之一是缺乏数据理解的环节,忽略对数据集本身的统计学特征。虽然已有不少的现成的工具可以提供部分数据理解中的数据探索概念工具,但是却无法被有效应
论文部分内容阅读
如今计算机学科领域急速发展,不但有前沿的模型算法不断出现,相关模型和算法的落地速度也随之加速。在现有的数据挖掘框架帮助下,数据挖掘算法能快速地应用在实际的问题上。然而大多数情境下,用户并不能有效地利用这些模型进行数据挖掘,结合CRISP-DM理论分析,其中原因之一是缺乏数据理解的环节,忽略对数据集本身的统计学特征。虽然已有不少的现成的工具可以提供部分数据理解中的数据探索概念工具,但是却无法被有效应用,一是大部分单一实现数据描绘或数据探索,功能分散,没有整合为一系列的分析过程,给使用造成困难;二是即使用户拥有足够的背景知识使用这些工具,但缺乏有效的表示方法时,也无法直观地从繁杂的分析结果得出有效信息。本文旨在构建商用数据挖掘系统DataView,该系统为用户在进行数据理解阶段时提供友好易用的图形化界面,提高用户进行数据挖掘过程的效率。为扩展系统的数据探索功能,重点分析系统的数据探索子系统功能需求,选择拟合优度检验以及时间序列分析工具。数据探索子系统具备分布模型推荐以及ARIMA模型定阶检验功能,对于连续型数据可以选择最拟合的分布模型,并考虑数据可能具有时间属性时利用时间序列分析工具。本文采用结合项目法、文献检索法、调查法等,对系统需求进行深入研究,调查同类软件工具提供的功能,查阅数据挖掘相关文献,分析已有的理论和模型,提出系统设计方案。解决的主要问题包括:DataView系统的设计,分布模型的参数估计、拟合优度检验模块算法复杂度的优化、ARIMA模型识别算法的设计实现等。为补足拟合优度检验不适用的情况,提出完善功能的方案。系统使用React框架构建,运行于Node.js平台上,使用ECharts作为图形显示插件,依托于Spark作为后台计算平台,扩展的计算功能则集成在系统前台中。为测试系统功能以及健壮性等,在项目中集成测试框架,针对性地制作相应的测试用例。测试结果表明,DataView系统运行良好,能够满足提出的需求。本文完成DataView系统的设计与实现,数据探索子系统中的拟合优度检验以及时间序列模型定阶检验的算法流程设计,扩展DataView的功能。本文最后对该实现系统所进行的工作进行总结和展望,系统在结合友好用户界面的基础上,通过各子系统的功能,为用户提供建模前的参数检验信息,解决用户初期理解数据困难的问题,提高数据挖掘工具的易用性以及建模效率。DataView系统中仍有可以改进的地方,结合本文已完成的工作,最后简要探讨系统功能的改进设想。
其他文献
Carbyne被定义为由sp杂化成键碳原子构成的无限长线性碳链,是真正的一维碳同素异形体。理论计算表明,Carbyne是世界上最硬的材料,其抗拉强度为碳纳米管和石墨烯的两倍。然而,随着连续的sp碳原子数量的增加,线性碳链(Linear carbon chains,LCCs)会变得越来越不稳定,因此在实验室合成超长LCCs仍然是一个巨大的挑战。Polyynes(C2nH2)可作为前驱体分子填至双壁碳
伴随着互联网时代的进一步崛起与5G时代的到来,传播渠道得到不断发展与拓宽,与此同时,传播媒介也不断诞生出新的可能,使得纪录片这一传统的艺术形式得以发展与蜕变。微纪录片,这一新兴的创作模式,打破传统纪录片的创作格局,在众多主流网络与自媒体平台上广泛传播,并受到颇多关注。在当下的影视文化语境中,叙事形式不断革新,探究如何在传统纪录片的固定模式下推陈出新,用一种全新的叙事方式表达主题,应对更加多元的受众
氮掺杂的石墨烯本身具有良好的电化学性能,制备的微球结构因具有大比表面积,电催化性能更加优异,作为超级电容器电极材料具有广泛的应用前景。旋转圆盘电极是测量材料电化学本征反应速率的一种常用方法,通过旋转运动产生的强迫对流,可在一定范围内消除浓差极化。然而采用经典电极动力学模型(Koutecky-Levich公式)得到的反应速率仍然受传质过程影响。且氮掺杂的石墨烯微球电极并非传统的平板电极,表面的多级孔
序列模式挖掘问题,由于其在实践中广泛的应用,已引起学术界的持续关注。虽然目前已经有一些序列模式挖掘算法,但因为它们需要多次扫描整个数据库,所以效率相对较低,并且大多数算法都没有考虑到时间因素对序列模式挖掘的影响,它们并不能对有时间限制要求的序列模式进行出现频率的统计和挖掘。在对各个序列模式的出现频率进行统计的算法中,ONCE算法可以在只扫描一次数据库的情况下,统计出带有时间约束的序列模式在序列流中
现今,越来越多超级抗药细菌的出现对人类的健康产生了严重的威胁。面对众多的多重抗药致病菌,单靠开发新药的传统方法是远远不够的,我们亟需新的策略。因此,近年来人们开始关注细菌耐药性的分子机理,希望以此找到新的突破点。我们前期的研究表明,大肠杆菌(Escherichia coli)YihE激酶是细胞程序性死亡途径的关键调控因子,在抗生素处理细菌时能起到保护细菌的作用。然而,YihE激酶的细胞通路及其在细
随着2012年AlexNet的横空出世,运用卷积神经网络的深度学习方法逐渐成为了的图像处理的热门方向,并且已经有许多实用部署。而包括当前最主要的部署平台GPU在内的各种神经网络
寡孢节丛孢(Arthrobobrys oligospora)是一种典型的捕食线虫真菌,通过产生特殊的捕食器官-三维菌网(three-dimensional networks)来捕捉和侵染线虫,寡孢节丛孢是研究真菌与线虫相互作用的代表性菌株。钙离子/钙调素依赖的蛋白激酶(Ca2+/calmodulin-dependent kinases,CaMKs)是一类重要的多功能信号蛋白,位于G蛋白信号的下游,
近些年来,生成超短激光脉冲的技术不断发展,于此同时,也越来越需要对这种激光脉冲和等离子体相互作用进行动力学描述。Particle-In-Cell方法是一种在等离子体物理中研究充能
现代电子侦察、电子对抗及电磁遥感等领域对电磁波极化信息获取的纯度提出了越来越高的要求。天线极化规律的准确表征与分析,对提高发射、接收天线的极化纯度、削弱交叉极化的干扰具有重要意义。然而,天线在加工、安装及服役阶段会引入各种类型误差,严重恶化了天线的极化性能。本文分析了共形微带天线加工制造、安装、服役过程中误差的来源,对误差进行多尺度划分。利用紧密堆积雪球模型,建立包含铜箔表面粗糙度的小尺度误差模型
分支预测器是现代超标量多核处理器的重要组成部件,提高分支预测器的预测准确率能减少错误预测惩罚所带来的延迟从而增加流水线的吞吐率。即便是较小的分支预测准率的提升,在