数据仓库下基于知识库的虚拟实验平台构建

来源 :软件 | 被引量 : 0次 | 上传用户:ygs850723
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  引言
  虚拟实验室主要是一种为了模拟现实实验的一个分布式的,基于网络的分布式,可以提供在线教学,技术交流,共同研究,实时交流的一个信息平台。目前虚拟实验室的定义大致分为两种,一种是基于计算机创建的虚拟平台,实验者可以通过平台可以在里面实现预设实验,形成最后的分析结果。另一种是创造一个交互环境作为引导模拟实验的场所。然而不论是哪种定义,总的来说。虚拟实验室是一种为了替换现有实验方式,扩展实验实现条件的。节约实验成本的一种新型实验教学方式。虚拟实验室主要由模拟部分,数据分析部分构成。现行的虚拟实验室一般分为三大类:基于网络应用云计算技术,基于虚拟现实,多人协作虚拟实验室。对于虚拟实验室的改进一般是在技术上的更新。现在虚拟实验室还具有一个最严重的的缺点,可扩展性不足,只能针对某个领域实现,并且实现出来的实验室不具有学习分析功能,例如胡文成在基于网络平台虚拟实验室技术的研究和实现一文中提出的基于C/S的虚拟实验室实验内容的还不够丰富,在仿真环境的逼真程度上,还需要有进一步的改进。张小平在基于EDA虚拟实验室中心值法的研究一文中只是针对于单机进行试验。结合现在大数据的技术在此基础上提出数据仓库下基于知识库的虚拟实验平台构建设想。
  1总体架构
  为了克服现在虚拟实验室通用性低、构建成本高,学生创新性难以得到拓展这个问题。基于现在数据仓库,云计算的背景下。使用人工智能技术构建一个能提高学生动手能力,培养学生创造才能的虚拟实验平台是一件具有极大意义的工作。
  曾雪辉在虚拟实验室中用户注册组件的设计与实现一文中提出了组件的概念。
  虚拟实验室核心采用应用服务器集群进行运算处理,使用B/S架构。实现瘦客户端运行,从而提高软件平台运行兼容性。使用javaee技术开发,项目实现部分开源,从而提升项目的可维护性以及可拓展性。虚拟实验在核心仿真模块的支撑下,采用组件技术分离实验场景,实验组件。使用XML配置耦合模块,不仅从软件开发的角度实现了复用,同时为创新实验室,研发实验室提供可靠的组件。
  虚拟实验室的主要功能还是不能摆脱为用户提供真实互动的实验功能。虚拟实验室在构建初期主要是为用户实现普通实验的模拟。该虚拟实验的构建值得指出的一点是,改实验室不同于市面上的专注于一种或者一类实验。这是一个实验平台,实验平台构建之后,主要会为一定用户提供开源服务,一些具有初步编程知识或者想融合到开发中的人员就会慢慢丰富平台实验。在实验提供以后测试之后就会在平台分权限开放。从而支撑一部分实验模拟练习。
  在普通实验的支撑下,用户可以任意组织实验。最初使用专家打分等方法实现对于实验数据的分析以及分析。在数据积累到一定数量的时候采用机器学习的方式从数据仓库中进行挖掘与学习,从而形成规则库,在规则库的反馈下机器就能不断的成长同时呈现出相对精准的结果。这样的话无论对于用户兴趣探索还是科研初期雏形都是有意义的。
  传统数据生成之后,经过分类之后会存人数据数据仓库。创新实验经过分类之后也会存人数据仓库。这里的数据库不局限于现在的分布式数据库。也包含分布式数据库,同时数据库磁盘也会使用阵列进行支撑。从而从物理上保证数据的完整性。
  数据仓库内被打上标签的数据会用挖掘工具进行训练,形成规则库。规则库内规则反作用于实验。形成了有效闭环。
  该虚拟实验室主要是基于规则学习的知识库反馈组合平台,实验室建设主要分为模块匹配库以及实验知识库。在此基础上通过应用服务器集群为外界提供普通实验室,创新实验室以及研发实验室接口。通过这三个接口为外界提供服务。其中普通实验室主要是整合那些可以在实验室完成普通实验,创新实验室主要是通过规则库以及构件库的支撑对外提供跨学科以及跨领域的组合实验。研发实验室是一个服务于少数具备一定业务知识以及编程人员的接口,这个实验室可以对外提供一些自己研发以及构建的实验。
  实验数据主要分为两类,一类是传统实验数据,这类数据主要是针对普通实验而言的。这类实验数据具有一定区间标准,可以通过编程实现分析,从而将分析结果展现给用户。同时将数据进行检验留底,从而为后面分析留下依据。另一类是自己组合实验产生的数据,这类数据是一些新兴数据,以及不可预计的结果,这类结果可以提供给那些致力于创新實验的用户,一方面用于数据分析。另一方面可以提供给实验专家,作为打破实验创新瓶颈的参考。最后将数据进行标识以及分类放入实验知识库。
  知识库通过智能算法分析组合产生规则。此类规则主要用于反馈实验组合,为自主实验者提供原始数据。从而指导创新。
  知识库还可以作为后面分析的数据仓库实现对于实验规律的探究。由于数据是不规则的,可以考虑使用mongodb等非结构化数据库存储。
  2数据仓库数据流转
  数据是构成实验平台的关键所在,由于数据众多,同时数据的种类不一致,同时数据的结构迥异,所以在分析前应该将数据进行相应的处理。这就涉及到了数据挖掘的相关知识以及概念。
  ETL:ETL是Extract-Transform-Load的缩写,翻译为中文指的是数据的装载,转换以及加载。说简单一点就是,生产系统将数据存入对应的数据库,在数据ETL工具以及ETL引擎的集合下。通过一系列数据转化工程,进过数据的清洗处理从而将数据存入数据仓库。
  数据仓库:数据仓库简单来说就是存储数据的关系数据库以及多维数据库的集合。与数据库不同的是,数据仓库建立的数据集市是面向主题的。同时数据仓库数据是固化的非易失的。数据主要用于经营分析。
  OLAP服务器实现的是在现在的数据仓库基础上对于数据进行多维分析,面向主题操作的操作指令集合执行系统,主要负责数据的处理。
  数据挖掘服务器:在处理以后的数据基础上,对于规则的探寻。将一系列算法运用于数据集上就要借助数据挖掘服务器进行处理。   知识库的构建是一个数据仓库的构建过程,首先从数据的来源肯定是传统数据。组合数据以及标记数据几个生成数据库。这些数据来自于试验后的生产系统,通过ETL进行数据的去重,去噪以及转换缺失,数据插补一系列操作。最后形成增量数据供分析。通过写好的OLAP服务进行操作或者人工分析以后将结果进行保存。分析后的数据可以使用报表技术进行展示或者形成相应的分析报告。同时提供对外的分析接口供其他人来调用,实现在线分析使用。
  3规则库学习
  规则库的学习主要是采用多工具数据交换处理方式。与现在方式不同之处在于,这种方式下组合更加灵活,同时可以根据不同的工具制定不同的处理计划。对于软件工具取长补短。唯一不足在于还需人工干预,不能自动完成。支撑工具运行的是官方或者自己编写的算法库。这些算法针对不同的规则以及场景展开,从而辅助分析。不同的工具对于中间结果的处理数据格式是不同的,在这采用XML数据岛进行处理。有效的加快了数据处理速度。最后完善规则库。
  数据仓库的数据是一堆并不能真正体现价值的一堆数字集合,并不能真正用于反馈调节组合试验。要让数据得到使用就得将数据进行处理使之成为规则。
  形成的规则就是所谓的能区分数据的集合组,通过这些规则就可以对于简单的组合形式进行区分。例如末端淬火试验中就可以通过已知的数据通过遗传算法推断出实验不同数据下的淬透性曲线。
  规则的挖掘可以采用外界工具,例如MATLAB以及SPSSMODELER工具或者其他,那我们在系统架构的过程中就要为其预留相应的接口。同时为挖掘工具提供一套封装的智能算法仓库接口。由于生成数据的格式存在差异,所以在这些数据进入规则庫之前应该预留相应的数据交换单元,例如使用XML数据交换文件或者使用中间转换程序。这样就可以实现数据的转换。
  4云端实验室
  在B/S架构的支撑下,平台可以很简单的为不同用户以及场景提供支撑。在这构建了两种接入方式,一种是使用中心机房的形式使用内网直接为实验室提供服务。另一种是对于有需求的科研用户以及认证后的用户提供服务。
  5结语
  虚拟实验室是一项由来已久的模拟现实实验的技术,虚拟实验室主要为保障实验者安全。跨越实验平台物理性缺陷,实现科研探究的实时性的一项辅助实验的技术。现行的虚拟实验室一般趋向于画质的渲染、环境模拟以及专业领域的模拟。在现在大数据,人工智能的导向下,实现一个基于组装式,基于知识库学习的虚拟实验平台尤为重要,本文提供的是一种组织架构,希望在以后的研究中不断实践。
其他文献
摘 要: 本文对高校马克思主义理论教育的德育功能、现状作了阐述,并对如何有效提高高校马克思主义理论教育德育功能的措施和手段进行了探讨。  关键词: 马克思主义理论 德育教育 德育功能  古人说:“金玉满堂莫收,古人安此尘丑。独以道德为友,故能延期不朽。”这句话足以说明道德对于每一个人的重要影响,即:“人而无德,生而何益。”道德常常能填补智慧的缺陷,而智慧却永远填补不了道德的缺陷。真正的道德,
为了建立高压加热器状态预警模型,选择合适的测点。采用灰熵关联法,分析了抽汽温度、抽汽压力、出口水压、端差、进汽温度、疏水温度、主给水流量对昆二电厂1号机1号高压加热器
2012年9月,苑子文、苑子豪兄弟俩分别以674分和683分的成绩进入北京大学社会学系和国际关系学院,被称作是“北大最帅双胞胎”。2012年9月起,双胞胎兄弟经常被邀请参加全国各大电
在信息化的时代里。知识创新的速度不断加快,知识更新的周期不断缩短,人们对知识的占有将由静态变为动态。也就是说,人们的学习不会因学校的学习结束而结束。然而.面对浩如烟海的
在相应的实验基础上, 利用量子化学方法(DFT/B3LYP)对CrP+4和CrP+8的各种可能构型进行理论计算, 预测了各团簇的稳定构型, 所得结果能较好地说明有关团簇的光解实验结果.
长期以来,我国对矿产资源实行无偿使用政策,认为矿产资源没有价值,这加剧了资源供求矛盾,加速了资源的浪费和耗损.为适应社会主义市场经济体制,我们要改革现行的矿产资源管理
一、诚信的含义及其与企业商誉的关系诚信就是指诚实守信.诚信的核心不在于做出某种承诺,而在于对所做出承诺的履行.有人把诚信归人道德范畴,但是诚信与道德实际上是有区别的
期刊
作为教科研处,在学校党委行政的领导下,贯彻“科研兴校,科研促教”的办学方针,在全校大力营造科研氛围.通过教育科研,促进教师整体、快速地进步,特别是促进青年教师专业化成
针对目前终端测试领域中测试成本高,测试仪表群管理复杂等问题,在原有终端测试方法的基础上,研究并实现了一个基于Struts2+Spring+Hibernate(S2SH)框架的终端测试平台。该平