科学工作流中的正则查询与关键字检索技术研究

来源 :南开大学 | 被引量 : 0次 | 上传用户：ZPHZPH

【摘要】

：

随着计算机技术的日新月异和自然科学领域的不断发展，科学工作流作为面向数据的工作流旨在利用计算机技术帮助人们解决科学实验的数据再现和有效性验证等问题，并进一步减轻科学

【作者】

：

黄晓骋

【机构】

：

南开大学

【出处】

：

南开大学

【发表日期】

：

2014年期

【关键词】

：

科学工作流数据起源正则查询关键字检索有效性验证文本检索

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机技术的日新月异和自然科学领域的不断发展，科学工作流作为面向数据的工作流旨在利用计算机技术帮助人们解决科学实验的数据再现和有效性验证等问题，并进一步减轻科学实验设计与分析的人力成本。作为一个刚刚起步的新研究领域，需要探索其具体应用场景，归纳应解决的实际问题。　　本文正是在这种背景下，调研问题的应用场景与实际需求，从最基本的科学工作流建模开始，研究科学工作流中数据起源正则查询与关键字检索的若干关键问题。一方面，现有科学工作流中数据起源研究停留在可达性查询阶段，主要回答“某数据点d1是否依赖于数据点d2?”等类似问题。本文研究更为复杂的查询——正则查询，回答诸如“某数据点d1是否经过技术a1或者技术a2重复处理过，然后由技术s处理过的，最终输出数据d2?”等问题，这个查询可以由正则查询R=(a1|a2)*.s.(_)*表征。另一方面，科学工作流中的关键字检索不同于普通的文本检索，需要考虑科学工作流模式构建科学工作流运行实例的表征能力。科学工作流中的关键字检索是对科学工作流模式共享库进行检索。科学工作流模式库中科学工作流模式的每个模块（包括复杂模块与原子模块）都由一个或多个关键字标注。当用户需要设计新的科学工作流时，可以通过输入关键字对科学工作流模式共享库进行检索，进而可以重用部分共享库中已有科学工作流模式或模块，从而减轻实验设计的人力成本。　　本文对自然科学领域科学实验中遇到的实际问题进行调研分析，在此基础上，结合数据管理技术，对科学工作流中的正则查询和关键字检索两大问题进行深入研究，主要贡献和创新包括:　　第一，提出基于上下文无关包文法的科学工作流模型。基于上下文无关文法的科学工作流模型使用文法表征科学工作流模式，文法的语言对应科学工作流运行实例。上下文无关图文法用以描述科学工作流中的数据依赖关系并用于进行数据起源的正则查询。而上下文无关包文法通过将科学工作流模块的关键字建模到文法的产生式中，使得关键字检索更为简洁，关键字匹配的语义更为清晰。　　第二，提出一种基于节点编码的科学工作流数据起源正则查询方法。本文提出的正则查询方案基于一类特殊查询——稳定正则查询。将点对点稳定查询的时间复杂度降低到常数级，是最优算法;将多点稳定查询的时间复杂度做到仅与输入节点表的大小有关而与数据起源图的大小无关，附加地将多点可达查询的时间复杂度降低到线性于输入输出，是最优算法;最后本文将稳定正则查询扩展到通用正则查询，显著地提升了查询效率。　　第三，提出一种新型的科学工作流关键字检索方案。本文定义了科学工作流中关键字检索的匹配语义，并将上下文无关包文法扩展为上下文无关概率包文法，讨论了基于“和”语义和“最大”语义的排序语义。另外，鉴于科学工作流的复杂结构，直接将匹配的科学工作流返回给用户可能造成用户理解上的困难，本文提出一种新型的检索结果展示方法——典型产生式解析树。典型产生式解析树是结构不重复的树，它代表了一类由循环多次执行造成结构冗余的树。典型产生式解析树以简洁的方式展示了科学工作流模式的结构。

其他文献

基于人工免疫系统的Web日志挖掘应用研究

作为丰富信息资源的提供源,Web已逐渐深入到人们学习、工作和生活的方方面面。随着Web结构的日益复杂,信息的日趋庞杂,用户要想在大多没有考虑其偏好和浏览兴趣的网站上获得

学位

Web日志挖掘用户访问模式人工免疫系统聚类分析

PCI Express总线标准的研究与分析

在计算机系统中一个微处理器总是要和一定数量的部件及外围设备连接的，但是如果各个部件和外设都直接用一组线路连到CPU是不现实的，电路实现也是很困难的。于是就需要有这样一

学位

PCI ExpressPCI总线标准芯片组显卡

面向中小企业的门户平台体系结构研究

随着企业信息化技术的发展,企业内信息系统的应用越来越广泛,但是系统间的接口也越来越复杂,一个企业内部采用不同的应用来解决企业各个业务上存在的问题,由于系统与系统缺乏

学位

企业信息门户中小企业Turbine体系结构Portlet

基于教学服务系统的数据库存储过程的研究

伴随计算机科学技术的发展,信息化不断普及到各行各业中,信息管理系统开始发挥重要作用,高校教学服务系统为教育信息管理带来根本的改变。本系统基于B/S架构的数据库管理系统

学位

教学服务系统数据库存储过程优化

局域网蠕虫检测和控制技术研究

近年来,随着互联网应用的深入,网络蠕虫对计算机系统安全和网络安全的威胁日益严重,蠕虫的传播速度越来越快,造成的损失也越来越大。传统的基于特征码的蠕虫检测方法受限于蠕

学位

蠕虫检测控制局域网

SD9200-ARM9嵌入式教学实验平台的设计与实现

随着嵌入式系统发展的日新月异,芯片制造技术的不断革新,嵌入式计算机已被应用到各个领域和产品中。为了适应社会的需求,目前大多数高等院校都开设了嵌入式系统课程,嵌入式系

学位

嵌入式系统ARM9AT91RM9200Linux教学实验平台

企业应用集成关键技术——Web服务组合引擎研究与实现

互联网正在发生着重大的变化。随着电子商务和B2B应用的发展和需求的加深，为了在激烈的竞争中生存下来，许多企业和组织迅速将其核心业务作为一组Web服务发布到互联网上，因此企业

学位

企业应用集成服务组合工作流Petri网Web服务

基于Web Service的电子商务系统研究与实现

随着电子商务的发展,企业往往需要一种分布式计算模型来集成企业内部和企业之间的应用系统(EAI和B2BI),以实现企业内部完整的商业流程和支持跨企业的商业运作。这种分布计算

学位

电子商务Web服务可扩展标记语言简单对象访问协议Web服务描述语言统一描述、发现和集成

面向语义Web服务的本体元建模研究

Web服务作为工业界的一个标准，是未来互联网重要应用之一。将语义Web的核心技术——本体应用于Web服务，形成了语义Web服务。语义Web服务在标准的Web服务描述中添加了语义信息，使

学位

语义节Web统一建模语言元模型本体Web服务

基于P2P的网络存储系统的研究

随着网络技术的发展,网络存储技术越来越受到人们的重视。网络存储技术中有两个问题急待解决,首先传统的网络存储技术只注重于对服务器存储设备的研究,而忽略了对用户计算机

学位

P2P网络存储资源检索

科学工作流中的正则查询与关键字检索技术研究

其他学术论文