【摘 要】
:
在大规模科学数据共享以及大型企业应用中存在海量的数据库。由于系统的定制性和历史原因,造成了这些数据库共享存在以下难题:封闭性、数据孤岛、缺乏规范和标准。中医药科技
论文部分内容阅读
在大规模科学数据共享以及大型企业应用中存在海量的数据库。由于系统的定制性和历史原因,造成了这些数据库共享存在以下难题:封闭性、数据孤岛、缺乏规范和标准。中医药科技数据库群的共享正是大规模数据共享的一个例子。 为了解决异质异构数据的集成与共享,浙江大学网格实验室于2002年起开始研制用语义与网格技术来解决这个难题,并于2003年底推出了DartGrid V1,实现了用语义集成数据的基本理念并投入应用。此后我们一直在改进、扩充DartGrid V1的功能、稳定性与性能,并于2005年推出了DartGrid V3。 新的DartGridV3完全改造了已有DartGrid的内核,使它的稳定性、性能得到了本质的提高,集成的数据也更全面。DartGridV3还扩充了新的功能:将语义集成的理念推广到了全文检索系统,使语义技术与当今最热门的搜索技术相结合,使数据的搜索比以前更加方便快速;同时它还提供了强大的Web应用支持,使整个查询构造、查询处理等功能都可以在Web浏览器上完成,从而使DartGrid系统更加贴近最终用户、更加实用。 本人负责整个数据库全文检索引擎和基于DartGrid V3的Web查询处理系统的开发。将语义技术与全文检索引擎相结合来集成异质异构数据库的查询是一个不错的创意,而在全文检索系统中设计的全新的中文分词算法更是一个很好的创新。当然在开发过程中还有很多工程上的设计和思想,也是对我工程开发过程的很好的总结。以中医药数据库做切入点,全文检索系统已经在中国中医研究院成功运行了。 本文介绍了整个DartGrid V3的基本设计理念和解决方案、基于DartGrid V3的Web查询平台的设计、基于语义的数据库全文检索系统的设计和我自己设计的中文分词算法—树状词库法的思想和实现。
其他文献
图是一种通用的数据结构,相比路径和树结构来说,图能表达更多复杂的结构信息,如:分子结构、社交网络关系、图像。近年来,随着图数据在各个应用领域内被广泛使用,其数据量成指
随着嵌入式技术的广泛发展与应用,嵌入式系统的设计需求越来越多样化,这包括实时性、专用性、低功耗技术等;另一方面,对嵌入式系统的功能要求也越来越全面。但是嵌入式系统的一个
唇读为人机自然交互和生物特征识别提供了一种新的途径,本文主要针对单独视觉通道唇读,重点研究为提高唇读理解的关键技术中的特征提取和语言模型问题。在唇区检测与定位方面
舌诊是中医学中最有临床应用价值的中医诊断方法之一。近年来,随着计算机科学与技术的迅速发展,传统中医舌诊学朝着计算机化方向发展已经成为必然趋势。本文正是试图推广计算
随着社会信息化程度的提高,人们对于信息系统的开放性、灵活性和重用性都提出了更高的要求,企业应用系统的开发也受到了新的挑战。如何快速开发能够满足不同需求且高质量的应
近年来,随着全球经济的一体化和信息技术的迅猛发展,企业间的竞争已经转变为供应链与供应链之间的竞争。这种环境下,又出现了市场全球化、产品个性化等新特点,由于企业的生产经营活动主要由订单动态触发,供需企业之间往往又缺少中间库存的缓冲,这就需要对供需企业的采购与供应业务活动进行有效协调。本文即从供应链环境出发,针对企业间采购与供应模式的新变化,对企业间采购与供应协调方法进行了深入研究。首先,本文结合企业
可扩展标记语言(eXtensible Markup Language,XML)访问控制是保证XML安全性的一项重要技术。为了给存储在XML数据库中的XML文档提供有效的强制访问控制,从现有面向XML文档的
近几年来,Peer-to-Peer(简称P2P)作为一种新型的网络应用模式以其可扩展性,高度容错性等突出优点变得越来越流行。P2P技术的主要特点在于充分利用分布在终端电脑上的网络资源
当今计算机局域网络(LAN)的数据传输网络控制协议不外乎总线竞争、令牌及轮询等方式,这些方式不是实时性不强就是传输能力有限,不适合对实时要求很高的数据传输,如语音及图像等
随着计算机网络的广泛而深入的应用,保护网络系统的安全与稳定已经成为一个刻不容缓的课题。大规模网络安全态势分析是掌握宏观网络安全状态的重要手段,对大规模报警日志的分