【摘 要】
:
科技文献检索是科研工作者不可或缺的一项重要工作。随着大量以Deep Web形式存在的数字资源不断涌现,科研工作者要获得全面、满意的文献信息,需要将同一查询重复提交到多个Deep
论文部分内容阅读
科技文献检索是科研工作者不可或缺的一项重要工作。随着大量以Deep Web形式存在的数字资源不断涌现,科研工作者要获得全面、满意的文献信息,需要将同一查询重复提交到多个Deep Web文献检索站点,导致查询效率很低。因此,应当出现更加有效的Deep Web集成技术来解决当前文献异构检索中存在的问题。 基于贵州省科技计划项目《科技文献异构数据库共享检索平台》(简称SIUS)的关键技术研发,我们对文献异构检索中的Deep Web集成技术展开了研究,取得了可喜的成果,本文对研究方法和结果做一个总结和阐述。我们在研究中提出一种Deep Web数据集成机制,它结合了虚拟视图法和公共数据仓库法的优点,能够满足检索中对实时性和高效性的要求。在此基础上,提出了两个算法,一个是基于DOM树匹配的Deep Web自动抽取算法,它利用Deep Web页面中数据区域的特点,识别出数据区域,进而产生抽取规则;另一个主要算法是基于Lucene的改进排序算法,该算法在Lucene排序算法的基础上,再引入词频位置加权。实验结果表明,这些方法在Deep Web异构数据集成中能够取得了较好的效果。 将文中提出的算法在SIUS中实现,SIUS是贵州省内唯一的异构数据检索平台,该平台已通过验收并投入使用,迄今已有200多家单位使用该平台资源,下载各种科技文献50多万篇,访问人数已达20万人次,产生了较好的社会效益和经济效益。
其他文献
随着蠕虫病毒等大规模安全事件的频繁爆发,互联网用户的损失与日俱增,对于大规模网络异常事件的宏观预警问题的研究,变得越来越紧迫。然而多数安全事件对网络的影响和危害很
软件定义网络(SDN)为网络的管理提供了高度的可扩展性。随着网络规模的扩大,网络规则的频繁更新,SDN交换机需要频繁地在控制层和数据层之间切换,为交换机的正确性留下了隐患
目前智能手机市场上已经有多款手机搭载了例如指纹,虹膜识别等生物特征识别技术。生物特征识别技术不再仅仅是出现在那些好莱坞的大片中,它已经走进了我们的日常生活。本文研
随着网格技术的不断发展,一切网格应用都被抽象封装成为“服务”,需要为用户提供可靠、有保障的服务质量(QoS)。在这种情况下,需要良好的网格资源映射优化策略有效的分配资源
在信息化的时代,视频监控得到了长足的发展,每天从监控中产生的大量数据里面存在很多不必要的信息。这些不必要的信息占用了存储资源。如何从这些视频中提取出有用的信息,是
句法分析是自然语言处理领域的关键技术之一,在自然语言处理中具有十分重要的地位,它在机器翻译、信息检索、语音识别等研究中都有重要应用。在机器翻译的一些应用中,只需要
复合模式查找是生物信息学中模式发现问题的一个新的研究领域,而寻求效率更高,精度更高的复合模式查找算法将是复合模式研究领域的长期热点与目标。本文对此进行了深入的研究和
工作流管理是近年来计算机应用领域的热点之一。对于工作流的建模有多种方式,其中Petri网是用于工作流建模的一种比较重要和实用的方法。时间和资源是工作流系统中两个重要的
火灾是目前发生频率较高的一种灾害。随着经济的发展,目前各种现代化楼宇对火灾自动报警系统提出了更高的要求。本文论述了目前火灾自动报警系统的研究开发现状,分析了存在的
随着计算机网络技术的不断发展,计算机远程控制技术得到了广泛的应用,同时也面临着巨大的挑战:首先,远程控制系统作为辅助控制的工具,用户希望其尽量少或不占用被控系统的资源