【摘 要】
:
随着信息化的高速发展,各种数据资源迅速累积,数据结构也日益复杂。面对大量的信息,而且是逻辑结构,存储结构等差异很大的数据信息,如何方便地且快速、准确地检索出有效信息,从而获
论文部分内容阅读
随着信息化的高速发展,各种数据资源迅速累积,数据结构也日益复杂。面对大量的信息,而且是逻辑结构,存储结构等差异很大的数据信息,如何方便地且快速、准确地检索出有效信息,从而获取重要资源,是信息时代人们的迫切需求。为解决异构数据统一检索问题,本文提出一种异构数据统一检索方法并引入分词技术,提高信息检索的查准率及系统检索效率。本文介绍了分词技术与异构数据检索的国内外研究现状,对分词技术和异构数据检索的基本理论、常用技术和方案、典型算法等进行了分析和总结。在此基础上,设计了一种异构数据统一检索总体架构,并详细介绍了框架的层次划分、各层次模块的功能、系统的运行流程及架构的特点。在分析传统分词算法及分词词典机制的基础上,结合异构数据统一检索的特点,设计了一种基于改进的整词二分词典的快速分词法,并给出算法的具体实现。经实例验证,该分词算法分词准确,响应快速,能很好的适应异构检索对查询语句的切分、关键词提取及查询结果相似度比对等操作的要求。本文通过对检索结果处理流程的逐步分析,研究了构成检索结果处理层核心部分的相似度计算方法,设计了一种基于贝叶斯分类的相似度算法,并将改进的快速分词法应用于检索结果相似度计算的预处理,提高算法效率。最后,结合某省海事局船舶管理信息系统实现了分词技术在异构数据统一检索中的初步应用。应用结果表明,数据检索覆盖率、系统检索响应时间和检索查准率都有明显提升,有效的解决了异构数据统一检索问题。
其他文献
为了提高计算机的智能化程度,在自然语言处理的过程中,加入语义知识的理解是非常必要的。随着日益增长的信息处理需求,如何从海量的语料资源中自动地获取丰富的语义知识,以及
随着计算机技术的发展和互联网技术的进步,企业集成制造趋势越发明显,传统的产品信息表达方式和处理模式已无法适应现代企业的需求。产品信息的交换与共享已不再局限于数据内
基于构件的软件开发方法被视为解决软件危机的现实可行途径,这种方法的前提是需要大量可以使用的元构件,为了解决构件的来源问题,当前互联网涌现了一批构件资源下载网站,但是这些
随着计算机的快速普及,互联网的迅猛发展,各式各样的信息呈爆炸式增加,如何从海量数据中准确、快速地获取用户真正需要的信息成为人们关注的话题。信息抽取的主要目的是将非
数字信号处理器DSP,以其独特的体系结构和高效指令处理,在移动通信、实时图像处理等领域得到了广泛应用。然而,随着信息处理规模的不断增加,仅依靠单DSP系统已经无法适应超大运算
粒子群优化算法(PSO)是最近十年来提出来的一种启发式群智能全局优化进化算法,其基本思想源自于对鸟群觅食行为的模拟,适用于求解非线性、不可微的复杂优化问题,也可应用于组
随着交通行业的飞速发展,交通信息的重要性也越来越明显,人们对于交通信息的关注也越来越高,能够提供更多更有效的交通信息已经越来越重要了。而人们日常生活中最关心的交通
随着记录密度的不断提高,传统的磁记录技术正在面临因超顺磁效应等问题而导致的记录密度极限。为应对超顺磁极限,一种有效的方法就是使用图案化磁介质。通过将记录位隔离开来,图案化介质不仅获得了更高的热稳定性,而且减小了噪声,被认为是未来超高密度磁记录技术的发展方向。预刻蚀-沉积法被认为是在工业生产中最有可能采用的制备图案化介质的方法,然而,由这种方法制备得到的介质的记录性能强烈地依赖于沉积条件——沉积物既
随着社会经济的快速发展,现代建筑的外形变得越来越复杂,为了节约成本、降低设计和建造难度,几何设计方法越来越多地被用于生成、分析和处理模型。在本文中,我们针对建筑模型
随着科学技术的发展,以计算为核心的信息系统正逐步向以数据为核心转移,人们对信息中心的称谓从“计算中心”、“网络中心”到“数据中心”,形象地表明了处理、传输和存储这三个