【摘 要】
:
随着web的迅速发展,人们从互联网上可以获取资料变得越来越多。与此同时,互联网也以其巨大的信息量给人们带来了前所未有的冲击。在用户利用web搜索引擎查找信息的过程中,往往出
论文部分内容阅读
随着web的迅速发展,人们从互联网上可以获取资料变得越来越多。与此同时,互联网也以其巨大的信息量给人们带来了前所未有的冲击。在用户利用web搜索引擎查找信息的过程中,往往出现用户查询与索引文档信息表示不匹配的情况。例如:在用户角度,“秘笈/要诀/绝招/法宝”和“秘诀”是相同概念,而对于搜索引擎,这是几个完全不相同的概念。这种描述不匹配的情况会导致一些相关文档不能被成功检索出来。这也是本文重点研究的问题。主要工作包括以下方面:第一,分析研究了已有的通过词语扩展和词语重新加权来改进用户查询的几类方法的在中文信息检索中的有效性。第二,根据已有查询扩展技术在中文信息检索中有效性的分析,提出了一种基于web资源查询扩展策略。该策略自动从互联网上下载网页,并对其进行分析并从中提取相关术语群用于进行查询扩展。相对传统扩展方法利用人工构建的静态语义资源进行扩展,该策略可以根据web资源自动的构建语义资源,具有更好的时效性和实用性。第三,根据该策略建立对应的扩展模型,将从web资源中提取的相关术语群和从查询文档集中提取的局部和全局的相关信息进行结合,并通过相应的选择算法,对扩展术语进行选择,在NTCIR-5中文信息检索测试集上进行的实验表明,相对于传统的查询扩展,本文的查询扩展方法在检索精度上取得了13.1%的提高。第四,设计并实现了基于相关术语群进行查询扩展的检索系统,此外还实现了一些传统的查询扩展的策略,有利于各种策略之间的比较。综合运用本文中的方法和检索系统,参加了2005年度在日本举行的文本信息检索国际标准会议,验证了本文方法的有效性和可行性。
其他文献
随着Internet的发展和应用,越来越多的商务、日常活动通过Internet进行,网络与人们的生活越来越紧密。然而,网络是双面的,人们在享受网络所带来便利的同时,不可避免地接触到
随着计算机产业的发展,以计算机存储设备为载体的电子信息愈来愈多,这些信息大致可分为两类:结构化数据和非结构化数据,结构化数据指的是诸如企业财务帐目、生产数据、学生的
目前,在水产动物疾病专家诊断系统领域,需诊断的新问题和知识库以文字方式描述为主,致使进行诊断推理时,依据的信息和知识也只有文字描述,容易造成诊断结果的差异性和不准确性。针
图像融合是综合利用各种成像传感器获得的不同图像或同种成像传感器不同成像方式获得的不同图像以获得更为全面、更为准确的图像描述供观察或进一步处理。它在军事、遥感、机
T-Kernel作为一种嵌入式操作系统,由于实时性和开源性,在嵌入式操作系统领域中的应用越来越广泛。ARM是一款比较好的微处理器,T-Kernel在ARM上的应用研究基本上是空白,所以结
分形理论是近二、三十年才发展起来的一门新的学科,它主要描述自然界中的非线性系统中不光滑和不规则的几何形体。传统的欧氏几何主要研究规则图形和光滑曲线,对自然植物的描
随着Web应用的日益广泛,需求的变化也越来越多,用户希望提升操作体验,企业希望能够降低软件开发费用、最大化现有技术的利用、快速应对业务决策的改变。而以传统的方式来开发
随着计算机应用范围的扩大,需要计算机处理的数据量也越来越大,在很多领域里,常采用OMR(光学标记阅读机)来解决大规模数据的采集、识别和录入的问题。虽然OMR解决了一些填涂信息
面向对象模型是基于面向对象的设计方法而建立的模型,是面向对象的核心思想,它模拟人的思维方式,尽可能地使程序的结构和实现与其所描述的现实世界保持一致,亦即充分保证计算
随着互联网技术与应用的迅速发展,Web服务作为部署在互联网上的组件,展现出良好的封装性、松耦合性以及跨平台性。因此,Web服务迅速成为了人们关注的焦点。近年来,互联网上出