中文信息检索系统研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:lyt0821
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和信息技术的发展,Web搜索技术在人们的日常生活和学习中发挥着越来越重要的作用。如何在海量数据中准确快速的搜索到有用信息,成为现代信息检索技术的主要研究内容。而信息检索的主要困难,一方面来自于用户难以准确地表达自己的查询请求,有效地和信息检索系统交互;另一方面,来自于信息检索系统很难对文档集进行整理加工。本文综合考虑了这两方面的内容,提出了查询扩展和文档扩展相结合的中文信息检索系统。本文的主要工作包括以下方面:第一,对已有查询扩展技术在中文信息检索中的有效性分析的基础上,提出了一种基于Web资源查询扩展策略。该策略自动从互联网上下载网页,并对其进行分析并从中提取相关术语群用于进行查询扩展。相对传统扩展方法利用人工构建的静态语义资源进行扩展,该策略可以根据Web资源自动的构建语义资源,具有更好的时效性和实用性。第二,利用文档集内部的信息,提出基于文本聚类的文档扩展方法。该方法首先得到单个文档与查询之间的相似度;然后将前n篇文档聚类,再次计算类别与查询之间的相似度,并将它赋给该类别中的每一个文档;最后,将这两个相似度线性组合起来,得到了每个文档与查询之间最终的相似度,并以此重排结果集。第三,将这两种方法结合起来,形成了查询扩展和文档扩展相结合的中文信息检索系统。在NICIR-6中文信息检索测试集上进行的实验表明,相对于传统的信息检索技术,本文的方法在检索精度上取得了一定的提高。
其他文献
随着计算机技术的不断发展,基于问题求解规模的现代密码遇到了越来越严峻的考验。虽然一次一密加密算法能保证信息的绝对安全,但如何进行大规模的密钥分发和管理却极大的限制
近年来,随着无线通信技术的飞速发展,越来越多的应用通过无线网络进行信息传输,因而对频谱的需求也不断增加。这使得原本就有限的频谱资源显得更为稀缺。同时,目前大多数主要
在中文信息处理中,文本相似度的计算广泛应用于信息检索、机器翻译、自动问答系统、文本挖掘等领域,是一个非常基础而关键的问题,相似度计算的方法目前也有很多种,针对总体研
目前随着科学技术的发展,互联网数据呈现出了指数级的爆炸式增长,这就使得人工标注数据样本的代价急速增加。所以,怎样用较少的人力和财力来获取更好的效果,是人们一直在致力
人脸识别技术作为机器视觉和模式识别领域中长期关注的一个重要课题,具有极高的学术研究价值和商业应用价值。完整人脸识别系统分为人脸检测和人脸识别两个部分,首先从给定的
近年来,各种极端天气灾害、动物疫情和事故灾害在世界范围内频繁发生,对人类的生产、生活构成了极大的威胁。对于突发性事件处理,最重要的就是快速反应与正确决策,建立应急指挥系
安全问题是当前网络多媒体应用中比较突出的问题,目前用于解决该问题的技术很多,其中的数字水印技术,尤其图像数字水印技术,以在版权保护方面的独特优势而引起人们的普遍重视
近年来,随着互联网科技的飞速发展,在线广告逐渐成为各大互联网企业的主要盈利方式。因此针对提升用户对广告满意度,提高广告主利润的研究越来越重要。其中常见的研究围绕利
由于数据缺乏语义信息及其查询处理缺乏语义支持,传统基于关键词的信息查询只能查找出与用户查询条件在语法层上匹配的信息,而无法给出与其在语义层上具有相关性的其它信息,从而
在多Agent系统中,为了尽可能细致的刻画Agent合理的行为能力,学者提出了合作逻辑这类理论。所谓合作是指,多Agent系统中Agent个体保持和团体完全相同的价值取向。多Agent合作逻