中文信息检索系统与文档重排技术研究

来源 :武汉科技大学 | 被引量 : 0次 | 上传用户:huangzhijian2006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机系统性能的提高,互联网信息的飞速发展,以及企业信息化程度的迅速提高,中文信息资源以极快的速度递增。信息的增加在满足人们对信息需求的同时也给人们快速、准确的查找所需要的信息带来了一定的难度。在这种情况下,信息检索技术成为研究的热点。信息检索(Information Retrieval,IR),通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。信息检索的主要技术包括索引处理、查询扩展、检索模型、重排处理等,中文信息检索还涉及到分词处理。针对中文信息检索相关技术的研究,本文的研究内容可以分为两个部分。首先,以NTCIR7的中文IR4QA子任务为实验背景,设计并实现了一个中文信息检索系统。系统在索引时对原始文本进行分词处理后以词为单元生成倒排索引,检索部分则采用了经典的向量空间模型。为了解决词不匹配的问题,检索得到初始结果后,利用一种基于局部共现的查询扩展方法进行查询扩展处理。实验结果表明,经过查询扩展处理后,系统性能得到明显提升。对于系统所得结果,经过NTCIR7官方评价工具的评估,可以看到我们的检索系统有较好的检索性能。另外,对特定类型问题进行了文档重排技术的研究。针对检索系统将检索结果反馈给用户时,用户往往只浏览前N个检索结果的情况,本文结合开放性资源维基百科和定义以及人物传记这两种类型问题的特点,将与特定问题相关的维基百科页面引入,以对初检结果进行文档重排处理。实验表明,这种方法能有效提高排在前面的文档的精度。
其他文献
随着网络以及多媒体技术的不断发展,多媒体业务逐渐在Internet应用中占据主导地位。与之相适应,多媒体终端发展十分迅速,其形式也由依赖硬件提供主要功能的硬终端扩展到基于软件
随着半导体制造工艺和大规模集成电路设计能力的发展,嵌入式设备体积越来越小,功能却越来越强大,由此导致系统能耗问题日益突出。研究表明,存储子系统的能耗是整个片上系统能
随着Internet的飞速发展,分布式系统得到了广泛应用,为信息的存储、传递、发布及获取方式带来了重大变革,同时也为数据完整性、非授权访问等安全问题带来了新的威胁。访问控
近年来,根据人类自身的生理特征尤其是人脸特征进行自动检测和识别研究已成为人工智能和计算机图像处理领域的热门研究课题之一。其中,人脸特征研究的重点在于眼睛、嘴巴的检
近十年来,关键字搜索技术一直是数据库、信息检索和数据挖掘领域的研究热点。而当前,图上的关键字搜索由于具有更加广泛的适用性而备受关注。图上的关键字搜索算法与传统的关
软件测试贯穿于软件开发的整个过程,是保证软件质量的重要手段。单元测试是对软件设计的最小单位进行正确性检验,是后续软件开发和测试的保障。所以单元测试既是软件测试的第
随着视频监控的普及和图像数据的海量增长,图像的人工检索与分类已经无法适应需求,这促进了图像分类技术的产生与发展。图像分类的关键技术是提取图像特征信息及其表征。由于
传统的入侵检测大都基于专家系统,缺乏自适应性,对未知攻击的检测能力较弱。而人工免疫系统是一类基于生物免疫系统的功能、原理、特征而建立的用于解决各种复杂问题的计算系
置换流水车间调度问题(Permutation Flow Shop Problem-PFSP),是车间调度领域一个经典的问题,具有重要的理论意义和现实意义。在理论上,该问题代表了一类具有排列性质的组合
随着计算机技术的发展和数码设备的普及,图像的智能操作和编辑技术引起了许多研究人员的兴趣,并逐渐发展成为一个研究热点。图像修复是指用图像中的已知信息修复破损区域或者