文本主题切分技术和ROCCHIO模型在信息检索中应用的研究

来源 :中国科学院软件研究所 | 被引量 : 2次 | 上传用户:w5423112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我们当前面临着信息爆炸的时代,如何从海量的信息获得所需要的成为人们在信息时代所面临的主要问题之一。随着信息检索技术研究的深入和应用的扩大,用户对检索的要求越来越细,研究者将全文本检索技术已经细分为问答式检索,网络检索,交互式检索,文本过滤等。为了检索系统的精度和用户对系统的满意度,研究者开始考虑如何在现有的自然语言处理和文本处理的理论下,综合使用各种相关理论和技术来更好的满足用户需求。 本文的提出背景是第12届国际文本检索大会的子项目,高精度文本检索(Text Retrieval Conference 12,High Accuracy Retrieval of Document Track)。首先分析了向量空间模型,它的优缺点,基于它广泛使用的SMART系统,概率空间模型,它的优缺点以及现在基于该模型的INQUERY平台。因为尽管现代信息检索已经不单纯是文本检索或者全文检索,而且这两种模型也已经提出了很多年,但是,上述两种模型以及各种基于此改进的模型还是广泛的用于各种检索方式的第一步或者它们处理问题的思想也被广泛的借鉴。然后,介绍了根据不同线索将文本中不同子主题切分的技术,这些线索包括词义网络和各个段落关键词出现的频率统计,并指出它们各自的优缺点。其次介绍了文本过滤技术,并分析了常用的Rocchio模型的特点。再次,介绍了用在本文所涉及到的浅层自然语言处理技术。最后,介绍了为了准确把握用户需求所需要的一些要素。 本文针对文本检索大会子项目的要求和基于段落的,用户查询时可能提供一篇相关文章的查询特点,首先将Rocchio模型和向量空间算法结合起来来把握用户需求并计算文档与查询的相关度,再使用梯度下降技术来训练模型中的参数,最后依据查询和段落层的相关度,使用基于段落切分的方法返回包含用户查询最相关文章。 最后,以上述技术为背景,本文实现了上述试验,并分析了试验结果。
其他文献
室内定位技术是指在室内环境下获得移动终端的位置信息,并提供给移动用户或通信系统的相关技术。以GPS为代表的室外定位技术发展越来越完善,但是,该技术在室内环境下无法实现
在当今的信息社会中,企业的国际国内交流迅猛增加,以最快、最经济的方式获取和发出信息,已成为企业把握商机、竞争成败的关键。随着Internet 技术的发展,电子邮件(E-mail)作为INT
程序分片是一种程序抽取技术,对于程序分析、程序理解以及软件工程的各个领域都很有帮助。自从1979年被提出以来,程序分片受到人们的广泛关注,目前它的技术已经很成熟。特别静态
目前利用虚拟现实技术实现数据中心可视化来管理数据中心已经成为趋势,数据中心三维可视化为管理人员提供了一种有效的机房管理方式,但搭建三维场景的同时也具有场景复用性差
无线传感器网络(WSN,Wireless Sensor Network)的应用越来越广泛,例如在火警预报、环境监测、燃气抄表等领域提供了便捷性和安全性保证,对人们的生活影响很大。数据收集是无线传感
EJB(Enterprise Java Bean)是为开发和部署基于组件的分布式应用而定义的组件体系结构。与其他组件技术相比,EJB组件具有可扩展性、事务性和并发访问安全性,而且EJB组件使用纯J