论文部分内容阅读
我们当前面临着信息爆炸的时代,如何从海量的信息获得所需要的成为人们在信息时代所面临的主要问题之一。随着信息检索技术研究的深入和应用的扩大,用户对检索的要求越来越细,研究者将全文本检索技术已经细分为问答式检索,网络检索,交互式检索,文本过滤等。为了检索系统的精度和用户对系统的满意度,研究者开始考虑如何在现有的自然语言处理和文本处理的理论下,综合使用各种相关理论和技术来更好的满足用户需求。 本文的提出背景是第12届国际文本检索大会的子项目,高精度文本检索(Text Retrieval Conference 12,High Accuracy Retrieval of Document Track)。首先分析了向量空间模型,它的优缺点,基于它广泛使用的SMART系统,概率空间模型,它的优缺点以及现在基于该模型的INQUERY平台。因为尽管现代信息检索已经不单纯是文本检索或者全文检索,而且这两种模型也已经提出了很多年,但是,上述两种模型以及各种基于此改进的模型还是广泛的用于各种检索方式的第一步或者它们处理问题的思想也被广泛的借鉴。然后,介绍了根据不同线索将文本中不同子主题切分的技术,这些线索包括词义网络和各个段落关键词出现的频率统计,并指出它们各自的优缺点。其次介绍了文本过滤技术,并分析了常用的Rocchio模型的特点。再次,介绍了用在本文所涉及到的浅层自然语言处理技术。最后,介绍了为了准确把握用户需求所需要的一些要素。 本文针对文本检索大会子项目的要求和基于段落的,用户查询时可能提供一篇相关文章的查询特点,首先将Rocchio模型和向量空间算法结合起来来把握用户需求并计算文档与查询的相关度,再使用梯度下降技术来训练模型中的参数,最后依据查询和段落层的相关度,使用基于段落切分的方法返回包含用户查询最相关文章。 最后,以上述技术为背景,本文实现了上述试验,并分析了试验结果。