论文部分内容阅读
如何有效提高信息检索技术的鲁棒性是本论文研究的中心内容。本文第一章首先简要介绍了信息检索的关键技术和研究趋势,指出了文本信息检索的三大关键技术:“查询处理”、“相似度计算”和“结果排序”,并相应地提出了论文工作的基本思路:在上述三大关键技术中,引入自然语言处理和机器学习的方法,期望以此提高检索的鲁棒性。随后,第二章和第三章分别介绍了将自然语言处理和机器学习技术应用到信息检索中的若干模型,并对这些模型在TRECRobustTrack大规模标准语料库上的实验结果进行了详细分析。接着,第四章介绍了我们NLPR参加TREC2004评测的基本情况以及经验总结。最后,第五章给出了论文工作的总结和展望。
概括来说,本论文主要有如下几项工作:1.提出词义熵模型,利用Wordnet提供的结构化的词义知识,帮助确定查询项的权重。实验表明,词义熵模型与当前常用的TF*IDF权重计算公式联合使用,能有效提高检索系统鲁棒性。
2.利用自然语言处理中命名实体和复合名词的概念,提出了加入名词性多词组合的矢量空间模型,以及来源于语义张量概念的核心窗口模型和改进的动态核心窗口模型。实验表明,这三个检索模型都能在一定程度上提高检索系统的性能。
3.对于如何有效融合多个检索模型,本文详细研究了两大类方法:基于结果的融合方法和基于查询词的自动模型选择方法。对基于结果的融合方法,本文提出了三种方法:简单合并方法,得分归一化方法以及文本聚类方法。对基于查询词的自动模型选择方法,本文引入了三种新的查询项特征,并分别采用了两种分类方法:KNN和SVM分类器。实验表明,两类融合方法都是有效的;KNN分类器的准确率要高于SVM分类器;引入的新特征都可以改善系统性能;保持特征空间维数在一定范围的情况下,组合特征也有助于提高分类器准确率。
4.通过参加TREC评测,测试了新检索算法的性能,在Robust任务取得了不错的成绩。并通过与国际同行的比较,积累了一些提高文本检索鲁棒性的经验。