信息检索技术鲁棒性研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:zhouyiai1015
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何有效提高信息检索技术的鲁棒性是本论文研究的中心内容。本文第一章首先简要介绍了信息检索的关键技术和研究趋势,指出了文本信息检索的三大关键技术:“查询处理”、“相似度计算”和“结果排序”,并相应地提出了论文工作的基本思路:在上述三大关键技术中,引入自然语言处理和机器学习的方法,期望以此提高检索的鲁棒性。随后,第二章和第三章分别介绍了将自然语言处理和机器学习技术应用到信息检索中的若干模型,并对这些模型在TRECRobustTrack大规模标准语料库上的实验结果进行了详细分析。接着,第四章介绍了我们NLPR参加TREC2004评测的基本情况以及经验总结。最后,第五章给出了论文工作的总结和展望。 概括来说,本论文主要有如下几项工作:1.提出词义熵模型,利用Wordnet提供的结构化的词义知识,帮助确定查询项的权重。实验表明,词义熵模型与当前常用的TF*IDF权重计算公式联合使用,能有效提高检索系统鲁棒性。 2.利用自然语言处理中命名实体和复合名词的概念,提出了加入名词性多词组合的矢量空间模型,以及来源于语义张量概念的核心窗口模型和改进的动态核心窗口模型。实验表明,这三个检索模型都能在一定程度上提高检索系统的性能。 3.对于如何有效融合多个检索模型,本文详细研究了两大类方法:基于结果的融合方法和基于查询词的自动模型选择方法。对基于结果的融合方法,本文提出了三种方法:简单合并方法,得分归一化方法以及文本聚类方法。对基于查询词的自动模型选择方法,本文引入了三种新的查询项特征,并分别采用了两种分类方法:KNN和SVM分类器。实验表明,两类融合方法都是有效的;KNN分类器的准确率要高于SVM分类器;引入的新特征都可以改善系统性能;保持特征空间维数在一定范围的情况下,组合特征也有助于提高分类器准确率。 4.通过参加TREC评测,测试了新检索算法的性能,在Robust任务取得了不错的成绩。并通过与国际同行的比较,积累了一些提高文本检索鲁棒性的经验。
其他文献
嵌入式软件是嵌入式系统的灵魂,而嵌入式操作系统又是嵌入式软件的核心。嵌入式应用发展的关键是嵌入式软件,尤其是嵌入式操作系统的发展。与通用操作系统相比较,嵌入式操作系统
本文在分析计算机数据采集技术的发展历史及发展趋势的基础上,本着顺应接口发展趋势以及方便,实用,可靠及经济等设计原则,设计开发了基于USB接口的高速数据采集系统。 在
随着计算机技术、自动化技术和传感器技术的发展,水文监测监控技术实现了自动化、智能化。计算机实时监测技术在实际环境中得到了广泛的应用。近年来,网络技术的发展和应用为
本文提示识别技术巧妙地在文本相关识别基础上予以引申,具有很好的安全性,且实现相对简单,是说话人识别技术的热点。 本文首先从信号处理的角度对说话人识别应用中的基本
本文将模糊控制和同步切换控制应用于供水系统。由于供水系统具有非线性、滞后和参数时变等特点,用通常的控制方法难以得到良好的控制效果,本文采用模糊控制算法来实现水压闭
电动机在国民经济中的重要性勿庸置疑。但是对它的保护却不为继电保护工作者所重视,从而导致保护装置功效低下,保护装置经常出现拒动而使电动机损毁,或者由于保护装置的误动从而跳闸。 近年来,随着计算机技术与自动控制理论以及信号处理理论的不断发展,出现了以微处理器为核心的微机继电保护装置。与传统的保护装置相比,这种新型保护装置具有强大的逻辑分析与处理功能、可实现性能完善且复杂的保护方式、可兼有故障记录
该研究项目是广东省科学技术厅工业攻关项目(锌钡白生产转窑智能控制系统——C10909)、广州科技局科技攻关引导项目(网络环境下管控一体化的智能控制信息系统的研究开发—200
进入新世纪以来,伴随着世界格局的改变,我国的海洋局势日益紧张,研究发展高性能海军舰船成为我国建设海洋强国事业的迫切需要,对船用设备进行技术改造,完善升级伺服系统自然
矩阵式变换器作为一种全新电能变换装置,具有输入功率因数为1,输入电流谐波小,机构紧凑,易于四象限运行等诸多优点,成为未来传动技术的发展趋势。 本文重点研究三相/三相交-交
小波技术的发展为多元统计过程监测的研究和应用注入了新的生命力,本文以小波分析和主元分析PCA的基本理论为基础,将主元分析PCA去线性变量相关性的能力以及小波变换提取变量