基于语言模型的网页排序问题研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:king0083
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
排序问题是信息检索领域的核心问题,多年来一直是信息检索领域研究的热点。Web是当今最大的非结构化数据集合,如何排序web文档必然成为了信息检索领域研究的焦点所在。而语言模型建立在完善的统计理论基础之上,可以采用统计学方法便捷的进行模型参数估计,同时能够很好的适用于各种复杂的检索问题。作为处理网页检索问题的性能最好的非监督方法之一,在引入到信息检索领域之后,就得到了大量学者的重视和研究。近些年来,基于语言模型的方法逐渐形成了一套完整的检索模型体系。经典语言模型在处理网页排序问题时,存在着对查询单词之间的关联考虑不足、进行未见词平滑时对数据的层次没有加以更好的利用以及对于文档先验概率的忽视三个方面的问题。本文由语言模型中文档查询似然概率、未见词平滑算法和文档先验概率这三个方面入手,探讨了其中的一些改进。   本文由基于贝叶斯风险最小化理论得出的相似性公式为出发点,以查询产生每个单词及元组的概率不同为假设,提出了考虑查询单词之间多个元组共同出现的概率分布的方法建立查询模型。并且,在此模型基础之上,提出了基于多元组的文档-查询相似度算法。同时,考虑了算法实现的可能性和可用性,给出了一个切合实际的算法,并且用实验验证了算法的有效性。本文在实验结果中,分析了该算法的引入所带来性能提升的主要因为,总结了该算法本身的优劣。   同时,本文探讨了互联网数据本身的结构特性和层次特征,即互联网本身是由文档、目录、站点、整个互联网这四个层次逐层组成的有机结构。本文在此基础上,提出了一种基于这四个层次数据来进行语言模型中未见词平滑的算法。同时,本文考虑了多层次算法实现细节和数据结构相关内容,并且用实验验证了多层平滑算法由于加入了更多的层级信息,给平滑带来了一定程度的性能提升。   与以往的工作不同,本文将文档的先验概率视为语言模型非常重要的一部分,本文通过探讨多种文档先验概率知识和文档相关性之间的相关关系来说明,很多与文档和查询内容无关的先验知识可以用于排序之中。同时,本文尝试了使用朴素贝叶斯方法来进行多种先验知识的融合,并对这种融合后的语言模型的性能进行了实验验证,结果表明语言模型的整体性能获得了很大的提升。
其他文献
近年来,复杂网络中社区结构的发现及社会关系知识的挖掘,已经成为数据挖掘领域的研究热点之一。电子邮件系统中的邮件通信网络是一种较简单的社会网络,其社区划分问题本质上
传统学术论文作为记录、传递、累积、创新、交流人类科技成果的载体和工具一直伴随着学术界的成长。但随着科学技术的迅速发展以及Internet的出现传统科技学术期刊的出版慢慢
无线传感器网络是由布置在检测区域内大量的廉价微型传感器节点组成,通过无线通信方式形成的一个多跳的自组织的网络系统。现已广泛应用于军事、环境监测和现代化农业等方面,
辩论是社会日常生活、工作中广泛存在的一种重要群体活动,基于Web的辩论支持系统是目前群体决策支持系统领域研究的重点。辩论支持系统以计算机为媒介,主要用来解决对抗性强
组合分类方法是机器学习领域逐渐发展起来的用于提高弱分类器准确性的有效方法,被认为是十几年来研究的最好的学习算法之一。大量的理论和实验研究表明:与单个分类模型相比,组
特征选择作为数据预处理的关键手段,是数据挖掘、模式识别和机器学习等领域的重要研究课题之一。它是指在原始数据中删除大量无关和冗余的特征,找到一组包含原始特征空间的全
20世纪以来,信息技术和网络技术快速发展,在各个方面影响着人们的生活,学习和工作。在教育领域,各种网络教学系统正在兴起,其中以提倡学习者为中心的自适应学习系统最为引人
随着无线网络技术的发展,基于无线网络的定位服务为其提供了更多的附加价值。在无线网络中基于信号到达时间或信号相位的定位技术需要专门的硬件支持,而信号强度数值在现有的
目前人类基因组研究已经从结构基因组时代进入到了功能基因组时代,也就是“后基因组时代”。研究发现人类基因组不是由孤立的基因和大量无用的“DAN片段”组成的,其本身是一
SOA的出现和快速发展,使得Web服务在软件开发过程中成为了一个举足轻重的角色。由于单一Web服务功能受限,它们很难满足用户日益复杂的需求,很多情况下需要将已存的原子Web服