【摘 要】
:
随着互联网技术的迅速发展,Web信息正以指数级的速度增长,如何在这些海量的信息中检索出用户需要的信息已成为一个非常重要的课题。由于用户查询词与文档关键词不匹配,传统信
论文部分内容阅读
随着互联网技术的迅速发展,Web信息正以指数级的速度增长,如何在这些海量的信息中检索出用户需要的信息已成为一个非常重要的课题。由于用户查询词与文档关键词不匹配,传统信息检索的结果不太理想,不能满足用户的查询需求。因此,对信息检索中的查询扩展技术的研究,通过扩展用户的初始查询来有效解决“词不匹配”问题,具有重要的理论意义和实用价值。本文的主要工作包括:(1)介绍了本文的研究背景,包括信息检索的概念、性能评价标准、检索模型等,综述了查询扩展的相关知识。(2)为了搭建一个具有较高查全率及查准率的蒙古文信息检索平台,我们从蒙古文的构词和语法等方面特点进行分析,设计了蒙古文索引项(Term)的处理方案,包括蒙古文Term的区分及Stemming规则的确定。实验结果表明蒙古文停用词表在有效减少索引大小的同时,提高了检索的查准率,Stemming规则能大幅度减少Term个数,并有效提高检索的查全率。(3)本文提出了一种词间相关性计算方法与候选词距离关系模型,通过计算查询词与候选词之间距离关系来作为判定二者相关程度一个因素。结合距离模型和词间相关性计算方法,我们提出了一种新型的查询扩展算法,应用于查询扩展,所选扩展词和查询整体关联,较好地反映了查询主题。实验结果表明该算法能够有效地抑制“查询漂移”。(4)在蒙古语语料上进行实验,以信息检索模型的结果作为baseline,对本文提出的两种查询扩展算法(词间相关性计算方法、基于距离模型的词间相关性计算方法)进行了性能分析与比较。实验结果表明:两种算法较之baseline在查准率、平均准确率等方面均有一定改善,能提高信息检索的性能。
其他文献
随着互联网和电子商务的快速发展,信息过载已经成为目前互联网用户所面临的一个严峻的问题。如何让用户在海量的商品中能快速找到自己喜欢的商品,是每个电子商务网站急需解决的
传统的监督学习往往需要大量的带类别标签(Label)的样本对分类器进行训练。然而,在实际应用中,有标记样本(Labeled data)的获取较困难,无标记样本(Unlabeled data)的获取却很
在现代供电企业中,企业员工的专业技能以及安全意识是供电企业推行安全生产的重要保障。据统计,在电力系统中百分之七十以上的电力事故是由运行人员的误操作引起的,所以提高运行人员的专业知识以及安全意识,意义重大。由于客观因素的原因,对于员工技能的提升以及安全意识的提升,国内外不少电力企业还是采取传统定期的授课方式安全培训学习。这样的学习方式往往流于形式,而且单一的培训加考试的模式,再加上学习方式单调,缺乏
随着全球定位技术和移动通信技术的快速发展,移动对象产生的轨迹数据规模呈爆炸式增长,对大量的轨迹数据进行存储、处理后进一步挖掘应用的需求越来越多。移动对象的轨迹预测
随着互联网络迅速普及,人们越来越倾向于以形象直观的方式从互联网上获取信息。数字视频技术结合网络技术的发展在很大程度上满足了人们在这方面的需求。因此,以网络视频传输
序列模式挖掘是数据挖掘研究中的一个重要的研究领域,其实质上是从序列数据库中挖掘出频繁子序列作为正序列模式。概括的说,序列模式挖掘主要研究序列中各个元素间的正关联关
Web服务是一种部署在网络上并可以通过网络访问的应用程序,它为分布式计算带来了高效性和灵活性。Web服务的一个基本问题是如何进行服务的描述和发现,使服务的发布者能够准确
近年来,P2P网络(Peer-to-Peer Networks,对等网络)技术飞速发展,它被视为21世纪计算机发展的热点技术之一。目前,对等网络技术已经广泛应用于科学计算系统、即时消息传递系统
社会网络分析是数据挖掘的新热点,社会网络是由个人或组织以及相互之间的联系所构成的集合,通过对社会网络的理论研究,尝试挖掘隐藏在表面关系之下的隐性关系,可以进行电子商
实时操作系统(Real-time Operating System,RTOS)是基于可剥夺式的CPU调度方式,以其实时性强,可靠性好,移植性方便,安全性能好等优点,被广泛运用在航空航天、工业控制,汽车电子和核