基于Markov网络团的查询意图识别

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:XU739603
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网发展至今,网络上的数据呈指数级增长,如何能够更准确的给用户提供所需的信息成为信息检索领域研究的热点问题之一。传统的信息检索系统主要是通过简单的计算查询词跟文档中词之间的简单匹配操作,从而得到与查询相关的文档列表,这样往往无法提供给用户满意的结果。因为有些词是有歧义的,并且有些词的意思也会随着时间的变化而变化。如何能够更好的组织查询与文档之间的关系问题。首先要解决的就是词之间的关系问题,由于查询往往很短,所以我们需要利用额外的信息来对查询进行扩展[3][23][24][25][26][27],Markov网络团就是一种很好的用于查询扩展方法,它与我们传统的基于简单词汇匹配的检索方法不同,它是将图论、计算机科学、概率论的技术,思想融合起来。Markov网络被广泛用于不确定性知识的表示和推理,以及变量之间的传递过程,它是解决不确定性问题的有效方法。信息检索系统存在很多问题,因为它不能准确地理解用户的查询意图。因此对用户的查询意图进行识别也是一种有效提高检索效率的方法[37][42][44][47]。所以,试想如果能够利用Markov网络团的方法来对查询意图进行识别,并且在后续的检索过程中加入查询的意图信息,是否能更好的提高检索效率。基于上面的思想,我们提出运用这种方法来对查询意图识别。首先人工标注搜狗查询日志中约2250个查询作为测试数据。采用搜狗提供的分类语料(共十类)来建立Markov网络,通过建立的Markov网络来对查询进行扩展,从而得到相关的返回结果列表,通过在分类语料训练好的分类器来对返回结果进行分类,来完成对查询分类的过程,在已知类别信息的情况下再次对查询进行检索的过程。实验中采用的评价指标是11-avg和3-avg,准确率和召回率,实验证明本文提出的方法能够有效的提高检索效率。
其他文献
近年来,随着宽带通信技术的飞速发展,语音通信在有线通信领域占用的带宽几乎已不成问题了。但是在移动通信、卫星通信等无线通讯领域中,仍需要降低语音编码速率以节省带宽,加快传
随着互联网络的快速发展,WEB应用服务的安全问题日益严重。当前,基于误用检测技术为主的入侵检测系统出现了误用规则日益增多、处理数据量不断增大的情况。以致现有的检测系统
随着经济社会的发展和人类生活方式的转变,人们的生活节奏不断加快,由此带来了一系列健康问题,比如睡眠不足、营养过剩、缺乏体育锻炼和较强的工作压力等。人们在追求更高的
近年来,随着互联网的快速发展和日益普及,出现了很多新应用,包括高带宽多媒体应用,如音频/视频网络广播,网络视频会议,股票市场行情发放,大规模协同计算,远程教育等,由此引发了急剧的
电容层析成像技术(Electrical Capacitance Tomography,ECT)是过程层析成像技术的一个分支,可应用于工业密闭管道的多相流检测及精密测试领域的计量和分析。ECT具有成本低、
自OWL语言成为语义Web的标准以来,基于描述逻辑(DL)的本体在语义Web中迅速增多。目前语义Web中包含大量自主开发的本体,且本体的规模和复杂性也日益增大,如何对多个相互独立但有关
随着网络的飞速发展,大量文献资料的堆积,如何快速有效地获取自己需要的文档数据,已经成为了迫切需要解决的问题之一。对于现今海量、高维的文档数据,传统的索引和检索技术已不能
近些年来,在多媒体技术和互联网技术飞速发展的带动下,使得多媒体内容的表征、传播、拷贝变得越来越便捷,因此多媒体内容的版权保护已经成为人们亟需解决的问题。基于内容的图像
当今,在常用来诊断家畜寄生虫病的一些方法中,最为直接的、普遍采取的实验方法之一仍然是虫卵计数的方法。在诊断家畜常见寄生虫病的过程中,通常是在光学显微镜下利用人工来
自然界中到处都存在着对称性,对于具有对称性的信息,在存储时可根据它的特征进行压缩存储。比如,如果平面图形在二维坐标系中是对称的,则可以只存储一半(不考虑对角线)的信息就可以