基于语义分析的文本检索系统

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:MK654321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的蓬勃发展,web搜索已经成为工业界和学术界的研究热点,web搜索的本质是文本检索,要解决的一个核心问题是对于一个用户的查询,如何获取最相关的网页返回给用户。   传统的文本检索,将查询和文档都映射到词向量空间,在词向量空间计算出每一篇文档和查询之间的相似度,按照相似度进行排序,并返回给用户排名最靠前的若干篇文档,这就是著名的向量空间模型,经过实践证明,该模型无论在准确性和有效性方面都有非常良好的表现。   但是,向量空间模型将文档和查询中的词孤立的去看待,在进行分析的同时丢失了词与词之间的关系,不能捕捉一个词上下文的特征,更加不能解决经常出现的一词多义和同义词的问题,因此亟需对文本和查询进行语义层面的分析和建模,从而在本质上提高查询和反馈文档之间的相关度。   本文针对文本的语义分析模型进行了深入的研究,对常用的语义分析手段进行了多方面的比较,其中主要的创新工作和研究成果如下:   第一,本文实现了如何利用基于话题和基于词关系的语义模型进行文本检索,并通过大量的实验数据和指标论证了这些模型在文本检索,尤其是在捕捉查询和文档之间语义特性方面所起到的积极作用。   第二,本文提出了一种新的结合翻译模型和潜在语义分析模型的文本检索系统,该系统利用翻译模型对语义空间的每一个话题进行建模,从而得到话题与话题之间的相似度。实验证明,该系统在检索质量上较传统的文本检索模型有较大的提高。   第三,本文通过大量的实验数据,对语义模型进行了较为深入的分析,模型之间的纵向分析展示了各个模型的优劣;模型内部参数的分析展示了不同的参数对模型性能的影响,这些实验数据对工程实践也有很好的指导意义。
其他文献
多输入多输出-正交频分复用(MIMO-OFDM)是一种能够承载高速数据传输的技术。MIMO技术通过采用多根发射和接收天线能显著提高无线通信系统的信道容量,同时增强数据传输的可靠性
数据链是一种信息技术和现代战术理念相结合的产物。其采用专用数字信道作为连接渠道,以标准化消息格式作为沟通语言,可以将不同空间位置的作战单元链接为一体化的战术集群,从而
摘要:对于阅读在高中英语学习时期的重要性,师生都已经有了广泛的认识。但是,大部分阅读的内容只局限于英语教材或练习中的豆腐块式文章,对学生鲜有吸引力。阅读对于学生而言只是他们的一种学习任务,更甚者把阅读当做苦役一样去完成。这远远偏离了高中英语学习的正确方向,导致了低效阅读的英语学习模式。新课程标准中对高中英语文学阅读提出了明确要求,要求高中英语教育回归文学教育,通过文学阅读提高提高教学效率。本文对于
空时自适应处理(Space-time adaptive processing,STAP)是一种有效的机载雷达动目标检测方法。但是,空中动目标的高速运动会导致其回波发生严重的距离走动,会大大降低STAP检测
本文以桂林毛村的石灰土和红壤作为研究对象,对两种不同土壤背景条件下的植物根际土和土壤剖面元素(C、N、P、K、Na、Ca、Mg、Fe、Mn、Cu、Zn、Mo、B、Se、Sr、I、V、Co、Ni
对于无线传感器网络(Wireless Sensor Network)来说,负责路由发现和维护的网络层路由协议是极为重要的,其质量的好坏将会直接影响到整个网络性能的高低。同时,网络编码作为一种
随着移动互联网的高速发展,以及智能终端设备的层出不穷,用户对高速无线接入的需求也越来越大。早期以接入节点(AP)为中心的分布式无线局域网(WLAN)架构无法满足网络的管理性、
一直以来,人们设法提高数字成像系统获取图像的分辨率。更高的分辨率可以提供更多的图像细节。这些细节一方面可以提高人们对于图像的主观视觉感受,便于人们从中获取更多的信
随着无线通信技术的快速发展,目前通信技术标准众多,新的技术方法也越来越多。将来的无线网络的发展趋势是成为一种多种接入方式并存、由,多种异构无线接入技术共同组成的网
无纸传真是移动办公工具中非常重要的一项。传真是一种具有法律效力的公文传输方式,在日常生活和工作中经常需要用到,而使用无纸传真,用户可以方便的携带,可以随时收发传真,可以直