一种新型信息检索模型CMSM及其在网页之间推荐关系自动生成中的应用

来源 :北京大学 | 被引量 : 0次 | 上传用户:mengfengye
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要关注的问题是如何正确理解网页内容的真实语义并按语义之间的联系度量网页间的相关度。针对这一问题,作者提出了一种新型的信息检索模型,该模型的理论和应用包括:1)构建领域知识库,将领域中用户关心的概念及概念之间的关系存储在知识库中,每个概念可能关联多个词;2)在计算两个网页之间的相关度时,先将网页中的词映射到知识库中的相关概念上,再将每个网页中所有概念形成一个向量,在计算两个网页向量之间的距离时增加一个概念关系度量矩阵用以描述概念和概念之间的关系。这样的度量方法一方面通过用概念取代词的方法更好地理解网页的内容,另一方面通过概念关系度量矩阵去掉了传统向量空间模型中“概念之间是彼此独立的”的假设,使得模型更接近真实世界中概念之间的关系。 本文的工作重点就是定义上述新型的基于关系度量矩阵的信息检索模型,并借助一个网页自动推荐系统的构建过程,给出了新模型的实例化方法。实验表明,本文提出的新模型在时间效率相当的情况下,查全率和查准率都比传统的向量空间模型有明显提高。 本文提出的新模型可以在下面的互联网应用中发挥作用:1)在大型门户网站中加入新网页时,根据网页中的概念自动把网页挂到合适的分类节点上,并自动计算新网页与已有网页的关联度,形成新网页与已有网页的相互推荐关系;2)使现有搜索引擎返回结果与输入关键词之间在语义上更相关;3)将博客等新型网页自动或半自动地组织成类似门户网站的树状结构,以便于用户检索。
其他文献
Multihoming是指一个主机具有多个IP地址。随着网络接入技术的发展,带有多个网络接口的设备越来越普遍。本文研究在传输层利用Multihoming技术提供端到端容错能力的协议及其性
学位
随着计算机图形学技术在现实生活中的普及,计算机图形学的研究领域越来越广泛。近些年,越来越多的大规模三维网格数据在各应用领域,如电子商务、医疗、科学计算可视化、工程分析
学位
在可预见的将来,视频播放类业务在用户驻地网上仍将占据主导地位。这类业务对音视频的同步非常敏感,为了保证播放质量,引入流整形技术,在网络出入口处理数据的时间戳信息,因此系统
学位
学位
低轨卫星网络已应用于语音和窄带数据业务,与同步卫星网络的设计相比,低轨卫星网络更加复杂,但是低轨卫星网络让小型地面终端通过卫星通讯成为可能,并提供了更小的传输延时及频率
学位
运行在Windows操作系统平台上的程序或者应用软件,其性能常常因为某些无法预料的瓶颈而受到干扰,导致程序的处理效率降低,性能上得不到充分的发挥。而Windows操作系统在其运行过
本文对面向轻量级应用的开源WebGIS内核的设计与实现进行了探讨。本研究结合WebGIS的应用特点,基于Java技术设计实现了一个面向轻量级应用的开源WebGIS内核——PKGML2。在PKGM
本文依托国家自然科学基金项目(项目号:40202030),着重从矿产资源预测结果数据的三维重构方面入手,利用计算机图形学的相关算法,借鉴医学、游戏软件制作等领域中已经成熟了的可视
随着互联网的发展和网民数量的增加,网上电子商务市场也在不断扩大。伴随着电子商务的发展,网上的产品评论也越来越多。商家和网民都希望能有高效而准确的工具来处理这些产品评
最近几年,移动设备正逐步地取代传统计算设备,在人们日常生活中扮演着愈加重要的角色。伴随着移动设备的快速增长,保证移动设备上应用的质量成为一个急需解决的问题。因此,针