用户查询请求间语义相似度的理论分析和实验研究——一种基于Web搜索引擎日志的方法

来源 :北京大学 | 被引量 : 0次 | 上传用户:i369731392
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
万维网(World Wide Web)已经成为一个最为广泛的信息媒体,以及最丰富和最密集的信息来源.因此,目前知识发现以及本体构建和演化等领域的研究都把万维网作为数据源和驱动力.然而要使得机器能不断地发现知识,数据源中应该隐含知识,而且其中的知识含量越高,浓度越大,越有利于知识的发现.搜索引擎是一种特殊的网络应用,随着WWW的无限扩张而成为了人们访问WWW的重要门户.人们在使用搜索引擎的目的是获取信息,而同时又把自己的知识潜移默化地告诉了计算机.搜索引擎日志中包含了成万上亿人的智慧的点滴,而且范围广,更新快,与整个WWW的信息相比知识含量浓度高.因此,该论文把搜索引擎日志作为知识发现的数据源,在已有研究的基础上,从粗到细,由浅入深地提出了三个模型及相应的方法来计算查询之间的语义相似度——知识发现中最重要最基本的一环.并给出了比较详细的实验结果.二部图(Bipartite)模型把查询的特征值之间的相似度函数连续化,用带权的二部图描述问题,使用二部图中匹配的最大权重和来表示查询的相似度;Hyperlink模型把查询抽象成页面,同特征值一起放回到WWW环境中,通过超级链接拓展成一个有向图,通过通路数的带权求和表示相似度;Hub-Authority模型是Hyperlink模型的进一步细化.核心思想是网页与网页之间的直接的超级链接也存在差别,并使用网页之间的知名度差异来定义这种差别.计算节点知名度采用的是Kleinberg的迭代算法.另外,针对如何进一步识别相似的类型,提出了一些初步的想法.并展望了知识发现在搜索引擎个性化以及提高搜索引擎的查准率等问题上的作用.
其他文献
本文所作的工作主要有:1.介绍了数据挖掘基本技术,重点研究了决策树的算法.本文数据挖掘的任务是从大量数据中挖掘出造成坡体不稳定的因素,为滑坡的预防和预测构造决策系统.2
这篇论文对图像挖掘以及模式发现问题进行了一些初步研究.图像挖掘以及模式发现问题是计算机视觉以及模式识别领域的新课题.目前国际学术界对于这个方向的研究还不多,尚处于
数字图像压缩是小波分析应用较为成功的一个领域.长期以来,图像压缩编码利用离散余弦变换作为变换工具,并已形成了各种国际标准.然而利用DCT作为编码的主要技术手段是把图像
机载成像光谱数据处理技术服务系统是国土资源部航空物探遥感中心承担的863项目"对地观察技术在国土资源调查中的应用"中的一部分.系统开发目的是从机载成像光谱遥感技术在国
本文结合图形学的最新发展,使用当前流行的3D图形设计库——OpenGL三维图形库给出了一个实用的城市地下管线编辑展示系统解决方案,并设计了一个完整的三维地下管网可视化编辑
随着网络技术的发展,高性能工作站的出现,人们对资源共享的要求越来越高。计算机通过连网,使得用户可以进行大范围的信息共享和交换。如果单单把多个计算机用网络连接起来,而不提
空间索引作为空间数据库中的重要组成部分,可以加快对空间对象的检索.由于空间数据本身的复杂性,以及目前对海量空间数据快速查询的要求日益提高,当前地理信息系统正面临着大
基于口令实现的加密密钥交换协议,能用用户选择的口令(用户选择的口令一般是低熵的)实现不安全信道上的安全认证和密钥协商,进一步实现不安全信道上的秘密安全通信.根据协议
足球机器人竞赛是近年来国际上迅速开展起来的一种高科技对抗活动,它涉及人工智能、智能控制、机器人、通讯、传感等多个领域的前沿研究和技术融合.他集高技术、娱乐和比赛于
"GIS系统开发平台的数据结构及其应用的研究,,论文是根据当前主流GIS系统开发平台的功能需求及其数据结构开发一个新系统的研究项目.不管是对GIS的数据结构分析还是对GIS平台