基于网页与标签聚类的搜索方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:gz200009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的不断发展,如何从海量的Web信息中找到用户所关心的信息成为一个关键的研究问题。高效的检索工具对于帮助用户方便地获取有用的信息具有重要意义。本文首先对现有Web2.0下的社会标注系统进行了系统的总结,分析它们的优缺点。其次对目前有关网页及标注聚类的各种主流聚类算法进行了分类整理,分别给出它们的优缺点。提出了将超图谱聚类方法应用到网页及标签聚类中的新构想。该思想是通过超图来表示网页与标签之间的对应关系,并对由此得出的关联矩阵使用谱聚类算法,通过对所得的聚类结果分析整理,并将其返回给用户,达到对Del.icio.us网站搜索功能优化的目的。本文主要是对Del.icio.us网站上已经打过标注的网页及网页所对应的标注进行聚类分析。同时对比了K-means、谱聚类、Ncut及超图谱聚类算法对于网页与标签的聚类结果,实验证明超图谱聚类算法对于带有标签的网页无论是从聚类精度或者与用户查询的相关程度上都要优于其他几种聚类算法。为了研究及对比四种聚类算法对于带有标签的网页的聚类效果,论文设计并编写了一个基于Del.icio.us网站的搜索系统——专门针对于该网站上打过标签的网页。并将超图谱聚类方法应用于该搜索功能中。本文提出的搜索方法返回结果不仅单纯的基于该网页的社会标注,即用户对于网页的看法,同时兼顾了网页的内容与查询词的相关程度,是社会化搜索与传统搜索方法的一个结合。最后采用了多种评价方法来对聚类结果及搜索系统返回的结果进行评估,实验结果表明本文所提出的基于网页与标签聚类的搜索方法能够更好的满足用户对于搜索结果的期望,搜索结果比原来的方法更加贴近于用户的需求。
其他文献
Grover量子搜索算法以其研究对象的普遍适用性受到了众多学者的关注,利用量子本身具有的并行性,Grover算法能够将搜索时间的复杂度降低为O ( N )。目前对于Grover算法的研究
近年来,移动设备和无线网络的广泛应用带来了基于位置的服务(LBS)应用的快速发展。位置信息相关的查询在LBS中扮演了极为重要的角色。其中一种重要的查询是(单色)反向k近邻查
学位
单类分类是介于监督学习和无监督学习之间的机器学习任务,它能够有效地解决仅有一类样本训练分类器的问题和类别极端不平衡问题。迄今为止,涌现了大量的单类分类方法,其中最
数据流这种数据形式广泛地存在于现实世界中。例如,传感器网络监控、气象监测数据、电话通话记录、网络通讯监测、股市实时交易数据、web用户点击数据流或者网站访问日志统计
二十一世纪是一个信息大爆炸的世纪,计算机和互联网如浪潮般走进了人们的工作、学习、生活各个领域,可以说是无处不在。图像检索技术就是在这种形势下逐渐发展起来的一个热点
随着互联网、信息技术和数据库技术的飞速发展,各大公司和企业纷纷建立了各自的IT信息集成系统,由此积累了大量异构数据,如何高效便捷的处理这些数据信息成为企业信息化进程
分类是通过训练数据集找出类别的概念描述,根据概念描述建立分类模型,从而使用该模型来分类同种数据。目前常见的分类方法有神经网络方法、贝叶斯网络、粗糙集、模糊集和支持
随着互联网的迅速发展,特别是Internet的普及,Web已成为全球性的、巨大的、分布和共享的信息空间,它为人们搜索信息提供了一种新的手段。但是随着Internet上信息量的爆炸式增
产品创新是企业持续发展的保证,概念设计是产品创新最关键的阶段,概念设计中当产品的系统或技术达到极限,应该跳出现有系统,分析现有产品最终目的是什么,设计全新的系统完成