论文部分内容阅读
随着Internet技术的不断发展,如何从海量的Web信息中找到用户所关心的信息成为一个关键的研究问题。高效的检索工具对于帮助用户方便地获取有用的信息具有重要意义。本文首先对现有Web2.0下的社会标注系统进行了系统的总结,分析它们的优缺点。其次对目前有关网页及标注聚类的各种主流聚类算法进行了分类整理,分别给出它们的优缺点。提出了将超图谱聚类方法应用到网页及标签聚类中的新构想。该思想是通过超图来表示网页与标签之间的对应关系,并对由此得出的关联矩阵使用谱聚类算法,通过对所得的聚类结果分析整理,并将其返回给用户,达到对Del.icio.us网站搜索功能优化的目的。本文主要是对Del.icio.us网站上已经打过标注的网页及网页所对应的标注进行聚类分析。同时对比了K-means、谱聚类、Ncut及超图谱聚类算法对于网页与标签的聚类结果,实验证明超图谱聚类算法对于带有标签的网页无论是从聚类精度或者与用户查询的相关程度上都要优于其他几种聚类算法。为了研究及对比四种聚类算法对于带有标签的网页的聚类效果,论文设计并编写了一个基于Del.icio.us网站的搜索系统——专门针对于该网站上打过标签的网页。并将超图谱聚类方法应用于该搜索功能中。本文提出的搜索方法返回结果不仅单纯的基于该网页的社会标注,即用户对于网页的看法,同时兼顾了网页的内容与查询词的相关程度,是社会化搜索与传统搜索方法的一个结合。最后采用了多种评价方法来对聚类结果及搜索系统返回的结果进行评估,实验结果表明本文所提出的基于网页与标签聚类的搜索方法能够更好的满足用户对于搜索结果的期望,搜索结果比原来的方法更加贴近于用户的需求。