论文部分内容阅读
随着Web2.0的迅速发展,博客作为其中一个典型的应用开始被越来越多的人所关注和使用。博文不同于普通web页面,它包含更加丰富的人工标注信息,而这些信息可以随时被博主重新编辑,使得博文的个性化程度很高。博客这种由用户自己自由管理的特点以及博客数量的迅速增加给博客信息的处理带来了非常大的挑战。如何帮助用户在众多的博文中找到符合自己目标的页面成为了当前的一个研究热点。已有的博客搜索的相关研究已经开始着眼于博客的特点来进行博文重排序,但是却很少从用户的角度出发来进行博文重排序,所以得到的重排序结果往往不能够满足用户兴趣,由此带来了面向用户意图的博文重排序技术的研究。本文提出的面向用户意图的博文重排序的研究方法是从用户行为和博文自身的特点出发,以一种特定的聚类和样本选取方式引导用户表达自己的搜索目标,并根据已明确的用户意图迭代地为用户返回结果集页面。本文首先分析博文的主要语义属性,在此基础上详细阐述面向用意图的博文重排序模型,并从整体上描述重排序的过程以及框架。然后,针对重排序过程中的关键算法,分别展开详细阐述。基于语义扩展的博文聚类算法的目标是将符合当前关键字的所有相关结果集进行类别划分,使得划分后的每个类别能够自成一个主题,整体类别划分的效果能够满足“平均”用户的兴趣。在对基于语义扩展的博文聚类算法的阐述中,首先给出整体的聚类过程,然后对聚类过程中的各个细节进行语言以及形式化的描述,并在最后给出基于此算法的实验对比结果和结论。面向用户意图的博文选取算法建立在聚类基础上,它的目标是从聚类划分好的类别中选取出一定数量符合当前用户兴趣的结果页面。该算法依据一些原则实现,首先根据启发式规则构建样本空间,然后以度量函数为标准进行择优选取,整个过程是一个贪婪选取的过程。本文在最后对面向用户意图的博文重排序技术的应用与测试细节进行阐述,并由此证明本文提出的算法的有效性。