论文部分内容阅读
博客是Web2.0的典型应用之一。起初,博客作者将其每天浏览网站的心得和意见记录下来,并予以公开的方式给其他人参考和遵循。但随着博客的快速扩张,它的目的与最初已相去甚远。由于沟通方式比电子邮件、讨论群组更简单和容易,博客已成为家庭、公司、部门和团队之间越来越盛行的沟通工具,因此它也逐渐被应用在企业内部网络。在内容上,博客中的信息相对于普通的网页和论坛来说,更为专业化和个性化。因此,对于博客中相关信息的检索和分析变得越来越重要。全球各大门户网站都推出了自己的博客产品,各大搜索服务公司也推出了针对于博客的搜索服务。但目前对博客的研究还处于起步阶段,研究者更多将博客搜索与普通网页搜索划等号。本文正是在这一研究背景和环境下,主要对与博客相关的检索方法和方式进行了研究。首先,本文对目前博客检索的研究状况和博客的特点做了一定的分析。然后,针对博客内容的各项特点提出了认知注意衰减模型、博客角色模型、时间与查询相关性模型以及基于角色的检索框架。
首先,博客是一种以网页形式存在的日志。因此,在一定程度上大部分的博客作者都希望自己的文章能够有更多的读者。由于人类处理信号存在一个衰减的过程,这样越在后面出现的信息越不容易引起人们的注意。一般来说,博客作者往往把博文的重要内容放置在前部,采用开门见山的书写方式。根据这一思想,本文提出了基于认知注意衰减的语言模型。该模型通过衰减函数有效模拟了人们的文档阅读过程,从而获得了更为准确的查询词在文档中的权重信息。
其次,博客是一种表达博主个人看法和意见的自媒体。具有同一行为的博客作者很可能对某项事物具有相同的兴趣和爱好。因此,本文提出了博客角色这一概念。对于检索中的每一个查询,实际上博客作者与该查询具有一定的语义关系。我们把这种语义关系称为博客角色。进而,本文提出了一种基于博客角色类别的检索模型。该模型与基于认知注意衰减的语言模型相结合,大大提高了检索的效果和精度。
第三,博客的日志形式是以博文书写的时间进行安排。因此,时间信息是博客一个重要的特征。对于某些突发事件的查询,往往就和时间具有一定的关联。本文在对查询依据时间信息进行分类的基础上,提出了基于时间信息的查询结果优化迭代算法。该算法可以有效提高与时间信息相关查询的检索效果。
最后,博客是依照博客作者进行组织和管理。由于博客是以个人为组织单位,因此,博客检索在很大程度上不同于普通的网页检索。本文根据博客的自身特点,将博客角色信息和时间信息引入到博客检索中,提出了一种基于博客角色类别的检索结果呈现模式。在该模式下,用户可以得到博客角色的分类信息,并可以准确知道该查询都是哪些角色类别的博客关心或与之相关,以及相关的角色类别在时间上的分布特点。