论文部分内容阅读
RSS是Web2.0应用中一项重要的技术,在资讯爆炸的时代,它实现了信息的主动推送从而改变了人们长期获得信息的方式。但随着可订阅资源和用户订阅频道数的增加,RSS聚合系统出现了严重的信息过载和信息迷航问题。用户迫切需要一种RSS系统的个性化服务,一方面可以减少无关信息的干扰,另一方面可以发掘新的有价值的信息,从而提高用户体验。
集体智慧是通过挖掘应用中的用户间、用户与应用间交互的数据而产生出的智能,在Web2.0应用中充当着过滤器的角色。本文将集体智慧与个性化技术结合,提出了一种基于集体智慧的个性化系统方案。该方案从基于内容和基于协同这两方面的个性化技术出发,提出了四个功能模块,分别是标签导航,内容过滤,关联推荐和协同过滤。标签导航实现了内容的动态分类和导航,内容过滤实现了根据用户兴趣特征模型排序信息,这两个功能属于基于内容的个性化技术,主要用于解决信息过载问题:关联频道推荐根据用户已订阅的频道推荐相关频道,协同过滤通过发现用户的最近邻居来推荐新的有价值的信息,这两个功能属于基于协同的个性化技术,主要解决信息迷航问题。这四个功能各有特点又相互补充,构成相对完善个性化推荐系统。
个性化的RSS聚合技术面临的最大问题是数据量庞大导致的可扩展性问题和数据稀疏问题,所以本文将研究重点放在个性化技术的可用性和推荐效果上,力求在两者中找到一个平衡点。对于传统的推荐技术,本文主要的改进如下:使用标签作为文本和用户的特征,极大降低了计算的复杂性;在协同过滤中使用了结合用户最近邻居的Slope one算法,而最近邻居是通过用户特征相似性求得,同样很好地解决了计算可扩展性问题。经实验证明,本文所做的改进能够很好保证推荐的效果。
最后,本文还提供了个性化RSS聚合系统的四个基本模块的设计,分别是核心模块的系统设计、负载均衡的RSS更新模块设计,协议无关的非阻塞服务器框架设计和基于MVC架构的客户端设计。这四个模块的设计同样有助于降低系统的负载。