基于集体智慧的个性化RSS聚合技术研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:leiweiwei42
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
RSS是Web2.0应用中一项重要的技术,在资讯爆炸的时代,它实现了信息的主动推送从而改变了人们长期获得信息的方式。但随着可订阅资源和用户订阅频道数的增加,RSS聚合系统出现了严重的信息过载和信息迷航问题。用户迫切需要一种RSS系统的个性化服务,一方面可以减少无关信息的干扰,另一方面可以发掘新的有价值的信息,从而提高用户体验。   集体智慧是通过挖掘应用中的用户间、用户与应用间交互的数据而产生出的智能,在Web2.0应用中充当着过滤器的角色。本文将集体智慧与个性化技术结合,提出了一种基于集体智慧的个性化系统方案。该方案从基于内容和基于协同这两方面的个性化技术出发,提出了四个功能模块,分别是标签导航,内容过滤,关联推荐和协同过滤。标签导航实现了内容的动态分类和导航,内容过滤实现了根据用户兴趣特征模型排序信息,这两个功能属于基于内容的个性化技术,主要用于解决信息过载问题:关联频道推荐根据用户已订阅的频道推荐相关频道,协同过滤通过发现用户的最近邻居来推荐新的有价值的信息,这两个功能属于基于协同的个性化技术,主要解决信息迷航问题。这四个功能各有特点又相互补充,构成相对完善个性化推荐系统。   个性化的RSS聚合技术面临的最大问题是数据量庞大导致的可扩展性问题和数据稀疏问题,所以本文将研究重点放在个性化技术的可用性和推荐效果上,力求在两者中找到一个平衡点。对于传统的推荐技术,本文主要的改进如下:使用标签作为文本和用户的特征,极大降低了计算的复杂性;在协同过滤中使用了结合用户最近邻居的Slope one算法,而最近邻居是通过用户特征相似性求得,同样很好地解决了计算可扩展性问题。经实验证明,本文所做的改进能够很好保证推荐的效果。   最后,本文还提供了个性化RSS聚合系统的四个基本模块的设计,分别是核心模块的系统设计、负载均衡的RSS更新模块设计,协议无关的非阻塞服务器框架设计和基于MVC架构的客户端设计。这四个模块的设计同样有助于降低系统的负载。
其他文献
频繁子图挖掘是指从图集获得频繁出现的子图模式,它挖掘得到的结果可用于对图集的分类和聚类研究,有助于用户了解图集的特征。目前的频繁子图挖掘算法大都是基于内存的,实际
在网络技术普及的今天,网络应用已经深入到人们的各种日常活动中,但是邮件蠕虫、特洛伊木马、拒绝服务攻击以及其他恶意行为仍然频繁的在终端用户机上发起攻击,危害企业网安
现有的序列模式挖掘算法能有效地在大型数据库中挖掘出完整的序列模式集,然而在很多实际应用中,用户更希望找出感兴趣的、更简洁的模式,而不是所有的模式。本文主要研究了如
软件测试是保证软件质量的重要手段,为了确保软件产品能够符合用户的需求,必须着眼于整个软件生存期,在各个阶段进行验证、确认和测试活动。软件测试一般要经过单元测试、集