论文部分内容阅读
众所周知,互联网近几年发展速度超乎人们的想象,用户在互联网上留下的信息不计其数。怎样从这些超量的互联网信息中挖取出用户感兴趣的内容,并且主动推荐给用户,这是推荐系统所要解决的问题和主要任务。随着用户的日益增多,各种门户网站、电子商务网站以及各大公司的系统为用户提供了更多更好的信息服务。以电子商务网站为例,面对多种多样的网购信息,对于知道自己想要什么的用户来说,可以利用电子商务网站的搜索引擎查询自己想要购买的产品。但是,往往用户的需求具有不确定性和模糊性,因为有些时候他们也描述不清自己想要的东西。此时,如果购物网站能够准确给用户推荐那些用户描述不清的商品信息,便能培养用户对自己网站的依赖感,为自己的网站带来巨额的利润,从而能够在竞争激烈的商业市场站稳脚跟。怎样在海量的信息中找到用户的需求并推荐给客户,是各大互联网商家面临的严峻挑战,成为许多学者和专家的热门研究课题。在这种商业驱动和学术氛围的背景下,基于大数据的推荐系统应用而生。推荐系统能够很好的解决当今互联网中“信息过载”这一棘手问题,深受各大公司和电子商务网站的欢迎。然而推荐系统并不是万能的,面对互联网中越来越多的不同种类的数据与一些越来越复杂的应用场景,推荐系统也面临着诸多待解决的问题。这些问题是一些未被很好解决的理论和应用层面上的难题。推荐系统领域研究的热点主要集中在系统的可扩展性,新用户与新项目的冷启动问题,数据稀疏问题等等[1]。数据稀疏问题成为推荐系统发展的一个瓶颈,该问题的存在严重影响了推荐系统的推荐质量。如何解决数据稀疏问题成为保障推荐系统推荐质量的关键所在。推荐系统数据稀疏性问题的产生是因为其在推荐的过程中,需要依赖用户对项目的评分数据来挖掘用户的爱好信息,从而向用户进行推荐,该数据的依赖量影响着推荐精度。这些依赖的数据越多,推荐出来的结果就越准确。但是现实往往事与愿违,推荐系统的用户往往会因为一些原因没有留下评分数据,造成推荐系统可依赖的数据量稀少。因此,推荐系统很难依据数据来找到相似用户,最终导致推荐系统的准确度不高,使得目标用户不满意。本文致力于研究推荐系统的数据稀疏性问题,在前人研究的基础之上对数据稀疏性问题进行了相关的研究。本文的主要研究工作如下:1、阐述了推荐系统数据稀疏性问题产生的原因,并分析其给推荐系统推荐精度上带来的影响。2、指出了现有阶段解决数据稀疏性问题方法的不足之处。固定填充法没有考虑用户与项目的特征属性,会对推荐准确性带来偏差;矩阵降维法容易丢失有效数据,使得预测出来的评分不准确;Content-based CF没有数据稀疏问题,但是不能够发现用户潜在感兴趣的新项目,推荐系统失去意义。3、通过分析User-based CF和Item-based CF各自的优势提出了一种结合传统CF填充矩阵来解决推荐系统的数据稀疏性问题的思想。该思想不仅缓解了推荐系统的数据稀疏性问题,而且还能够极大改善推荐系统推荐性能以及提高推荐系统推荐质量。4、以Apache Mahout推荐技术框架以及Movie Lens数据集进行实验验证,并和传统协同过滤推荐算法进行分析对比,证实了新提出的组合传统CF填充矩阵思想能够缓解稀疏性问题,极大改善推荐系统的推荐质量。