论文部分内容阅读
在大数据环境下,企业已经拥有了庞大的零售户信息数据以及订单数据。零售户在全国范围内的数量已经超过了800万家,每月都会产生大量订单信息,随着时间的推移,这个订单信息数据量已经达到TB级别,大量的数据能够方便企业更好的了解零售户的详细信息以及市场动态。然而怎样应用现有的海量的数据仍旧困扰着企业,面对现阶段海量的信息数据,推荐系统出现了。推荐系统是一种利用历史数据的关联分析的技术,是一种极具潜力的处理数据过载的服务技术。近年来以智能手机为代表的移动终端的普及和用户数量快速增加,移动终端在信息的获取中占据着越来越重要的作用。解决信息过载问题,协同过滤技术是目前推荐系统中最成功且应用最广泛的个性化推荐技术,无论是在理论研究还是在实际的实践中都取得了较快的发展。然而传统的协同过滤算法面临着诸多问题:如原始评价数据稀疏、用户间的相似性难以度量、系统可扩展性差等方面的制约,影响了推荐效果。面对上述问题对推荐算法的制约,采用以下方法对原始的过滤算法进行优化,主要工作如下:1)针对用户间相似性难以度量对过滤算法应用的制约,提出了一种计算用户间的混乱程度来衡量用户间的相似性。首先是通过计算用户间的评分差,也就是同一个项目两个不同用户评分的差值;其次对评分的差值进行加权信息熵计算来表示用户评分的相似度;同时在计算用户相似度时也要关注活跃用户对共同评分项目的影响,尽可能的减少活跃用户对交集圈大小的影响。实验结果表明,在原始评分数据稀疏不变的情况下,改进后的算法缓解了传统的推荐算法在数据稀疏的情况下相似度度量不准确的问题,提高了用户间的相似度的精度和推荐精度。2)针对可扩展性差对传统算法应用的制约,提出了一种基于SVD的二分k-means协同过滤推荐算法,系统只需要存储奇异值分解后的用户或者项目的奇异矩阵,用户或者项目的特征向量维数大大降低,保证了推荐精确度的同时,节省了更多的存储空间。该算法利用用户与项目之间的潜在关系克服了稀疏性问题,同时保留了聚类方法实时性好、可扩展性强等优点,实验结果表明该算法有效的解决了传统的协同过滤推荐算法扩展性差的问题。3)搭建Web Service服务架构以及适用于各种移动终端平台的系统。利用各种终端支持的通知栏提醒的特性,设计了客户端后台长连接常驻机制,使得在客户端离线的情况下,也可以根据实时的场景对用户信息消息推送。最后,对移动终端进行搭建,对算法性能以及整个推荐系统的功能进行验证。