论文部分内容阅读
自二十一世纪以来,互联网的飞速发展,给人们的生活带来很多便利。大数据时代到来,以自媒体的形式产生了大量数据并由大量用户进行传播,给用户提供了丰富的资源信息,人们获取资源信息已经从传统的报纸、广播等媒介,转向从网络中获取自己需要的资源信息,在网络上阅读在线新闻非常便捷,因此成为人们获取信息的一个重要来源,与此同时也带来了许多问题。海量的新闻资源使用户难以在大量的新闻数据中获取到所需要的新闻信息,这就造成了信息过载的问题。另一方面很多用户在浏览新闻时,并没有明确的新闻信息指向,无法快速获取有效信息。因此,在大量的新闻数据中收集真实准确的新闻,并根据用户的潜在兴趣对其做出相应的新闻推荐,满足用户的需求,并可以带来巨大的社会和经济价值。本文以融合用户聚类和协同过滤的新闻推荐系统设计与实现为研究课题,主要研究内容如下:(1)研究课题背景及意义,对本文涉及到的相关理论和技术进行研究,主要包括数据采集技术、聚类算法以及推荐技术。(2)在相关理论技术的基础上,研究融合用户聚类和协同过滤的新闻推荐技术。本文针对推荐系统中存在的冷启动、数据稀疏等问题,采用融合聚类的推荐技术,在现有的改进聚类的推荐技术基础上,加入对新用户的推荐策略,分别从不同的用户角度采用不同的方法进行推荐。新用户根据注册信息进行聚类,然后进行协同过滤推荐;老用户根据历史行为聚类后再进行推荐。此算法与传统的算法对比,具有较好的推荐效果。(3)对系统整体功能及每一个模块进行分析与设计,其中系统的功能模块包括新闻数据采集模块、用户聚类模块、新闻推荐展示模块。新闻数据采集模块使用Scrapy爬虫框架进行数据采集,爬取各大新闻网站数据并以结构化形式存储到数据库中;用户聚类模块,针对系统新老用户采用不同聚类;新闻推荐模块,在用户聚类后,在所属类别中使用协同过滤推荐算法,生成新闻推荐。(4)实现融合用户聚类和协同过滤的新闻推荐系统,对系统的功能与性能进行测试,经测试本系统功能完善,可以快速高效的定时采集新闻数据,并对不同的用户进行准确的新闻推荐。