论文部分内容阅读
随着中国石油勘探生产门户网站信息发布量的快速增长,利用传统的信息搜索技术,将会出现搜索结果信息量超载的问题,用户很难从中快速找到有价值的信息,研究基于大数据的信息推荐系统可以很好地解决这个问题。本论文根据勘探生产门户信息的特点,提出了一种基于大数据分析技术的门户信息推荐算法。该算法首先通过对门户信息的网络爬虫分析和分词处理,利用TF-IDF模型计算得到门户网站每个页面的特征词,并对特征词进行聚类分析筛选出聚类标签词;第二步将用户的浏览行为日志经过三次MapReduce作业分析得出用户特征词;第三步将用户特征词与门户网页标签词进行匹配处理得到相应的推荐结果。与此同时,推荐引擎利用基于项目的协同过滤推荐算法产生另外一组推荐结果;最后将两组推荐结果列表排序过滤并按一定的比例混合输出作为最终的推荐结果。本论文研究的推荐系统使用Hadoop等相关技术实现了门户网站中大数据的存储与处理,利用Mahout推荐引擎实现门户信息的推荐,在.NET平台上用C#开发完成了与勘探生产门户网站的对接,设计并开发了将推荐结果呈现给用户的推荐系统用户交互接口。通过用户交互接口,用户可以对推荐结果采取收藏、删除、浏览等操作,而用户的操作会隐式地反馈给推荐引擎模块,以提高算法效率。此外,在用户交互接口界面展示了用户的浏览记录和推荐信息的特征词,可以极大程度的提高系统的可信赖度。本系统的研究提高了勘探生产门户的智能化水平,为促进门户网站的深入应用做出了贡献。