论文部分内容阅读
随着移动互联网的快速发展和普及应用,传统的旅游信息服务已经不能满足大众的需求,旅游产业作为国家十二五规划的重点产业之一,“智慧旅游”的概念应运而生,它往往体现在旅游服务、管理和营销的智慧。然而这三方面最被关心的就是旅游信息服务的智慧,如何做到给用户智慧的旅游服务,这是我们将要面临的挑战。如今,大数据也是热点问题,旅游数据符合大数据的特点,大量的旅游数据杂乱无章、数据巨大,如何处理和利用好这些数据,传统的方法已经不能够解决问题,必须采用新的技术平台和方法。目前通常采用的方法是利用新的云计算和物联网技术,来处理旅游业中的旅游服务问题,将旅游产业中的旅游服务问题、数据处理问题和资源整合问题在新的大数据环境下利用数据挖掘的技术手段来为旅游管理者提供指导,并为大众服务提供一种全新的旅游形态和方法。在大数据时代,Hadoop平台作为优秀的分布式处理平台,给大数据的处理和存储提供了可能性,利用它特有的编程模型和数据存储方式,可以将传统的旅游信息服务移植到云计算环境下进行,通过编写相应的数据挖掘算法,可以从大量的旅游数据中获取有效的信息,针对用户提供更加满意、高效的服务。本文从知名旅游网站百度旅游和马蜂窝网站中获取游客的属性数据,利用改进的数据挖掘算法,在对数据分析挖掘处理之后,针对具体的游客提供旅游信息服务。本文具体的研究工作如下:(1)研究Hadoop的工作原理,深入学习MapReduce的编程模型和运行流程和HDFS工作原理和存储原理,针对问题,编写对应的MapReduce JOB任务程序,为后续的算法改进打下了基础。(2)深入学习传统的关联规则算法,并且分析了算法的优缺点,在现有算法的基础上,提出了基于项合并剪枝的关联规则算法和基于频繁闭项集邻接图的关联规则算法,前者解决了在挖掘过程中的重复挖掘问题,后者减少冗余规则的生成问题,最终的实验结果表明,改进后的算法可以保证挖掘精准度的同时,提高算法的运行和挖掘效率。(3)从知名旅游网站百度旅游和马蜂窝网站获取游客的旅游数据,研究了数据的获取和处理方法,针对具体问题对数据进行了清洗和预处理工作,转化为可以处理的事务数据,为后续的实验做好基础。(4)最后,我们利用(3)中获取到的游客的旅游数据,应用改进后的算法进行挖掘分析,在游客的景点推荐和吃住行混合推荐方面给出了一种可行的方法,符合具体的实际情况。