基于Hadoop云计算技术的旅游信息数据采集模型的构建研究

来源 :桂林理工大学 | 被引量 : 0次 | 上传用户:dancingbug
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速普及发展,互联网已经融入人们生活的各个方面。互联网已经成为人们社交、获取信息的重要的载体。人们将旅游路线、旅游景点、评价、感悟都分享在互联网上,随着旅游人数不断增多以及用户分享旅游信息快速增长,旅游景区网站、旅游网站等迅速发展,为用户提供更多丰富旅游信息。面对大数据时代到来,大数据与旅游业结合越来越紧密,如何将复杂的互联网旅游信息进行准确的收集整理以解决旅游信息数据量相对不足的核心问题。在互联网上的旅游信息有各种数据类型,如结构化的文本信息、半结构化的网页、无结构的文本信息以及非结构化视频等文件类型,在Web上旅游信息网页结构是异构的、包含很多旅游信息无关的数据。因此,我们急需要解决主要问题有:如何从Web上网页精确抽取旅游信息;如何避免噪音数据的干扰;如何实现对大规模的数据存储;如何快速从大规模的数据中查看所需要的旅游信息。针对以上存在问题,本文提出基于Hadoop云计算数据采集模型的整合方案包含旅游信息收集、旅游网页信息抽取、信息检索这三部分。基于Webcollector开源网络爬虫框架来实现旅游信息的采集;对WebCollector进行二次开发,使用布隆过滤器去重URL、多线程解决DNS解析瓶颈、广度优先遍历策略等;收集旅游信息数据存储到分布式HBase数据库中和分布式文件系统(HDFS Hadoop Distributed File System)上;为了实现网页去重,论文设计了MapReduce并行化LCS(Longest Common Subsequence最长公共子序列)算法,该算法可以有效减少旅游信息重复收集的问题。为了解决旅游网页信息精确抽取的问题,本文设计基于标签路径特征融合方法和基于DOM树分块方法相结合的组合抽取方法。信息检索是基于Lucene开源检索框架来实现,Lucene对HBase数据库建立索引,利用全文检索对收集来的旅游信息提供用户查看。
其他文献
【摘 要】小学阶段的作文教学中教师要在充分了解学生的基础能力以及思维习惯的前提下,制定更多有针对性的教学模式。教师要鼓励学生多进行练笔训练,培养学生感悟生活的能力,让学生在文章中表达真情实感。  【关键词】小学 作文 新思路 分析  在小学语文作文教学的实践中,教师要积极开辟教学的新思路,要分析各种可行的教学方法与教学策略,促进学生作文能力和语言素养的不断提升。小学阶段的作文教学中,教师要在充分了
新课程标准明确指出:语文课程是一门学习语言文字运用的综合性、实践性课程.应着重培养学生的语文实践能力。传统教学中注重读书、积累和感悟固然是语文学习的重要方法.但只有将
【摘 要】写作一直是语文学科教学的一个重难点,如何让学生写作,让学生写出高质量的的文章呢?《让学生飞舞起写作的翅膀》从以下方面进行论述:美文美读,激发兴趣:学会观察,培养兴趣;参与实践,挖掘兴趣;博览群书,积累兴趣;自主随笔,表达兴趣;多元评改,调动兴趣;推荐发表,延续兴趣 。  【关键词】写作 兴趣  伟大的爱因斯坦说:“兴趣是最好的老师。”孔子言:“知之者不如好之者,好之者不如乐之者。”让学生
期刊
中韩两国自古以来便是一衣带水的友好邻邦,在政治文化上交往密切。中华文化源远流长,影响深远,自古以来对韩国产生了十分重要的影响。而朝鲜时代的知识分子在认识世界之时选取的视角也深受中华文化的影响,他们以“中华”的视角认知世界,这使得在韩国书籍尤其是历史文化类书籍当中,包含了大量的中国元素,带有明显的“中国烙印”。随着国家主席习近平提出的“一带一路”战略不断推进,中国与沿线国家的文化交流日益频繁。在这种