论文部分内容阅读
随着互联网的快速普及发展,互联网已经融入人们生活的各个方面。互联网已经成为人们社交、获取信息的重要的载体。人们将旅游路线、旅游景点、评价、感悟都分享在互联网上,随着旅游人数不断增多以及用户分享旅游信息快速增长,旅游景区网站、旅游网站等迅速发展,为用户提供更多丰富旅游信息。面对大数据时代到来,大数据与旅游业结合越来越紧密,如何将复杂的互联网旅游信息进行准确的收集整理以解决旅游信息数据量相对不足的核心问题。在互联网上的旅游信息有各种数据类型,如结构化的文本信息、半结构化的网页、无结构的文本信息以及非结构化视频等文件类型,在Web上旅游信息网页结构是异构的、包含很多旅游信息无关的数据。因此,我们急需要解决主要问题有:如何从Web上网页精确抽取旅游信息;如何避免噪音数据的干扰;如何实现对大规模的数据存储;如何快速从大规模的数据中查看所需要的旅游信息。针对以上存在问题,本文提出基于Hadoop云计算数据采集模型的整合方案包含旅游信息收集、旅游网页信息抽取、信息检索这三部分。基于Webcollector开源网络爬虫框架来实现旅游信息的采集;对WebCollector进行二次开发,使用布隆过滤器去重URL、多线程解决DNS解析瓶颈、广度优先遍历策略等;收集旅游信息数据存储到分布式HBase数据库中和分布式文件系统(HDFS Hadoop Distributed File System)上;为了实现网页去重,论文设计了MapReduce并行化LCS(Longest Common Subsequence最长公共子序列)算法,该算法可以有效减少旅游信息重复收集的问题。为了解决旅游网页信息精确抽取的问题,本文设计基于标签路径特征融合方法和基于DOM树分块方法相结合的组合抽取方法。信息检索是基于Lucene开源检索框架来实现,Lucene对HBase数据库建立索引,利用全文检索对收集来的旅游信息提供用户查看。