基于Hadoop的网络文本分析技术研究与实现

被引量 : 0次 | 上传用户:gy19910192
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于移动设备和互联网网络的快速发展,互联网上产生的信息呈指数级的增长。处理海量数据的两个关键问题就是海量数据的存储和计算问题,传统的文本处理系统在这两个方面都不能满足海量网络文本分析的需求。如何高效的实时获取网络信息,实现海量文本数据的存储和计算是目前学术界和工业界共同关注的问题,因此对一问题的研究具有重要的意义。面对海量数据的存储与计算问题,云计算和大数据处理技术从概念的提出到投入应用,为网络文本分析提供了新的方向。一些开源框架不断出现,目前最流行的就是Hadoop平台,底层采用HDFS分布式文件系统以实现海量数据的存储,使用MapReduce编程框架实现对大数据的并行计算,以及采用列数据库HBase实现对结构化数据的存储。在这一平台下,开发人员无需过多关注分布式存储和计算的实现细节,从而让用户把更多的精力用在核心业务的实现上。本文围绕着基于Hadoop平台下的网络文本处理展开,研究的内容包括网络文本的获取、分布式检索功能构建以及文本聚类分析,本文的具体工作包括以下几个方面:第一,本文提出基于Hadoop的获取网络数据实现方案,该系统由四个模块组成,它们的功能分别是,爬取网页数据、分析网页数据里的URL、对URL去重,以及抽取网页数据里的有用信息。本文给出了系统详细实现方法,包括各个功能模块的逻辑流程图、每个模块使用的数据存储结构。最后,本文实验的运行结果表明,基于Hadoop平台下的网络数据获取方法比单机系统从效率上有很大的提高。第二,本文提出了基于Hadoop分布式检索功能构建,为了使Lucene能很好的运行于Hadoop平台下,本文首先对Lucene存储功能进行了扩展,使Lucene能支持对HDFS文件系统的读写。其次,基于MapReduce框架建立索引的功能由二个模块组成,一个完成了中文分词并行化的实现,另一个完成了倒排索引并行化的实现。最后,该系统经过测试,能在Mapduce框架下并行的建立索引,并且以标准尺寸的数据块形式存放在HDFS里。第三,实现了基于Hadoop的文本聚类算法。本文给出了K-Means算法的并行化详细实现步骤,包括功能模块的逻辑流程图、每个模块使用的数据存储结构。并给出了具体的仿真实验,实验的运行结果表明基于Hadoop的K-Means聚类算法能高效地处理海量文本,比单机系统从性能上有很大的提高。
其他文献
[背景]在接受体外受精-胚胎移植的不孕患者中,有超过一半的患者要经历胚胎冷冻和冻融胚胎复苏移植(Frozen thawed embryo transfer, FET),这已经是当前IVF-ET的常规治疗技术
近年来,我国金融行业发展迅猛,“余额宝”等货币基金和互联网金融异军突起,民营银行准入也已提上日程,我国银行业正面临前所未有的竞争压力。为应对市场竞争引发的银行失败,
从国家政策和山西省地方政策同时着手,基于政策权威、政策措施、发布主体、核心领域、相关内容、政策组合、政策时效7个方面建立评价指标,通过改进的PCM指数模型法计算山西省
研究利用转TaDREB3a基因株系T4代大豆植株与野生型植株开展PEG模拟干旱处理和PCR鉴定,获得5个阳性TaDREB3a过表达株系。于苗期和花期分别干旱处理,根据表型及相对含水量、相
钨矿是我国的优势资源,本研究旨在通过总结全国21个典型钨矿床的区域岩石和区域水系沉积物的地球化学特征,建立全国典型钨矿床的区域地球化学找矿模型。本文通过收集研究21个典
20世纪30年代,南京国民政府虽多次发令保障新闻自由,但在政权不稳,日本入侵的环境下,仍通过控制新闻来源、立法、检查等手段,严格管制军事、外交新闻等相关报道。在复杂的外
南岭地区是我国十分重要的花岗岩型铀矿的集聚地,诸广山复式花岗岩体又是南岭桃山-诸广山铀矿成矿带的重要组成,其中铀矿主要产于复式岩体的中部和东部,而西部至今尚未发现铀矿,
中晚明布衣诗人是明代诗坛上一个十分引入注目的诗人群体,他们的群体成员众多,诗歌作品数量庞大,晚明屠隆首次提出了“诗在布衣”的观点。中晚明布衣诗人的人生经历曲折丰富
发展农业机械化,是提高农业劳动生产率与农业生产力,改善农民生产生活条件的重要途径;是缩小城乡差别,提高农业和农村经济水平的重要条件。科学合理的农业机械化发展规划,对区
随着我国能源结构的不断优化调整,电网规模逐步扩大,水电能源比重日趋增大,所担负的调峰调频任务也愈加艰巨,这对水电能源生产核心设备——水电机组运行的安全稳定性提出了更