基于Hadoop的网络文本分析技术研究与实现

被引量 : 0次 | 上传用户：gy19910192

【摘要】

：

由于移动设备和互联网网络的快速发展,互联网上产生的信息呈指数级的增长。处理海量数据的两个关键问题就是海量数据的存储和计算问题,传统的文本处理系统在这两个方面都不能

【作者】

：

周涛

【发表日期】

：

2014年期

【关键词】

：

Hadoop 数据获取倒排索引并行K-Means

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

由于移动设备和互联网网络的快速发展,互联网上产生的信息呈指数级的增长。处理海量数据的两个关键问题就是海量数据的存储和计算问题,传统的文本处理系统在这两个方面都不能满足海量网络文本分析的需求。如何高效的实时获取网络信息,实现海量文本数据的存储和计算是目前学术界和工业界共同关注的问题,因此对一问题的研究具有重要的意义。面对海量数据的存储与计算问题,云计算和大数据处理技术从概念的提出到投入应用,为网络文本分析提供了新的方向。一些开源框架不断出现,目前最流行的就是Hadoop平台,底层采用HDFS分布式文件系统以实现海量数据的存储,使用MapReduce编程框架实现对大数据的并行计算,以及采用列数据库HBase实现对结构化数据的存储。在这一平台下,开发人员无需过多关注分布式存储和计算的实现细节,从而让用户把更多的精力用在核心业务的实现上。本文围绕着基于Hadoop平台下的网络文本处理展开,研究的内容包括网络文本的获取、分布式检索功能构建以及文本聚类分析,本文的具体工作包括以下几个方面：第一,本文提出基于Hadoop的获取网络数据实现方案,该系统由四个模块组成,它们的功能分别是,爬取网页数据、分析网页数据里的URL、对URL去重,以及抽取网页数据里的有用信息。本文给出了系统详细实现方法,包括各个功能模块的逻辑流程图、每个模块使用的数据存储结构。最后,本文实验的运行结果表明,基于Hadoop平台下的网络数据获取方法比单机系统从效率上有很大的提高。第二,本文提出了基于Hadoop分布式检索功能构建,为了使Lucene能很好的运行于Hadoop平台下,本文首先对Lucene存储功能进行了扩展,使Lucene能支持对HDFS文件系统的读写。其次,基于MapReduce框架建立索引的功能由二个模块组成,一个完成了中文分词并行化的实现,另一个完成了倒排索引并行化的实现。最后,该系统经过测试,能在Mapduce框架下并行的建立索引,并且以标准尺寸的数据块形式存放在HDFS里。第三,实现了基于Hadoop的文本聚类算法。本文给出了K-Means算法的并行化详细实现步骤,包括功能模块的逻辑流程图、每个模块使用的数据存储结构。并给出了具体的仿真实验,实验的运行结果表明基于Hadoop的K-Means聚类算法能高效地处理海量文本,比单机系统从性能上有很大的提高。

其他文献

催产素受体拮抗剂在反复着床失败患者中的应用

[背景]在接受体外受精-胚胎移植的不孕患者中,有超过一半的患者要经历胚胎冷冻和冻融胚胎复苏移植(Frozen thawed embryo transfer, FET),这已经是当前IVF-ET的常规治疗技术

学位

冻融胚胎复苏移植(FET)催产素受体拮抗剂反复着床失败(RIF)子宫内膜收缩

论商业银行破产的标准

近年来,我国金融行业发展迅猛,“余额宝”等货币基金和互联网金融异军突起,民营银行准入也已提上日程,我国银行业正面临前所未有的竞争压力。为应对市场竞争引发的银行失败,

学位

银行破产银行的特殊性监管性标准

山西省煤矿绿色转型政策的发展及评价

从国家政策和山西省地方政策同时着手,基于政策权威、政策措施、发布主体、核心领域、相关内容、政策组合、政策时效7个方面建立评价指标,通过改进的PCM指数模型法计算山西省

期刊

绿色转型改进的PCM指数模型法政策评价山西省煤矿

转TaDREB3a基因大豆抗旱筛选鉴定

研究利用转TaDREB3a基因株系T4代大豆植株与野生型植株开展PEG模拟干旱处理和PCR鉴定,获得5个阳性TaDREB3a过表达株系。于苗期和花期分别干旱处理,根据表型及相对含水量、相

期刊

大豆抗旱性干旱胁迫鉴定

中国典型钨矿床区域地球化学找矿模型研究

钨矿是我国的优势资源，本研究旨在通过总结全国21个典型钨矿床的区域岩石和区域水系沉积物的地球化学特征，建立全国典型钨矿床的区域地球化学找矿模型。本文通过收集研究21个典

学位

钨矿典型矿床花岗岩型地球化学特征找矿模型

《益世报》中日关系报道研究（1931.9-1937.7）

20世纪30年代,南京国民政府虽多次发令保障新闻自由,但在政权不稳,日本入侵的环境下,仍通过控制新闻来源、立法、检查等手段,严格管制军事、外交新闻等相关报道。在复杂的外

学位

《益世报》中日关系武力抗战论中国报刊史

诸广山产铀与不产铀花岗岩的年代学，地球化学及矿物学特征对比研究

南岭地区是我国十分重要的花岗岩型铀矿的集聚地，诸广山复式花岗岩体又是南岭桃山-诸广山铀矿成矿带的重要组成，其中铀矿主要产于复式岩体的中部和东部，而西部至今尚未发现铀矿，

学位

诸广山复式花岗岩体长江岩体和九峰岩体花岗岩型铀矿产铀能力

中晚明布衣诗人研究

中晚明布衣诗人是明代诗坛上一个十分引入注目的诗人群体,他们的群体成员众多,诗歌作品数量庞大,晚明屠隆首次提出了“诗在布衣”的观点。中晚明布衣诗人的人生经历曲折丰富

学位

中晚明布衣诗人

湘潭市农业机械化发展研究

发展农业机械化,是提高农业劳动生产率与农业生产力,改善农民生产生活条件的重要途径；是缩小城乡差别,提高农业和农村经济水平的重要条件。科学合理的农业机械化发展规划,对区

学位

农业机械化发展公共政策构建体制

水电机组智能故障诊断的多元征兆提取方法

随着我国能源结构的不断优化调整,电网规模逐步扩大,水电能源比重日趋增大,所担负的调峰调频任务也愈加艰巨,这对水电能源生产核心设备——水电机组运行的安全稳定性提出了更

学位

水力发电机组智能故障诊断多元征兆提取方法多重微分经验模态分解统计模糊矢量链码轴心轨迹识别振动转速关系曲线加权模糊核聚类投影D-S证据理论

基于Hadoop的网络文本分析技术研究与实现

与本文相关的学术论文