基于Hadoop的高性能文本聚类算法的设计与实现

被引量 : 0次 | 上传用户：zemao1988

【摘要】

：

信息技术的飞速发展带来互联网上的数据信息急剧增长，大部分数据以文本信息的形式存在。挖掘网页上的海量文本信息以及快速准确地对这些信息进行分析处理，获取有用的信息，已经成

【作者】

：

林纪坡

【发表日期】

：

2013年期

【关键词】

：

文本聚类数据挖掘 Hadoop 分布式并行运算 MapReduce

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

信息技术的飞速发展带来互联网上的数据信息急剧增长，大部分数据以文本信息的形式存在。挖掘网页上的海量文本信息以及快速准确地对这些信息进行分析处理，获取有用的信息，已经成为各大公司组织和个人急待解决的问题。在分布式环境下通过数据挖掘中的文本聚类技术对海量文本数据进行并行处理是解决这一问题的最有效途径之一。文本聚类技术是数据挖掘领域的一个重要的课题，是一种无监督的机器学习方法，其基本思想是首先将文本预处理成计算机可以处理的数据，然后进行文本相似度计算并形成聚类结果。本文通过分析聚类技术的基本原理，总结已经存在的聚类方法中在海量数据处理中的优缺点，并把分布式并行技术引入文本聚类领域，设计并实现了一个基于分布式并行运算的短文本聚类算法。不仅解决了传统聚类算法在处理海量数据方面由于数据的高维和稀疏等方面存在的不足，而且解决了由数据规模过大引起的运行速度慢、效率低的问题。本文的主要工作在于：介绍文本聚类算法的思想和相关理论知识，对当前已经存在的各个分类的聚类算法思想及其代表性算法进行深入分析和研究，并总结出各个分类的聚类算法的优缺点和适用范围；对开源分布式平台Hadoop的基本架构及其关键技术-HDFS分布式文件系统和MapReduce编程模型进行深入研究，并在此基础上设计了一种基于Hadoop分布式平台的分布式并行文本聚类算法；通过实验证明设计的分布式并行文本聚类算法在处理海量的、高维度数据集的可行性。

其他文献

马克思主义妇女观与我国现阶段男女平等问题研究

近代以来，为实现男女平等，我国妇女运动高潮迭起，经过多代人的努力，妇女的经济、政治、社会、家庭等地位都得到了巨大的提高，但在建设社会主义和谐社会的大背景下，我国现阶段依然在

学位

马克思主义妇女观男女平等和谐两性

论文学作品的不可译性

翻译理论界关于文学作品的可译性问题一直存在着激烈的争论。概括起来,大致有以下几种意见，1、文学作品是可译的，2、文学作品是不可译的，3、文学作品是可译的，但是是有限度的。本

学位

文学作品红楼梦不可译性异化直译音译

旧工业建筑（群）再生利用项目绿色评价指标体系研究

随着新技术的发展与引进、城市产业结构的变化，众多工业企业出现关、停、并、转的情况，大量闲置的工业建筑在我国出现。为了更好地利用这类建筑在结构性能、历史文化等方面存有

学位

旧工业建筑再生利用绿色建筑评价体系

多普勒直接探测激光测风雷达接收光学系统研究

激光测风雷达是通过向大气中发射激光，通过接收激光与气溶胶和大气分子发生散射的回波信号，通过F-P标准等鉴频系统具探测回波信号的多普勒频移，从而反演出大气风场。光学系统的

学位

激光测风雷达耦合效率光学设计非球面透镜

Gamification教学理念在来华留学生《中医诊断学》课程中的应用

探索Gamification(游戏化)教学与来华留学生《中医诊断学》课程的结合应用;探讨Gamification的概念及内涵、当前来华留学生《中医诊断学》教学现状与存在问题、Gamification

期刊

Gamification游戏化来华留学生中医诊断学教学

交通运输业“营改增”的减税效应:问题与对策

交通运输业是首批进入"营改增"试点的行业,其税改的减税效应与其他行业有着显著差异。通过对"营改增"后交通运输业整体税负及财务影响的测算可以看出,"营改增"并未使交通运输

期刊

交通运输业营改增减税效应

语义相似度的混合计算方法

随着人工智能和自然语言处理的迅速发展，相似度计算已成为语义消歧、信息提取、信息检索、文本分类、自动问答、数据挖掘等基础应用的亟待解决的问题。伴随各个领域研究的不断

学位

语义相似度规则和统计混合方法停用词句子语义相似

深思后的布局

<正>经过十年的打造与探索,广汽自主又开始了新的征程。继'广汽集团自主创新驱动发展大会暨广汽传祺第二生产线竣工仪式'活动之后,广汽乘用车的新任掌门郁俊,在全面

期刊

乘用车新疆项目生产线创新驱动发展广汽集团

关于禽流感疫苗包装的一点建议

<正>来信(马金秀青海省湟中县甘河滩镇兽医站):禽流感是人畜共患的传染病,搞好防疫工作是切断禽流感传染病的最有效途径。我们青海海拔高,地广人稀,家禽的养殖多半是分散型养

期刊

禽流感疫苗油乳剂苗

隧道—滑坡体系的变形机理及控制技术研究

本论文以甘肃省交通科研项目-《武罐高速公路典型滑坡对隧道危害机制及防治技术研究》（No：200813）为主要依托，结合我院数十年的交通工程地质灾害防治经验，选取“隧道-滑坡体系的变

学位

隧道-滑坡体系坡体结构受力变形模式应力状态点安全系数接触面点安全系数变形机理预加固控制技术

基于Hadoop的高性能文本聚类算法的设计与实现

其他学术论文