基于Hadoop的高性能文本聚类算法的设计与实现

被引量 : 0次 | 上传用户:zemao1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的飞速发展带来互联网上的数据信息急剧增长,大部分数据以文本信息的形式存在。挖掘网页上的海量文本信息以及快速准确地对这些信息进行分析处理,获取有用的信息,已经成为各大公司组织和个人急待解决的问题。在分布式环境下通过数据挖掘中的文本聚类技术对海量文本数据进行并行处理是解决这一问题的最有效途径之一。文本聚类技术是数据挖掘领域的一个重要的课题,是一种无监督的机器学习方法,其基本思想是首先将文本预处理成计算机可以处理的数据,然后进行文本相似度计算并形成聚类结果。本文通过分析聚类技术的基本原理,总结已经存在的聚类方法中在海量数据处理中的优缺点,并把分布式并行技术引入文本聚类领域,设计并实现了一个基于分布式并行运算的短文本聚类算法。不仅解决了传统聚类算法在处理海量数据方面由于数据的高维和稀疏等方面存在的不足,而且解决了由数据规模过大引起的运行速度慢、效率低的问题。本文的主要工作在于:介绍文本聚类算法的思想和相关理论知识,对当前已经存在的各个分类的聚类算法思想及其代表性算法进行深入分析和研究,并总结出各个分类的聚类算法的优缺点和适用范围;对开源分布式平台Hadoop的基本架构及其关键技术-HDFS分布式文件系统和MapReduce编程模型进行深入研究,并在此基础上设计了一种基于Hadoop分布式平台的分布式并行文本聚类算法;通过实验证明设计的分布式并行文本聚类算法在处理海量的、高维度数据集的可行性。
其他文献
近代以来,为实现男女平等,我国妇女运动高潮迭起,经过多代人的努力,妇女的经济、政治、社会、家庭等地位都得到了巨大的提高,但在建设社会主义和谐社会的大背景下,我国现阶段依然在
翻译理论界关于文学作品的可译性问题一直存在着激烈的争论。概括起来,大致有以下几种意见,1、文学作品是可译的,2、文学作品是不可译的,3、文学作品是可译的,但是是有限度的。本
随着新技术的发展与引进、城市产业结构的变化,众多工业企业出现关、停、并、转的情况,大量闲置的工业建筑在我国出现。为了更好地利用这类建筑在结构性能、历史文化等方面存有
激光测风雷达是通过向大气中发射激光,通过接收激光与气溶胶和大气分子发生散射的回波信号,通过F-P标准等鉴频系统具探测回波信号的多普勒频移,从而反演出大气风场。光学系统的
探索Gamification(游戏化)教学与来华留学生《中医诊断学》课程的结合应用;探讨Gamification的概念及内涵、当前来华留学生《中医诊断学》教学现状与存在问题、Gamification
交通运输业是首批进入"营改增"试点的行业,其税改的减税效应与其他行业有着显著差异。通过对"营改增"后交通运输业整体税负及财务影响的测算可以看出,"营改增"并未使交通运输
随着人工智能和自然语言处理的迅速发展,相似度计算已成为语义消歧、信息提取、信息检索、文本分类、自动问答、数据挖掘等基础应用的亟待解决的问题。伴随各个领域研究的不断
<正>经过十年的打造与探索,广汽自主又开始了新的征程。继&#39;广汽集团自主创新驱动发展大会暨广汽传祺第二生产线竣工仪式&#39;活动之后,广汽乘用车的新任掌门郁俊,在全面
<正>来信(马金秀青海省湟中县甘河滩镇兽医站):禽流感是人畜共患的传染病,搞好防疫工作是切断禽流感传染病的最有效途径。我们青海海拔高,地广人稀,家禽的养殖多半是分散型养
本论文以甘肃省交通科研项目-《武罐高速公路典型滑坡对隧道危害机制及防治技术研究》(No:200813)为主要依托,结合我院数十年的交通工程地质灾害防治经验,选取“隧道-滑坡体系的变