基于Mapreduce的大规模中文短文本聚类算法的设计与实现

来源 :兰州理工大学 | 被引量 : 10次 | 上传用户:aineast
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本聚类是数据挖掘和信息检索领域的一个重要研究方向。如何挖掘网页上的海量文本信息已经成为计算机科学领域所面临的一个巨大挑战。文本聚类技术的出现为海量文本信息的分类管理提供了一条有效的途径。近年来文本聚类在信息检索、多文本自动摘要等互联网领域获得了广泛的应用。云计算的兴起,为分布式并行计算提供了更多的框架,文本挖掘技术的分布式实现也开始被越来越多的研究人员所关注。Hadoop是Apache的一款开源软件,它提供了包括分布式文件系统和MapReduce计算框架在内的云计算软件平台的基础架构,并且在其上整合了包括数据库、数据仓库等一系列组件,其已成为学术界和工业界进行云计算研究和应用的标准平台。本文重点研究了Hadoop软件框架中的HDFS、MapReduce、HBase等组件的核心架构及其运行机制,并分析了框架的不足,如¨HDFS、MapReduce的单点故障及安全性等问题,提出了相应的解决方案,并基于此搭建了高可靠安全的Hadoop环境。在高可靠安全的Hadoop平台上,结合传统聚类算法的特点给出了一种基于云计算的短文本聚类系统的设计方案,并对该系统的各层次的功能及该系统中的分类聚类模块进行了详细的阐述。本文主要研究工作包括:(1)搭建了一个适合文本聚类应用的Hadoop分布式平台,并通过Hadoop和Linux对系统进行调优。(2)根据短文本的特征,利用向量空间模型,TF-IDF计算公式和余弦公式等技术来设计了一种合适的聚类方法来实现对中文短文本的分析。(3)结合Eclipse开发工具,编写Java程序和Shell启动脚本整合系统并利用170万条实验数据对设计系统进行测试,并对实验结果进行了分析,提出了改进的方案。
其他文献
青年职工在企业中是重要的生力军。因此做好民营建筑青年思想政治工作,对于提高生产效率,完成生产劳动任务是至关重要的。当前,青年职工的思想状况的主流是好的,但也存在一些
血清免疫球蛋白E(IgE)是人体中含量最少的免疫球蛋白,生物学功能主要是与具有相应受体的细胞结合,使靶细胞致敏或发挥免疫调节和保护作用。遗传过敏症经常被用来描述IgE介导
<正>“在网上,没有人知道你是一条狗”这句话广为流传,充分体现了网络匿名现象的普遍性。如今, 伴随着网络匿名现象产生的系列问题和社会隐患,促使网络实名制的呼声越来越高,
本文以高中美术教学评价与学生学习效果的相关性为主要研究目标。美术教学评价在教学中的地位逐步提升,通过优质的美术教学评价,既可以促进学生的学习素养,又可以提高教师的教学素养。现代的教育评价方式已经改变了传统评价的单一性,多样化的教学评价模式更多的被应用在美术教学活动中,但因为缺乏系统的美术教学评价体系,所以在教学活动中并没有很好的发挥教学评价的作用。本文旨在通过研究美术教学评价与学生学习效果的相关性
中医药学是中华民族优秀的传统文化,是我国独特的重要卫生资源,是我国医药卫生事业的重要组成部分和特色优势。我国在中药领域有着独特的资源优势,迅速增长的国际市场为中药
在国际油价动荡及替代能源需求加大的形势下,我国煤化工产业依靠明显优势不断发展,已经成为我国能源产业的重要组成部分。随着近阶段国家政策的引导,传统煤化工项目不断转型升级
microRNA(miRNA)是一类长约21-25核苷酸的非编码RNA分子,在转录后水平调节基因表达。通过与基因3’UTRs或靶基因的开放阅读框结合,从而导致靶基因mRNA的降解或抑制mRNA翻译。
图像的三维重建技术作为计算机视觉的一个重要分支,已被广泛的应用于医学图像处理、航空航天、军事勘察以及虚拟实现等各个领域。虽然已有的三维建模工具在不断完善,但是想要
结直肠癌在我国的发病率居于常见恶性肿瘤中的第三位,死亡率居第五位,严重威胁着我国人民和世界人民的健康和生命。散发性结直肠癌发病的早期症状不明显,发病位置隐蔽,使得该