论文部分内容阅读
随着计算机技术的发展,社会日益信息化电子化。商务、医疗、气象、天文等各色各样的领域都累积了大量的数据,人们日常生活中即使只是简单的衣食住行也会产生海量的数据。单纯的数据积累是不会带来任何价值的。但是利用特定的技术对大规模数据进行处理,即便是简单的分类整理,也可能使大数据呈现有趣的规律。再利用相应的搜索、识别等技术,极有可能发现获得其中蕴含着的数据宝藏。数据挖掘这一门学科就是随着大数据的产生而兴起的,数据分类算法作为该领域的重要一环,具有极高的学习价值和极强的实际意义。本文深入研究了几种典型的分类算法,分别是K-最近邻算法、朴素贝叶斯算法、支持向量机算法。在算法研究过程中,不可避免地遇到了单机处理大量数据带来的速度瓶颈,需要向分布式计算寻求对应的解决办法。云计算平台作为存储和处理海量数据的超级容器,成为数据分类算法的最佳载体。本论文提出云环境下数据分类算法的改进,主要针对KNN、NB、SVM算法改进,使其适应Hadoop平台数据处理框架,成为符合实际应用的文本分类平台。本文搭建的分类平台充分考虑了传统分类算法的主要特点,以及前沿云计算平台技术的优势,取长补短进行技术结合。平台的整体框架包括文本预处理模块、数据训练模块和测试模块,完成了中文分词、去停用词、文本特征表示、算法并行化功能。最后通过仿真实验,表明该分类平台实现了算法性能的提升,大大缩短了数据分类的时间。尤其是在数据量非常大的情况下,体现了更高的分类精度和更大的数据处理速度优势。