论文部分内容阅读
随着互联网的快速发展,数据信息呈指数级增长,分类算法在大规模数据面前面临着巨大的挑战。当前,国内外的学者对分类模型与算法的研究主要集中在提高其分类的正确率以及时间空间复杂度上,然而在面对大规模数据,主要问题是海量数据的存储和分类计算,传统的方法已经不能满足需求。因此研究如何快速并且高效的对海量数据进行分类具有重要意义。本文基于Hadoop分布式计算平台,针对传统朴素贝叶斯算法权重计算的缺陷,提出一种改进的加权朴素贝叶斯算法,并运用在统计Web用户访问偏好上。首先介绍了课题的研究背景和意义以及国内外研究现状;然后介绍了课题涉及的相关技术,包括文本分类过程中的预处理、模型表示、特征词选择、特征权重计算,贝叶斯理论以及朴素贝叶斯分类算法,Hadoop分布式计算平台的相关技术,主要包括HDFS分布式存储和Map Reduce分布式计算。然后,基于Hadoop平台提出一种针对中英文的分词算法,在分词过程中引入Lucene,并通过统计法对歧义处理。针对Hadoop平台处理小文件缓慢的缺陷,实现了一种将若干小文本合并成一个大文件的输入格式,实验证明自定义的输入格式能很好处理小文件输入。针对传统的朴素贝叶斯分类算法权重计算存在的缺陷,提出一种改进的加权朴素贝叶斯分类算法,并在Hadoop平台通过5个Map Reduce过程来实现,在Hadoop平台下,使用8237条数据作为数据集进行实验,实验表明改进的加权朴素贝叶斯分类算法在宏平均和微平均F1值上都有很好的效果。最后,通过研究的并行分词技术以及改进的朴素贝叶斯分类算法,对web用户访问的页面内容进行分类,并通过Pig统计分析其偏好。对运营商实现精准营销具有一定商业价值。