【摘 要】
:
随着网络规模的不断扩大和信息量的不断增加,集中式环境文本分类不能满足现有的需要,因此在分布式环境下对大规模数据处理成为当前IT行业关注的焦点。无论是在广告投放,还是在信
论文部分内容阅读
随着网络规模的不断扩大和信息量的不断增加,集中式环境文本分类不能满足现有的需要,因此在分布式环境下对大规模数据处理成为当前IT行业关注的焦点。无论是在广告投放,还是在信息检索等领域,都需要对大规模数据处理进行文本分类,因此研究云计算环境下的大规模数据文本分类就成为了焦点。本文就在Hadoop系统平台下,以文本分类为前提,以本文设计的倒排索引树结构为基础,对文本分类算法及其增量算法进行了以下研究。综上所述:本文的主要研究成果、贡献和创新点可概括以下几点:1.为了满足特征选择方法的计算速度和文本分类KNN、Bayes等算法以及文本向量维度分布稀松性,本文给出了倒排索引树结构,并在云平台上将倒排索引树结构并行化。2.结合倒排索引树的结构和文本分类算法,给出了海量数据的倒排索引树构建算法及其剪枝策略,同时也给出了增量倒排索引树算法以及增量倒排索引树并行化设计。3.基于倒排索引树结构,设计了K-means增量分类算法,并给出了Hadoop平台下该算法分类的并行化设计。4.根据倒排索引树结构,提出了云计算hadoop平台下基于倒排索引树的朴素贝叶斯分类算法,并给出了该算法的三种改进方法,分别有采用TFIDF权重加权的,互信息加权的,期望交叉熵加权的朴素贝叶斯文本分类算法,同时也给出了基于倒排索引树的局部朴素贝叶斯文本分类算法。5.搭建hadoop集群进行实验分析,验证了倒排索引树结构及其文本分类改进算法的分类准确率,召回率和分类性能。
其他文献
目的:研究高度近视患者眼轴长和屈光度对视网膜血管几何学特性的影响,分析随着眼轴长延长和近视屈光度的增加,视网膜血管分支角和弯曲度的变化情况,从而探讨高度近视患眼视网
目的探讨MTHFR C677T基因多态性与延边地区朝鲜族、汉族人群缺血性脑卒中发生的相关性,以及其基因多态性分布是否存在民族间差异。方法采用病例对照研究方法,选择缺血性脑卒
本文以关联顺应理论方法为理论框架,以《围城》为个案,重在研究翻译中文化缺省现象。翻译不仅仅是语言的简单传递,更是一种跨文化交际,译者能否成功传递原文中的文化信息成为
背景和目的:肾移植在国内已经迈入成熟的发展期,随着外科手术技术的成熟、高效免疫抑制剂的应用、组织配型技术的逐步完善,患者术后排斥反应发生率逐渐降低。移植术后发生恶性
进入21世纪以来,我国的基础教育随着新课程改革的浪潮大力的向前推进,学校的发展建设也呈现出了百花争鸣的状态。很多具有创新精神的学校领导者借着这一教改的春风,尝试对学
<正>有论者认为,"某种意义上,知青身份与道德理想主义,可谓标识梁晓声的两个关键词"(1)。在《人世间》问世之前,这样的判断应该说是较为客观的,而在《人世间》这部115万字的
产业集群是中小企业的重要发展模式,如何有效的带动集群企业和整个产业链的发展,是一个重要研究课题。云计算一种新兴技术和商业模式,对促进我国产业结构转型升级和实现经济发展
目的探讨诱导型一氧化氮合酶(iNOS)在肺癌中的表达及其临床意义。方法应用免疫组织化学方法对16例肺癌组织标本中iNOS的表达进行检测。结果 iNOS在肺癌中的阳性表达与癌症部分
以胶乳生产废水中的污泥为原料,通过热裂解碳化及活化剂活化制备吸附剂。研究了活化剂种类与用量等因素对所制备胶乳污泥吸附剂的影响,对其形貌和组分进行了表征,并用于吸附
针对某露天矿排土场边坡稳定性问题,采用理论计算和数值模拟对拦渣坝稳定性进行分析。研究结果表明,所设计的拦渣坝满足稳定性要求,能够有效的维护排土场边坡的稳定性。