基于Hadoop的Web文本分类系统设计研究

来源 :兰州大学学报(自然科学版) | 被引量 : 0次 | 上传用户:peng6265066
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统Web文本分类方法无法解决大规模分类问题,在深入分析当前主流并行计算平台Hadoop的基础上,提出基于Hadoop的Web文本分类系统,该系统主要包括文本预处理、向量表示、文本分类、结果评价等模块.真实数据集上的比较实验表明所建系统的有效性.
其他文献
20世纪末,中国60岁以上老年人口占总人口的比例超过10%。按照国际通行标准,中国人口年龄结构已开始进入老龄化阶段。进入新世纪后,中国人口老龄化速度加快。2005年底,中国60岁以上
<正>科学精神是现代文明的精髓,但在科学精神方面我们可以说是先天遗传不足,后天营养不良。中国的传统文化中本来就缺少科学精神的基因,在后天的教育和培养中又没有得到应有
[目的]进行集中空调卫生监督量化评分指标筛选和权重赋值,构建集中空调卫生监督量化评分指标体系。[方法]采用德尔菲专家咨询法,对上海市集中空调领域15位专家进行两轮咨询,
在各高校尤其是非重点的院校中,有一批深受英语四级考试焦虑困扰的学生,由于存在着严重的焦虑而非学习水平等其他因素,他们总是不能通过四级考试,这种焦虑情绪严重地妨碍他们
美国的中小学教育十分重视科学研究方法教育。经过十二年的训练与实践,学生高中毕业后,可以掌握科学研究方法的内容与过程,或者说科学研究方法已经变成学生思维的一个组成部
随着计算机网络的发展和教育信息化工程的全面实施,越来越多的学校购置了大量的计算机设备并实现了计算机联网,为学校师生创造了良好的工作与学习环境。目前各个高校都开设了与
以杨梅果实(Myrica rubra Sieb.et Zucc.)为试验材料,研究了不同品种杨梅果实中酚类物质的组成以及果实抗氧化活性的大小;研究了杨梅果实乙醇提取物对诱发性大肠癌发展的抑制作用
通过对质性研究新手初做访谈经历进行的研究发现,研究新手在刚开始进行质性访谈时所遇到的挑战包括联系访谈者困难、开始访谈前的紧张、访谈中的非预期情况、访谈中与访谈后
中国是一个农业大国,农民占全国人口的绝大多数,农民问题不仅是二十世纪中国革命和建设的中心问题,也是二十一世纪中国全面建设小康社会、实现现代化的奋斗目标所必须解决的中心
随着信息时代的来临,以知识、信息和技术为核心的新的经济要素开始渗透到社会经济中的各个领域,并对新产业的形成和发展以及产业之间的相互关系产生了积极的作用,进而对世界产业