基于关键词的文本主题分类的研究与设计

来源 :北京邮电大学 | 被引量 : 3次 | 上传用户:chenyikg21
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近现代以来,随着网络通信技术的不断发展,互联网也渐渐走进人们的生活。互联网上文本包括科技文献等信息的规模呈一个爆炸性指数增长的趋势。文本自动分类技术在文本分析处理领域也变得越来越重要。如何快速准确的对文本分类已成为一个十分重要的研究课题。由于传统文本分类方法在大数据量文本分类过程中出现分类效率低下及分类效果差的不足,本文提出了基于关键词的文本主题分类算法。通过特定算法获取文本主题关键词,根据主题关键词对文本进行分类,有效地提高了海量文本分类的准确度;通过在文本分类算法中引入并行化思想来提高海量文本分类的效率。本文的主要工作如下所示:1、研究了传统文本分类方法的现状及在大数据背景下出现的缺点和不足,介绍了基于关键词的文本主题分类算法的特点和优势,简要分析了文本分类方法中数据采集与存储、文本主题关键词选取和文本主题分类等相关算法和技术。2、设计了基于关键词的文本主题分类的系统模型。本文结合传统分类方法与技术,详细分析了传统文本分类过程中产生的特征词,找出了文本主题关键词。该模型通过对特征词进行文本主题关键词选取,并使用这些主题关键词进行文本主题分类,提高了文本分类的准确率。由于需要处理的数据规模比较庞大,在算法原型系统中引入了并行化处理思想,通过分布式框架对数据进行并行化操作,加快文本分类数据处理过程,提高了文本分类的运行效率。3、实现了基于关键词的文本主题分类算法原型系统。该算法原型系统选取主题关键词进行文本主题分类,使用Hadoop MapReduce框架并行处理文本分类数据。通过对系统的相应运行效率和分类效果进行评估得出,本文提出的主题分类算法有着较高的运行效率和良好的分类效果。该算法原型系统已应用于某研究所的科研工作之中。
其他文献
本文主要针对在框架结构钢筋工程建筑施工中因施工措施不当或操作不注意而造成的工程质量隐患进行了分析,并给出相关的解决意见。
国际交流生项目是利用国外优质教育资源、拓展学生国际视野的有效措施,许多高校也都把国际化的思想素质作为衡量学生综合素质的重要内容,国际交流生项目成为教育国际化的重要
<正> 我国山羊绒在国际市场上占有重要地位,是我国出口物资的拳头商品。随着国际贸易的发展和中外合资经营的羊绒衫厂的建立,国内外对山羊绒的需要量越来越大,对山羊绒的质量
<正>如同很多人希望长命百岁一样,每个企业都希望能成为长寿企业。企业可持续发展不仅是当代企业的基本追求,是企业战略关注的焦点,也是企业家向往的目标。在对企业生命的研
<正>就如每一个人都希望长命百岁、长生不老一样,每一个企业也都希望能成为长寿企业,或称为百年企业、百年老店、永续企业、持续经营的企业、持续发展的企业。企业长寿不仅是
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
本文通过文献资料法、数量统计法与逻辑分析法,对21世纪以来体育核心期刊中发表的跳远运动论文进行分析,探究近些年我国跳远运动研究现状及热点分析。结果:从2000年至2017年,
针对亚轨道可重复使用运载器(SRLV)的应用需求,在将卫星投送到预定轨道同时确保SRLV安全返回的前提下,对基于记忆原理的轨迹/总体参数一体化优化方法进行了研究。记忆优化算
<正> 盖县绒山羊是盖县一带群众在长期养羊实践中精心培育出来的,是我国产绒量最高的优良山羊品种。现约有1万余只,集中分布在盖县畜收场、杨运、九寨、罗屯等东部和南部十几
电子秤倾斜带来的示值误差是电子秤检定和使用中不可忽视的问题,它直接影响检定结论和称量结果的准确。引起电子秤倾斜的原因有多种,本文结合一些电子秤生产状况进行探讨。