中文推送短消息文本分类技术研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户：gaolch013

【摘要】

：

【作者】

：

蔡九鸣

【出处】

：

西安电子科技大学

【发表日期】

：

2020年02期

【关键词】

：

文本分类 Spark 决策树 kNN Web系统

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着近年通信技术的大幅进步,以及智能手机功能的逐步完善与用户量的日益增多,移动互联网行业得以极速发展,并已广泛融入于大众生活中,从而产生大量的用户推送信息。这些推送信息可反映出相关行业的发展情况,然而其内容过于繁杂,难以进行管理。如何对这些信息进行有效过滤和整理,挖掘其中潜在价值成为一个亟需解决的问题。本文主要研究了针对中文推送短消息的自动分类问题,根据文本数据的特点实现并改进了分类算法。首先研究了文本预处理的相关技术,选用合适的分词方法,对某公司的推送短消息文本进行分词处理。完成分词处理以后,使用卡方校验的方式选择文本特征,将降维的文本转化为稀疏向量的形式。之后通过kNN算法对四种文本相似性计算方法进行实验对比,根据实验结果选择了余弦相似度大小作为分类过程中查找近邻点的依据。然后,分析了kNN和决策树两种常用分类算法的优势与不足。由于kNN算法计算繁琐,耗时较长,本文提出了一种结合决策树的改进kNN文本分类算法TREE-kNN。通过CART决策树,完成文本数据的预分类,评价每个叶子节点的分类效果。对于评价较低的节点中对应的样本,它的比较范围缩小为仅包含该叶子节点所覆盖类别下的子训练集,再对其使用改进的kNN算法进行分类。通过对训练集中样本空间的划分,缩小了kNN分类过程中与待分类样本比较的训练样本范围,减少了余弦相似度的计算次数,从而提高分类速度。为了解决k值较大情况下提速不明显的问题,本文引入了类中心法优化了近邻样本的查询过程。实验结果显示,TREE-kNN算法的分类速度与传统kNN算法相比有了明显提升,分类结果的正确率也得到了提高。最后,本文基于上述分类方法设计和实现了针对大批量推送短消息数据的文本挖掘系统,用于统计分类后的文本数量分布情况,并对统计数据进行可视化处理。借助Spark平台,以并行化方式实现了文本特征选择和文本向量化;将文本分词,文本分类过程拆分成多个数据分区并行执行,提高了任务执行效率。文本分类完成后,利用Spark统计交易类文本的条数的时间分布和电商物流类文本条数的空间分布情况,保存到数据库中。同时采用Web技术,将统计数据的查询方法封装到Dubbo服务中,由系统的控制器模块向数据查询服务发起请求,将返回的统计数据发送到前端,前端利用Echarts把传来的数据绘制成图的形式渲染到页面中。通过这种方式,清楚的展现出了推送短消息文本的时空分布规律。

其他文献

2006年锡市回顾及2007年锡市简析

全球经济的稳步发展,对原材料和运输等需求的增长,能源供应的进一步紧张,有色金属的供需间的繁荣和金属价格的强劲牛市,构成了2006年全球经济形势的主旋律。对有色金属原材料

期刊

电子信息产品加工材消费量有色金属价格无铅化

改进的随机森林模型在容器云任务分配中的应用研究

由于容器具有部署快,轻量化等特点,越来越多的互联网公司和制造业公司选择容器云作为部署平台,使得容器云在任务分配方面将面临更大的挑战。当容器云平台接收到大量任务请求

学位

容器云随机森林烟花算法任务分配负载均衡

丛枝菌根对植物抗性的影响研究进展

综述了国内外丛枝茵根影响宿主植物的抗旱性、耐盐性、抗低温性、抗重金属毒害及抗病虫害能力等方面的研究成果.同时提出了丛枝菌根真菌影响植物抗逆性研究领域值得深入研讨

期刊

丛枝菌根植物抗逆性进展

构建新一代油气管道智能完整性管理系统

油气长输管道已成为我国必不可少的能源动脉,其安全运行直接关系国计民生。油气管道完整性管理是保证管道有效运行的有效手段。近年来,物联网技术和大数据、人工智能技术快速

期刊

油气管道完整性管理物联网大数据人工智能

粉煤灰制备以泡沫陶瓷为骨架的中子屏蔽材料

中子屏蔽材料在核科学技术领域有举足轻重的地位。而目前常用的几种中子屏蔽材料存在着造价高,工艺复杂,力学性能不强等缺点。对此,本文提出一种成本低,耐高温,轻质化,耐腐蚀能力强,力学性能优异的以泡沫陶瓷为骨架的中子屏蔽材料,具体研究内容如下:本文通过对工艺废弃物粉煤灰再利用,制备以泡沫陶瓷为骨架的中子屏蔽材料。在粉煤灰中加入红柱石,氧化铝等通过前驱体聚氨酯浸渍法制备泡沫陶瓷,并对其物理性能、微观结构和

学位

中子屏蔽材料粉煤灰泡沫陶瓷前驱体聚氨酯浸渍法真空二次浸渍残余应力蒙特卡洛模拟

四大名著的另类解读之二《水浒传》里的环境百科

四大名著是中国乃至全人类共同拥有的宝贵文化遗产,是浏览中国古典文学的智能之海,也是阅历中国传统人文、社会、伦理、历史、地理等的知识之库。其内容包罗万象。让我们从环

期刊

《水浒传》四大名著宋江起义另类解读

德伊成为“国家时装面料研发基地”

在由中国棉纺(色)织行业协会主办的2009年全国色织布行业年会上,经专家评选,共选出纱线和色织布新产品“自主创新奖”18个,“创意设计奖”62个。这些评选出的新产品,代表了我

期刊

时装面料研发基地铜氨丝

秦岭火地塘林区不同土壤类型化学性质的研究

本文探讨了秦岭火地塘林区棕壤、暗棕壤及草甸土的化学性质。结果表明：不同土类在磁性淋溶过程、养分状况及化学性质方面存在明显差异。3种土类的酸性淋溶过程和物质迁移过程

期刊

秦岭土壤类型化学性质

烟台市售饮料及酒中16种邻苯二甲酸酯类污染水平调查

目的通过对烟台市售饮料及酒中邻苯二甲酸酯类物质(PAEs)含量的检测分析,了解烟台市售饮料及酒中16种PAEs的污染状况。方法按照GB/T 21911-2008,对烟台市售的190份酒和210份

期刊

饮料酒邻苯二甲酸酯类污染

高速列车头型设计方法研究

为保证我国高速列车头型设计的综合质量,提出一种高速列车头型设计方法。对高速列车头型设计的要点、设计策略和设计流程进行了论述。以3X型高速列车头型设计为例,对设计方法

期刊

工业设计高速列车头型设计人因仿真气动性能JACK

中文推送短消息文本分类技术研究与实现

其他学术论文