基于机器学习的自动文本分类研究

来源 :华东交通大学 | 被引量 : 0次 | 上传用户:ihuangda
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是自然语言处理技术之一,许多研究都与文本分类有关,例如新闻主题分类、问答系统分类和电影评论分类等。依靠人工进行文本分类,不仅耗时长且效率低下,利用计算机技术进行自动文本分类已成为热门研究方向。本文在研究自然语言处理技术和机器学习理论的基础上,对基于机器学习的自动文本分类方法进行了深入探讨,主要工作与取得的成果包括:第一,提出了基于权重预处理的TF-IDF-MP关键词提取算法。通过分析TF-IDF算法在进行特征词语选取及文本分类时的局限性,在TF-IDF算法中引入均值化词频与特征词位置权重因子等参数,具体根据特征词在单个文档中出现的次数与该特征词在语料库所有文档中出现的平均次数进行比较,采用改进后的Sigmoid函数调整特征词权值大小,并根据标注好词性的特征词将文章第一段和最后一段出现的名词的位置权重因子设为1.2,对TF-IDF算法进行改进,提取文档关键词。第二,提出了一种基于Bi LSTM-Att-CNN网络的文本分类模型。该模型基于第三章提出模型分词后去除停用词的实验数据,利用Bi LSTM获取文本全局特征,更好地挖掘词语上下文语义依赖,又利用卷积神经网络提取更深层次的局部特征,并在Bi LSTM的隐藏层添加Attention机制,根据特征词包含的语义信息和对文本分类的影响程度,分配不同的权重值提高文本分类准确率。最后,上述两种方法基于搜狗新闻数据集进行关键词提取和文本分类实验,均取得了较为理想的结果。
其他文献
数字图像相关法(Digital Image Correlation,DIC)是一种非接触的光学测量方法。因为其操作简便、全场测量、精度高等特点,在许多领域得到了广泛的应用,并解决了很多实际工程问题。然而随着科技的发展,对测量的要求越来越高,该方法也存在一些亟待解决的问题。例如对旋转物体的变形测量,应用传统的DIC方法会出现较大的误差,难以满足实际要求。针对此问题,本文提出一种改进的DIC算法,该方
比例边界法是一种半解析数值方法,在处理应力奇异性问题和无限域问题时十分有效。插值型无单元伽辽金比例边界法(Interpolating Element-Free Galerkin Scaled Boundary Method,简称IEFG-SBM)是在改进的插值型移动最小二乘法的框架下融合了无单元伽辽金法与比例边界法的优势。该方法在径向上保留了解析性质,计算时只需要在边界上离散节点信息,将空间维数降
论文针对生物三维(3D)打印技术中打印参数选择不便,以及现阶段生物打印工艺难以稳定、快速地使用等问题,开展了基于GelMA水凝胶的生物墨水打印工艺研究。通过研究生物墨水交联机理对形状可控性和性能可控性的影响,建立了“材料-形状-性能”之间的关系,从而对打印工艺参数的选择进行指导。首先,根据挤出式生物3D打印墨水的流变学测试结果,确定了挤出式生物3D打印墨水的打印温度参数及相关模量信息。并在此基础上
随着新型产业的迅速发展,无时无刻不都在产生与积累大量数字信息,聚类分析作为数据挖掘的重要工具,目的就是从无标签数据集中获取数据内部潜在规律,这使得其成为互联网时代从海量数据中获取对人类发展有价值的信息的重要技术。k-means算法是聚类分析领域的热门算法之一,有着简单快捷、实用性高和伸缩性强等优点,在文件处理、传染病、市场监管等多领域广泛应用。由于k-means算法选取聚类数目k值跟初始值的随机性
核工业废水中含有大量的放射性核素,若不经适当的处理而进入水体,将对生态环境造成严重威胁。此外,通过水介质溶解的放射性核素可能被微生物、藻类、浮游生物、植物或农作物吸收,进而通过食物链积累和转移,给人类健康带来难以估计的严重影响。铀(U)作为一种典型的核燃料,广泛用于各大核工业生产。U(VI)在水中的溶解度较高,一旦进入人体会破坏生物组织甚至导致死亡。另一方面,Cs是U裂变过程的副产物,同样广泛存在
高铁是社会经济的动脉,牵动着社会及国家的经济发展,是运输系统的枢纽。它在人们生活乃至国家经济发展中扮演着至关重要的角色。因此,对于我国高速铁路的相关研究就尤为重要。我国经济实力的壮大,各行各业也跃然奋起,高铁的建设便是其中一大标志,它发展迅速,并且规模日益扩大。但如果与各国相比,我国高速铁路的建设还在努力发展,对项目管理的效率、思想及技术也不够。高铁作为国内大型的项目,对设计标准要求十分严格、施工
随着计算机视觉,惯性导航和多传感器融合技术的发展,利用视觉惯性同时定位与地图构建(Simultaneous Localization and Mapping,SLAM)算法解决在非结构化的场景中,GPS信号弱的观测条件下,机器人定位与位姿估计问题,逐渐成为了SLAM领域的热点研究方向。视觉惯性SLAM性能会受到场景纹理特征,光照变化,载体运动速度与传感器噪声的影响。为了减小上述因素对位姿测量结果的
有限土体基坑工程是一种常见的复杂边界情况下的基坑工程。目前对有限土体基坑支护结构受力变形特性研究尚不完善。本文从实际基坑工程出发,在试验研究砂土密实度与强度指标关系基础上,设计了3种不同土体密实度的有限土体基坑模型实验,建立了5种不同密实度的数值模型。系统地开展了不同砂土密实度对有限土体基坑支护结构的影响研究,初步得出如下结论:试验用砂内聚力在低密实度时为0,超过一定值之后与密实度呈正相关,而内摩
当前我国公路、铁路和城市轨道交通正处于并将持续处于快速发展阶段,路网密度逐年增大,在公路、铁路和城市轨道交通线路规划中都不可避免地面临线路交叉的问题。转体桥因安全、快捷、能最大限度降低对既有线的干扰而被广泛应用于立体交叉交通线路建设中。承台作为转体施工桥梁的关键受力构件,对桥梁施工阶段和正常使用阶段的安全受力都起着至关重要的作用。随着桥梁转体技术的发展,转体桥的吨位与跨径不断突破记录,对承台的设计
近年来,随着国家“西部大开发”和“一带一路”的逐步推进,西部地区的基础设施建设规模不断扩大,需要修建大量铁路桥和公路桥。我国西部盐渍土地区的土壤和地下水中含有大量的强腐蚀性盐类介质,而桥梁墩柱作为主要的承重和抗侧力构件,下部直接与盐渍土接触,其耐久性直接关系到桥梁结构的安全和使用寿命。传统钢筋混凝土结构在腐蚀性盐类和恶劣气候共同作用下腐蚀十分严重。而且,西部盐渍土地区大多属于抗震设防区。因此,墩柱