基于多尺度CNN与LSTM混合模型的中文新闻分类研究

来源 :青岛理工大学 | 被引量 : 0次 | 上传用户:danan1414
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临与信息技术的飞速发展,各种新媒体已经成为信息传播的重要手段,新闻作为信息的载体也呈现出爆炸性的增长。作为深度学习中的一个十分热门研究方向,文本分类一直被广大科研工作者关注。如何高准确率的对海量的文本进行智能分类,提取其中的有效信息为人所用,是目前研究文本分类的主要任务和目的。与基于机器学习的分类方法的诸多限制不同,基于深度学习的文本分类模型通过神经网络,更能提取数据的特征,提高文本分类的精确度。在深度学习中,目前常用于文本分类任务的成熟框架主要有的卷积神经网络(Convolutional Neural Networks,CNN)和循环神经网络(Recurrent Neural Network,RNN)两种,目前大多数框架都是在这二者基础上提出来的。本文提出了一种基于卷积神经网络和长短时记忆网络(Long Shortterm Memory Networks,LSTM)的混合模型,对文本分类中数据清洗,特征提取,基于深度学习的分类模型进行了改进。本文的主要工作和创新如下:(1)介绍了文本分类的研究背景和意义,分析了循环神经网络和卷积神经网络的研究现状与文本分类的相关理论技术,重点剖析了现如今文本分类中特征选择的方法:DF、CHI、MI、IG,权重计算方法:布尔权重、TF-IDF,为研究优化文本特征提取的问题上打下了基础。(2)文本中特征提取对文本分类的结果影响至关重要。本文提出了一种新的提取文本特征的流程。我们的新闻数据经过去停用词和分词处理后,采用TF-IDF计算每个词的权重后乘以该词的词向量,然后输入到Skip-gram模型,降低词向量的维度,并使其具备语义信息,最后使用TF-IDF-CHI判断某个词汇与其所属类别的相关性的大小。此时所获得的词向量为低纬度,具有不同重要程度的特征向量,对文本分类的精确度有着至关重要的影响。(3)文中提出了一种多尺度CNN与LSTM混合模型来处理文本分类任务,CNN的优势在于可以通过卷积操作获取数据的局部特征,不同尺度的CNN可以捕捉不同的文本特征,卷积层数较高的一层通过特征重用的方式缓解卷积过程可能会丢失重要特征的问题。LSTM作为RNN的一个变型,解决了RNN梯度爆炸或梯度消失的问题,可以较好地处理文本数据上下文的依赖关系。将多尺度CNN得到的特征向量和LSTM模型训练的特征向量通过Merge层融合,新的特征向量兼具两个模型的优点,不仅具有很高的特征,还包含了文本数据中上下文隐含信息,最后通过softmax函数分类,从而取得更好的分类效果。
其他文献
随着社会结构改变、科技不断进步、城市迅速扩张、资源枯竭、对环境愈发重视等现象的出现,“从蒸汽机为代表的工业化跨越到计算机技术为代表的信息化,从简陋的工业文明跨越到精致的后工业文明,从嘈杂的城市化文明跨入清新的城市世界”,其本质上体现出深层次问题,即原本的工业生产活动用地开始被不断扩张的城市所包围,生产过程中产生的废弃物对城市环境破坏愈加严重,部分工厂企业开始向外搬迁,也有部分产业随着科技发展有些逐
操作系统(OS)识别工具对于渗透测试的侦察阶段至关重要。传统上的操作系统识别是使用基于指纹数据库的主动或被动工具进行的操作系统识别,鲜有专注于使用机器学习技术进行的识别方法。同时,这些工具多适用于IPv4网络,随着IPv6网络的发展,亟需一种适用于IPv6网络的操作系统识别工具或方法。本论文采用了两种方法来提供准确的操作系统识别,一种是具有独特投票系统的基于神经网络集成的方法,该方法使用了一种多层
活性炭(Activated Carbons,ACs)巨大的比表面积以及丰富的孔隙结构使其具有良好的吸附性能,能够极好的除臭、脱色和去除有机污染物等。ACs具有强大的吸附能力,但当达到吸附上限时,将无法继续发挥吸附作用,此时的ACs达到饱和,需对饱和的ACs进行处置。其中ACs的再生能够将饱和ACs吸附的污染物进行有效脱除,恢复其吸附能力,实现ACs的循环利用,因此对新型活性炭再生技术的开发满足绿色
近年来,应用数学,物理,力学等多个应用学科普遍存在边值问题.随着实际问题的需要和非线性泛函分析理论的完善,在最近几十年来不断涌现出新的有关非线性边值问题的理论成果,进一步为其他领域的非线性常微分方程边值问题的研究指明了方向,其中高阶非线性常微分方程边值问题与导弹飞行的稳定性研究,桥梁工程等实际问题建立的数学模型有着密切的关联.因此,探索非线性常微分方程边值问题的解的存在性和多重性成为了人们研究的重
分数阶导数(FD)是对普通导数的推广,为人们研究更为复杂的系统和现象提供了方法.二十世纪的后半段,FD在力学,图像处理等领域得到了广泛的应用.但其无法摆脱对固定点的依赖,记忆依赖的区间长度会随着时间的增加而增加,从而使其记忆效应失效.而且其核函数的形式是固定不变的,不能根据实际情况进行选择.因此在此基础之上,Wang等人提出了记忆依赖型导数(MDD),现广泛应用于广义热粘弹性等方面.相较于FD而言
在过去的几十年里,中国相继实施了“社会主义新农村建设”、“美丽乡村建设”、“乡村振兴战略”等一系列农村建设发展战略,如今中国农村地区的建筑面貌已焕然一新,也必然继续向前发展。但农村住宅发展到今天,建设时期没有考虑到的室内热环境问题愈发严重,一些夏季较为炎热的南方地区,过热的室内环境引发了健康、能源、环境等一系列问题,所以本课题以滁州地区农村住宅为研究对象,对其夏季室内热环境进行了深入研究,主要分为
随着中国城市化进程和居民生活水平提高,建筑的健康性能成为全民健康的基础条件。人口老龄化引发的居民疾病谱的变化,越发凸显医疗建筑作为卫生健康事业物质载体的重要性。因此,医疗建筑的健康性能,作为常规医疗手段的有效补充,得到了广泛关注。而目前绿色医院理论及评价体系仍基于“四节一环保”理念,相较于当前社会发展需求和医疗建筑设计实践水平,明显存在滞后性,不能满足对绿色医院理念的深层次发展需求。本研究目标在于
机械臂的路径规划作为机器人学中最重要的研究课题之一,具有重要的研究价值。科学合理的规划轨迹是保证机械臂正常高效作业的前提。随着工业发展过程中对于机械臂自动化和智能化要求的不断提升,原有的路径规划算法已经无法满足要求。为了提高机械臂的工作效率,同时保证机械臂可以平稳安全的完成工作任务,研究新的路径规划算法就变得十分重要。六自由度机械臂是制造业中应用最广泛的机器人之一,它具有操作灵活、工作可靠、编程自
轮胎单独热解普遍存在产物品质低、轮胎裂解油重质组分含量高、催化剂积碳严重等问题,废旧轮胎的催化热解和共热解技术一直是轮胎热解领域的研究热点。本文将废旧轮胎与机油共混裂解,以提高胶粉裂解过程中挥发分的释放速率,并通过与催化体系尺度匹配与络合调控提高裂解油催化反应的选择性与转化率,强化裂解过程中的加氢、聚合等二次反应,提高液态产物中回收价值高的组分,进而提高轮胎裂解技术的经济效益与适用性。首先,本文选
随着建筑市场的持续发展,建筑设计要求的提高以及技术熟练的建筑工人数量短缺和人工费的持续上涨,提高建筑施工劳动生产率的重要性逐步得到了广泛的认同和重视。提高劳动生产率最有效的方法是保证施工计划的可靠性。即确保每个工作班组计划完成的施工任务按时完成,从而后续班组可以按计划开始。以此提高每个班组的计划可靠性和生产率,从而提高整个项目的计划可靠性和生产率。为了达到这一目的,施工管理者通常要花费大量的工作时