基于深度学习的新闻文本分类研究

来源 :安徽理工大学 | 被引量 : 1次 | 上传用户:soloviola
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅猛发展,网络已经成为人们获取信息的重要平台。近年来互联网用户逐日剧增,网络中的新闻文本数量呈现出爆炸式的增长趋势,如何对这些海量的新闻文本进行高效的分类和管理,已经成为了当下热门研究课题之一,由于网络新闻文本表达形式多种多样,文本结构不规范,文本内容参差不齐,无形之中增加了文本分类的难度。因此,需要一种高效的文本分类算法对海量的文本进行分类和整理,从中挖掘出有价值的信息。在机器学习基础上延伸而来的深度学习,其独特的非线性计算能力,能够很好的刻画文本数据的特征,对文本数据进行高效的处理,本文提出一种基于改进的卷积神经网络新闻文本分类模型框架。论文完成的主要工作如下:(1)针对word2vec词向量模型只获取词的局部上下文语义信息而缺乏整体语义信息的缺陷,本文提出将word2vec词向量与LDA主题模型相结合的方式对文本进行表示。使用word2vec词向量的Skip-gram模型对文本进行训练,将文本映射到低维且稠密的向量空间中,然后计算各个词向量之间的余弦相似度距离并以此来衡量词的语义关联性。在计算词向量权重时加入词性权重因子对词向量权重计算公式进行改进,以此为重要的词赋予较大的权重值。实验表明,改进的特征表示方法能够获取文本浅层语义的词向量。(2)在传统卷积神经网络的卷积层引入多层感知器,提高卷积计算能力,获取质量较高的特征。首先将得到的融合特征表示作为模型的输入,利用多层感知器的卷积层获取关键特征,接着利用池化层的池化操作对特征数据进行降维和筛选,最后将获取到的质量较高的特征通过全连接层进行连接并利用Softmax进行分类。实验分类结果表明,本论文设计模型的准确度为92.4%、召回率为91.9%、F1值为92.2%,分类效果良好,说明本论文改进后的模型能够较好地提升文本分类的效率。图[24]表[12]参[55]
其他文献
利用遥感影像进行房屋的识别是目前遥感图像识别的热点,随着我国高分专项的实施,高分数据源成为我国遥感数据的一个重要数据源。高分二号卫星是我国首颗亚米级分辨率卫星,高分二号遥感影像具有较高的空间分辨率被广泛的应用于地物的识别,如何高效识别高分二号影像中的房屋,获取高分二号影像中的信息具有现实意义。近年来深度学习算法在视频和图像识别领域取得了较大成功,本文利用深度学习模型识别高分二号遥感影像中的房屋并统
近年来,金融市场不断发展,各类金融理财产品也日益丰富。而在金融产品销售领域,销售机构不充分披露风险、作不适当推介,由此造成投资者损失的现象并不鲜见,对于违反适当性义务的法律责任承担问题也一直是金融法律领域讨论的热点。由于适当性义务在我国发展并不成熟,法院在审理涉及适当性诉讼时如何认定违反适当性义务的民事责任性质、如何判定因果关系及赔偿数额问题仍存在较大争议。这也是本文所要探讨的主要问题。第一部分首
随着水下无人潜航器(Unmanned Underwater Vehicle,UUV)隐蔽性和机动能力的不断提升,多UUV在环境复杂、任务多变的海底作业中承担着越来越重要的使命,多UUV协同合围问题是多UUV系统协同作业的核心技术之一。本文的研究重点是针对不同速度性能的目标,采取不同的合围策略对目标实施合围,其主要研究内容如下:首先,在多UUV执行合围水下目标的使命任务前,需要获得水下目标的运动要素
近年来,随着改革开放的深入,新农村建设的不断加速,安徽省大力发展农村经济,持续推进农业现代化改革,逐步实现了道路整洁、环境优美、乡风文明的现代化新农村的战略目标,从根
随着科学技术的发展和网络信息化时代的到来,我国电商企业在短时间内得到井喷式发展,数量不断增加,规模不断扩大,但同时也显露出商业模式、竞争优势、法律保障等多方面的问题,亟待进行管理创新。如何创新,创新的驱动因素是什么,这是当前所有电商企业面临的问题,只有解决好这些问题,我国的电商企业才能够在激烈的竞争中生存和发展。本文在梳理前人研究成果的基础上,分析中国电商企业的发展现状及存在问题,将电商企业管理创
在“中国制造2025”战略和“工业4.0”时代的背景下,移动机器人在各行各业中扮演着重要角色,成为智能制造行业中的一个热点问题。针对目前移动机器人的动力系统主要采用传动系统,如链条传动、皮带传动等,其具有机械结构复杂、能量利用率低、底盘占用空间较大等缺点,本文设计了一种基于轮毂电机的移动机器人。首先,根据移动机器人实际工作环境,提出了功能需求并制作了性能指标参数表。接着,根据移动机器人的轮子数目,
近年来风力发电作为一种清洁能源,已成为电力能源的重要组成部分。但由于风力发电具有波动性和不确定性,会导致大规模的弃风电量增加,平均利用小时数下降,这不仅影响电力系统发电的调度,还会造成大量的资源浪费。引进储能系统,不仅能够解决大规模风电电力系统调度压力问题,而且由于储能电池具有快速响应的特征,使其在参与电力系统调频方面也具有突出优势。目前制约储能系统参与电力系统调频发展的主要障碍是储能系统配置容量
近年来参数化设计发展迅速,其储存设计过程缩短设计周期的特性迎合了快速更新换代的市场。目前装配体几何量参数化设计的研究主要集中在利用二次开发工具将某一装配体中的零件参数化和建立装配体零件的数据库与调用数据完成设计两方面,而针对整个装配体中零件尺寸模型来进行参数化设计的研究较少。装配体中存在复杂的尺寸联系,理清尺寸之间关系是进行尺寸驱动参数化的前提。为此,学者们利用“图论”、“树”等理论对尺寸关系和零
共享单车逐渐替代了公共自行车解决公共交通“最后一公里”的问题,在一定程度上改变了人们的出行方式,但单车租赁地点的管理过于松散,人员流动高峰时段的车辆扎堆问题容易造成交通拥堵,对单车资源管理产生了严重的影响。因此,提高对共享单车的资源分配尤为重要。目前主要采用的缓解方法是规划停放点和单车调度管理,而用户停放意识并不完善,单车调度人力资源需求过高,不能从根本上解决停放点拥堵的问题。随着助力车行业的推出
在石墨烯基础上发展起来的单原子层(少层)二维纳米材料因其优异性能而成为当今研究前沿。二维材料具有完全不同的能带结构及奇特的物理性质,因而在高性能电子器件、光电子器件、能源转换和存储等领域具有重要应用潜力。二维硫族材料、二维过渡金属硫化物是当前重点关注的研究体系,其奇异的电学、热学、光学、压电、热电、光电等物理效应与其多场调控及耦合功能效应关联密切,迅速开展该类材料纳米结构及物性调控研究,对于其制备