【摘 要】
:
互联网和大数据行业蓬勃发展,新闻已经成为人们了解社会动态、获取社会信息资源的重要手段之一。新闻文本分类有助于新闻信息的管理、新闻秩序的实现和新闻数据的挖掘,对节省人力资源和高效获取有价值的新闻信息具有重要意义。然而,目前新闻文本分类研究以英文居多,中文的新闻文本分类较少和相关语料库欠缺。而且常用的传统机器学习方法在长文本处理方面,存在文本特征提取不完善等问题。深度学习的出现进一步突破了机器学习面临
【基金项目】
:
北京建筑大学研究生创新项目——基于深度学习的新闻文本分类与音乐推荐方法研究; 国家重点研发计划项目; 教育部产学合作协同育人项目;
论文部分内容阅读
互联网和大数据行业蓬勃发展,新闻已经成为人们了解社会动态、获取社会信息资源的重要手段之一。新闻文本分类有助于新闻信息的管理、新闻秩序的实现和新闻数据的挖掘,对节省人力资源和高效获取有价值的新闻信息具有重要意义。然而,目前新闻文本分类研究以英文居多,中文的新闻文本分类较少和相关语料库欠缺。而且常用的传统机器学习方法在长文本处理方面,存在文本特征提取不完善等问题。深度学习的出现进一步突破了机器学习面临的瓶颈,给文本分类领域带来了重大机遇,为此本文将深度学习算法引入新闻文本分类研究领域,开展了基于深度学习的新闻文本分类方法研究与应用。具体工作为:首先,在文本表示方面,针对中文的新闻文本分类较少和相关语料库欠缺的问题,根据构造的数据索引,本文设计采用权重抽取和词频统计的方法,制作了适合中文长文本分类的词汇表,并采用One-hot和Word2Vec工具将文本数据词向量嵌入表示,为文本特征的输入和提取提供了便利的词向量映射。其次,本文提出了中文新闻文本分类的技术框架,并在深度学习模型门控循环单元和卷积神经网络的基础上进行改进,分别提出并实现了分层双向-GRU分类算法和组合-CNN分类算法。分层双向-GRU分类算法通过正序和逆序双向通道和多层隐藏层信息传递的方式,实现了对长文本前后信息的有效记忆。组合-CNN分类算法通过分别卷积池化再组合的方式,使文本块局部特征提取更加全面。实验结果表明,分层双向-GRU和组合-CNN分类算法提高了中文新闻文本分类的准确性,精确率分别达到93.20%和93.69%,优于对比的传统机器学习算法和深度学习算法。对数据集均衡化处理后,改进的分类算法进一步取得了更好的分类结果,精确率分别高达95.80%和95.57%,召回率和F值两项指标也取得了很好的结果。再次,为防止机器学习模型和深度学习模型训练中遇到过拟合、梯度消失和梯度爆炸等问题,本文在模型中设计了有效的模型正则化和RAdam优化算法。正则化方法获取了合适的模型迭代轮次,并引入Dropout层减轻过拟合现象。优化算法通过实验效果对比,采用了新兴的RAdam优化算法,以自适应学习率的方式优化模型训练。最后,在实现新闻文本自动分类的基础上,将分层双向-GRU和组合-CNN分类算法应用于新闻分类个性化推荐系统,设计并开发了可视化的新闻界面。系统采用微信小程序作为实现平台,建立了新闻阅读与音乐推荐相结合的应用。该应用系统解决了海量新闻数据造成的信息过载问题,满足了人们在新闻阅读时听音乐的习惯需求。综上所述,通过理论研究与实验分析表明,本文研究工作对新闻文本分类效果提升显著,具有极其重大的经济价值和社会效益。
其他文献
开发海洋油气的过程中,对双相不锈钢制备的开采设备的耐高温能力和在腐蚀环境恶劣的情况下的耐腐蚀性能的要求越来越高。本论文采用不同含量的稀土La和Cu来处理试验钢(S32205双相不锈钢),经过热处理后进行了浸泡腐蚀实验和动电位阳极极化实验,并采用扫描电镜(SEM)与扫描电镜能谱(EDS)、透射电子显微镜(TEM)与透射电镜能谱(EDS)相结合的试验方法对双相不锈钢中夹杂物以及夹杂物与钢基体的交界处进
本研究针对自动驾驶和机器人领域中,汽车或机器人对大场景中小目标的高效和精确感知问题展开研究,在分析和总结现有方法的基础上,基于Point-Voxel CNN网络,研究点云相关性优化方法,提出一种新的三维特征提取网络PVSCNN(Point-Voxel Submanifold Sparse Convolution),使用子流稀疏卷积实现高效和深层地提取局部信息,以提高场景点云之间的相关性,从而达到提
随着交通行业覆盖领域不断扩展,安全生产事故内容日益复杂,而交通行业安全生产事故数据多以文本的形式存储,价值量高但价值密度低,单靠传统运动式、人工式的监管方式,很难实现风险的预见和防范。如何通过信息化技术有效的管理文本类的交通行业安全生产事故数据,对交通行业安全生产事故进行科学的分析,成为目前研究领域内的热点问题。针对以上问题,本文设计并实现了一种基于词向量的文本数据处理方法,通过关键词分类及知识抽
随着物质的极大丰富,社会科技进入高速发展时代,人们的生活水平也在不断提高,促使人工智能的相关领域研究飞速前进。机器人已经进入到我们生活中的各个领域,在室外,机器人可以代替人类进入危险、狭小等人类难以到达的位置进行搜救、探查等专业工作;在室内,机器人的普及,为人类生活的提供了方便,机器人可以实现货物搬运、医疗护理、大型区域指引等功能。但是,随着机器人技术的不断发展,机器人所工作的环境也变得越来越复杂
地震作为主要自然灾害之一,造成了大量人员伤亡及财产损失。我国是地震多发的国家,在2008年汶川大地震及之后的玉树地震中均出现了大量梁式桥的倒塌与破坏,有关此类桥梁抗震能力的提升得到关注。隔震技术从上世纪60年代起逐步应用于工程并已发展为减震控制领域最成熟的技术手段之一,其原理是在桥梁的上、下部结构中间设置隔震装置以提高桥梁结构的抗震能力。其中,叠层钢板橡胶支座、铅芯橡胶支座等因其成熟的制作工艺、稳
将三维建筑绕流简化为二维圆/方柱绕流,不考虑端部效应,研究二维建筑流场尾流涡街及颗粒运动情形。通过大涡模拟(Large Eddy Simulation,LES)方法对雷诺数(Reynolds number,Re数)在100至700范围内的顺排多柱体形成的分离漩涡结构以及颗粒的流动、分布和沉积进行了模拟和计算。以三维方腔充分发展层流速度解析解,求解并定义二维方腔充分发展层流入口速度自定义函数(Use
传统的园林绿地管理中,获取数据信息是缓慢的,发现问题时又不能及时解决,为了实现精细化管理,引入物联网技术,故在园林绿地中埋入大量的传感器设备以采集相关数据,这让园林绿地中产生的数据呈爆发式增长,从数据中获取信息的速度发生质的改变,大量的数据往往数据类型不一,且人们以数据为基础,根据使用目的构建了不同平台或系统来对数据进行操作,获取所需要的信息。这些不同的数据类型和系统,根据使用目的不同或因各操作人
互联网和多功能移动设备的普及对于移动对象数据的获取提供了更多的方案,数据类型和数据量都更加丰富。社交媒体数据从多个角度记录了个体在真实世界的活动行为和移动轨迹,并且随着传感器精度的提高,数据也更加真实权威。基于位置的社交网络服务平台微博、微信、Four Square、Twitter等,每天有许多用户在这些平台分享动态,包含了时间、位置和其他以图片、视频、文本形式存在的信息。这些信息直接或间接的体现
辐射空调具有热舒适性高、适用于高温冷水工况的优点,但既有辐射末端存在单位面积供冷能力低、易凝露的问题。为提高辐射末端的供冷能力和防凝露能力,本文提出一种新型对流强化型管板式辐射换热器。本文通过实验和模拟的方法研究了影响该对流强化型辐射换热器供冷性能的关键因素以及采用该对流强化型辐射换热器时的室内热环境与热舒适性。本文主要工作内容如下:设计并搭建了新型对流强化型管板式辐射换热器供冷性能实验台,研究换