【摘 要】
:
互联网和移动互联网应用的快速发展带来了文本数据的爆炸式增长,使用人工方式分类和整理文本已经成为了不可能。如何在海量的文本数据中实现对文本的快速分类并应用于后续的
论文部分内容阅读
互联网和移动互联网应用的快速发展带来了文本数据的爆炸式增长,使用人工方式分类和整理文本已经成为了不可能。如何在海量的文本数据中实现对文本的快速分类并应用于后续的文章推荐、语义分析、信息检索、信息抽取和机器翻译一直是业界研究的热点。随着深度学习技术的不断发展,越来越多的学者将深度学习技术应用到自然语言领域中,也取得了非常不错的效果。但是,现有的算法往往无法准确的表达文本信息以及在深层网络时会出现网络退化问题。本文在分析已有文本分类算法基础上,主要研究工作如下:本文针对在文本分类中使用高维度的文本词向量在训练中难以收敛。对预处理后的文本语料使用word2vec算法进行预训练。将得到的向量化文本数据作为整个分类模型的输入,避免了出现维度灾难,也加快了模型的收敛。本文针对基于深度学习技术的文本分类算法中卷积神经网络(CNN)无法获取文本全局特征、双向循环神经网络(BiLSTM)无法聚焦文本局部特征的问题,本文将CNN与BiLSTM进行结合,在提取文本特征信息时,既可以通过CNN网络提取文本局部特征,又可以通过BiLSTM网络提取文本全局特征,解决了文本分类中特征提取问题。本文针对文本中不同单词对文本分类结果影响不一问题,本文在模型中引入了注意力机制,对输入信息计算其对分类结果产生影响的概率分布,通过概率分布有针对性地对输入的文本特征向量进行优化,获取对文本分类结果产生影响的重点单词特征。本文针对神经网络模型层数过深时,神经网络的退化问题,引入残差连接。保证了在深层次的网络中,深层的网络参数可以更新和学习。最后,为验证模型和算法的有效性,本文设计并实现了对比实验,实验结果表明,本文所提出的模型在4个语料库中的准确率、精确率、召回率等取得了预期效果。
其他文献
新三板市场是继主板市场、创业板市场后又一全国性的交易场所,其主要服务对象为创新型、创业型、成长型的中小微企业,这对于那些规模小、风险大、融资难但是具有较强发展前景
行人群组是指一群聚集在一起并沿相似路线行走的人的集合。事实上人们常常结伴而行,群组现象广泛地存在于各种社会活动之中。对于行人之间群组关系的分析能够帮助研究者理解人与人之间的互动模式,从而进一步地挖掘行人之间的社会关系并将其应用于各个领域。比如以行人群组信息为基础,商家可以为用户发送更加有针对性的促销信息。对于大型集会等社会活动,行人群组信息也为紧急疏散方案提供决策依据。随着智能手机的普及和发展,利
激光雷达测风作为超前一定时间裕度的来流风精准感知方式,已被证明在风能行业控制应用方面非常有益。因为激光雷达所测数据是沿激光雷达光束方向的视线风速,不是到达风轮面的
随着信息技术的发展,频发的各种信息泄露事件给人们正常的生产与生活造成了很大的干扰,人类对于信息系统的安全要求也越来越高。图像作为人与人之间传递信息的重要媒介,在应
无线通信是当今发展最快、应用最广的通信技术之一。然而,无线信道的开放特性和广播特性使无线通信面临严峻的安全问题。传统的加密机制在计算机计算能力大幅提高的情况下,己经不再绝对安全。基于无线信道的物理层密钥方案是解决无线通信安全问题的一个新的思路,它可以利用无线信道的互易性、时变性和唯一性等特点,实时动态地生成密钥,实现“一次一密”的加密体制。本文对时变信道场景下的物理层密钥方案进行研究,主要研究内容
无线通信技术的快速发展对无线设备的电池寿命和传输可靠性提出了更高的要求。一方面,射频能量收集技术,作为一种新兴的能量收集手段,能够有效解决低功耗无线通信系统中设备供能方式和电池寿命问题;另一方面,协作通信技术通过让用户间彼此共享天线形成虚拟MIMO系统,可对抗无线通信过程中的衰落问题并显著改善传输性能。基于射频能量收集的协作传输技术,因集成了两项技术的优势,近年来受到研究者的重视。多源单目标网络是
随着对互联网中的社会关系网络的研究热度不断提高,物理世界中的轨迹移动网络也得到越来越多的关注。如何挖掘不同用户在同一时间片段内轨迹移动的相似性,从中得到准确的轨迹
1986年,德国社会学家贝克出版了《风险社会》一书,书中开门见山地指出:当今人类社会生活在“文明的火山上”,由此首次提出风险社会理论。随后,受风险社会理论的启发,刑法学者
点阵材料零件是一种集高比强度、高比刚度与储能、吸能、隐身、阻尼、热控于一体的多功能轻质材料零件,且其内部开放贯通的空间为多功能器件的埋藏提供了条件,因而已经广泛应
器官芯片是以微流体芯片为核心技术在体外模拟人类器官单位功能的微型细胞培养装置,器官芯片可用于构建疾病模型,代替新药研发过程中的动物实验,行使强大的筛选功能等多种用