基于Albert和CNN的中文文本分类研究

来源 :江苏科技大学 | 被引量 : 0次 | 上传用户:efox_5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是自然语言处理(NLP)领域的一个主要的应用分支,在各种现实场景中具有很重要的实际应用价值。文本分类分为单标签文本分类和多标签文本分类,其中单标签文本分类是指有且只有一个标签属于这个待预测的文本数据;多标签文本分类是指待预测的文本数据对应两个或两个以上的标签,且多个标签之间不相互排斥。多标签文本分类可以更好的表示文本数据所代表的主要特征,更符合实际生活中的应用需求。本文围绕多标签文本分类存在的文本特征提取和标签相关性问题,提出了中文多标签文本分类算法模型。(1)本文针对word2vec、Glove等特征提取模型不能解决一词多义的问题,提出引入Albert模型解决一词多义以及长距离的语义依赖问题;同时考虑到文本数据中不同词出现的频次对文本数据的影响,本文使用TF-IDF算法抽取文本数据中权重最高的K个词构建关键词表,将关键词表与Albert生成的词向量进行向量拼接,构成一个融合关键词信息的多义词向量。在传统的TextCNN基础上,根据中文语言特点,通过改进卷积核的窗口大小来提取文本数据的深层局部特征。最后通过实验验证了改进模型的有效性。(2)在对中文文本进行多标签分类时,待预测的标签和已经预测出的标签之间往往存在相关性。本文提出以seq2seq架构作为基础,将上文改进的词向量作为词嵌入层,改进的TextCNN作为编码器提取文本数据的深层局部特征,得到具有深层语义的向量。为了利用标签的相关性,本文使用改进的LSTM作为解码器,根据文本数据上下文的关联性,通过之前预测的标签来影响当前的标签预测,顺序的生成标签序列。实验证明得到了较好的分类效果。(3)本文设计了一个中文新闻多标签文本分类系统。用户输入待分类的中文新闻数据,数据首先经过文本预处理模块,然后将经过处理的数据传输给已经被训练好的多标签文本分类器进行中文新闻多标签文本分类,让用户在发布新闻文本时打上被预测出来的标签,方便人们查阅。
其他文献
在天线设计领域,输入和输出之间大都是复杂的非线性关系,计算成本昂贵,即使运用全波电磁仿真软件优化,如HFSS(High Frequency Structure Simulator)、CST(Computer Simulation Technology)等,也会耗费大量的时间和精力,约束了发展。为缓解此类问题,使用代理模型代替全波电磁仿真软件,再将建立好的代理模型作为全局优化算法适应度函数进行迭代寻
学位
大型邮轮是高端旅游休闲项目,在安全性、舒适性及节能环保方面的要求比普通船舶更加严苛。安装多孔吸声材料是有效抑制噪声的手段。本文以聚氨酯泡沫材料为例,主要分析了多孔吸声材料的声学特性,并且对三层聚氨酯泡沫的孔隙率进行优化,将其应用于大型邮轮的居住舱室中。论文的主要内容包括:首先,对多孔材料的声学特征参数进行表征。对材料的孔隙率和流阻率进行测量,得到实测值。运用传递函数法对多孔材料的吸声系数进行测量,
学位
为了加强火工品仓库的安全防护,实现对库内环境数据的实时监测,设计了基于MQTT和微信小程序的火工品仓库环境监测系统。该系统以STM32为控制单元,MQTT协议进行数据的推送与交互。用户可通过微信小程序将控制指令推送至STM32,对火工品仓库环境进行远程控制与数据实时监测,系统也可根据数据情况进行自发控制调整。测试结果表明,该系统具有稳定性强、安全性高、数据传输准确的优点,满足实际应用需求。
期刊
超级电容器作为一种功率密度高、循环寿命长的新型储能器件,其性能很大程度上依赖性质优异的电极材料,因此探究具有优良特性的电极材料一直是该领域的研究热点。过渡金属氧化物具有多种氧化价态,用作储能器件的电极时往往以法拉第反应为主,在界面处储存电荷,进而实现较高能量存贮。CoMoO4是一种双金属氧化物半导体,在催化和电极材料中具有潜在的应用。因制备工艺的不同,CoMoO4具有不同的形貌,用于超级电容器电极
学位
随着全球邮轮行业的快速发展,我国邮轮产业迎来巨大机遇,邮轮的主尺度参数也在发展中不断增加。由于邮轮结构的设计特点,高层连续甲板和舷侧外板中存在特殊开口结构,这些开口形式使得船体连续结构中断,开口角隅处容易产生应力集中现象,进而对邮轮结构造成破坏。本文基于某大型豪华邮轮进行全船结构强度分析和疲劳寿命评估方面的研究。在大型邮轮实际航行过程中,特殊异形结构会在波浪交变应力的影响下更易产生疲劳损坏。由于高
学位
海洋是国家利益竞技的角斗场,我国作为世界上首屈一指的海洋大国,拥有丰富的海洋资源。十八大首次系统提出海洋强国战略,随着国家对海洋开发的战略布局,海上工程项目陡然增加,使在海上施工的大型打桩船迎来飞速的发展,桩架系统作为打桩船的重要组成部分,前景十分广阔。本文针对大型打桩船桩架系统的设计与分析研究,为打桩船的发展提供重要的理论意义。论文主要研究工作如下:(1)研究海上打桩船的海上作业需求,分析桩架的
学位
随着信息科技的发展,工业生产对于控制系统的要求越来越高,致使网络化串级控制系统(networked cascade control systems,NCCSs)的研究成果不胜枚举。广义网络化串级控制系统(singular networked cascade control systems,SNCCSs)是指被控对象是广义系统模型,它一经提出,就受到了许多学者的关注,所研究的成果不仅仅是停留在理论研
学位
目前电子设备与封装工艺朝着小型化、高集成化及高可靠性方向发展。在电路板级封装工艺中具备多引脚数量的球栅阵列封装(BGA)使用较广。在板级封装工艺中,常采用“基板/锡球/锡膏/基板”形式的混装焊点互联工艺。近年来随着封装行业环保意识与对低温封装工艺需求的逐渐提高,行业内开始选用低熔点、低成本的Sn58Bi锡膏,并开始采用多界面结构混装焊点“Cu基板/Sn58Bi锡膏/Sn3.0Ag0.5Cu焊球”。
学位
本文以二维氮化碳聚合物CN为研究对象展开一系列研究。CN本身具有光催化优势,在水解析氢、CO2还原、降解污染物等方面表现出良好的性能。同时,在光催化过程中,往往不可或缺贵金属助催化剂的存在,但其高昂的成本也是问题所在。因此,本文针对以上问题制定了将噻吩环嵌入CN共轭骨架,并进一步采用单原子Pt及钴基配合物助催化修饰的策略来提升其光催化性能。(1)以原位聚合分子掺杂和二次热剥离相结合,将噻吩环原位掺
学位
在铜火法精炼过程中,由于燃料燃烧、气体对物料的携带作用以及高温下金属的挥发和氧化等物理化学作用,产生高度富集铜、铅、锌、铟、铋、锑、锡、砷等挥发元素及其化合物的烟尘。若不进行回收处理,不仅会导致环境严重的污染,而且会造成资源严重浪费。本课题提出了充分利用铜冶炼生产过程中产出的废酸浸出铜火法精炼炉烟尘,以废治废,达到了回收有价金属和治理烟尘的目的。主要研究内容及结论如下:(1)采用低温真空蒸发法对铜
学位