面向类别一致性的深度文本分类技术研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:reich_ss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类作为自然语言处理任务中重要的基础任务,根据训练集样本和测试集样本所属的类别集合是否一致,可分为封闭集文本分类和开放集文本分类。如今,解决该任务的主要研究集中在深度学习模型,因此本文以类别一致性为切入角度,同时对两类文本分类任务的深度学习模型进行研究。神经词袋模型是一类解决封闭集文本分类的简单有效模型,然而经过分析,目前该类模型在生成文本向量的时候没有考虑词语对分类的不同区分能力,同时也没有考虑词语的有序性。因此,本文设计了加权词嵌入模型来解决第一个不足和设计了融合多元词的加权词嵌入模型来进一步缓解第二个不足。本文在五个数据集上评估提出的模型并验证了模型的有效性;同时本文通过实例分析和权重值可视化来验证考虑词语对分类的不同重要程度和词语的有序性的必要性。卷积神经网络模型也是一类解决封闭集文本分类的高效模型,然而经过分析,该类模型的卷积操作不擅长捕捉长距离的局部特征,当捕捉的局部特征的长度越长时,模型的参数量也会随着增大,从而导致硬件成本的增加;除此之外,在生成局部特征向量的时候,同样无法显性地考虑词语对分类的不同区分能力。因此,本文设计了融合加权多元词的卷积神经网络模型来缓解两个不足。本文在五个数据集上评估提出的模型并验证了模型的有效性;同时分析了模型的参数量和捕捉的局部特征的长度之间的关系。“深度开放分类模型”是解决开放集文本分类的经典模型,是不可增长型模型中分类性能最佳的模型。然而经过实验观察,可以发现模型中最重要的概率值高斯分布假设并不是一个容易满足的假设。因此,本文设计了开放分类统一框架,通过混合损失函数、批标准化和数据增强三个策略来减小训练集和测试集同类别文本之间的分布差异,使得框架更加满足概率值高斯分布假设。本文在两个数据集上进行了多组实验分析,验证了框架的有效性;同时还设计消融实验分析了混合损失函数、批标准化和数据增强的有效性。
其他文献
物理压力测量在可穿戴电子、机器人等领域非常重要。采用柔性压力传感器阵列可以监测人体与外界环境之间的物理压力,也可以作为柔性机器人皮肤,感知机器与外界环境之间的物理
本课题我们拟通过研究缺氧诱导因子-1α(hypoxia-inducible factor-1α,HIF-1α)与长链非编码RNA(long noncoding RNA,lnc RNA)中的ANRIL(antisense non-coding RNA in the I
目的:检测Sp1在NK/T细胞淋巴瘤(NK/TCL)细胞株中的表达特点,探讨Sp1对肿瘤细胞侵袭的作用及其可能的调控机制。方法:RT-PCR、Real-time PCR、免疫荧光和蛋白印迹技术测定NK/T
近年来工业4.0概念逐渐兴起,数据共享是其重要特征,这对工业现场信息互联技术提出了很高要求。为此,OPC基金会提出了新一代工业互联技术统一架构OPCUA,它是一种安全、可靠、
我国《刑法修正案(八)》以及《刑法修正案(九)》均废除了若干法定最高刑为死刑的罪名,这离我国废除死刑的目标又近了一大步。但是,依据中国国情,在一定的时期内立法上仍然会
作为一种即传统又常见的经济型犯罪,职务侵占罪一直活跃在司法机关的视线中。但由于社会的跨越式发展和不断变化,对于现实中许多犯罪行为以职务侵占罪认定时,总是遇到许多疑
脑机接口(Brain-Computer Interface,BCI)作为多学科交叉应用的新兴研究技术,受到等众多领域的青睐,比如,神经科学、人工智能、模式识别。脑机接口是一种全新通信技术,可以不
得益于深度学习技术的发展,基于这一技术的各类方法在模式识别、自然语言处理等领域中取得了傲人的应用成果,极大地推动了智能算法的应用落地进程,但基于深度学习理论的各类
细胞跟踪是显微镜图像领域重要的研究课题之一。细胞存在形态变化、分裂行为等,与一般的目标跟踪相比,细胞跟踪更具挑战性。当前主流的细胞跟踪算法通常以细胞的检测或分割为
目前,我国动车组的维修体制还是以计划预防修为主,需要对动车上装配的零部件进行定期检修。动车组列车齿轮箱内的单唇密封圈是保持列车牵引系统正常运行不可或缺的非金属配件