基于混合语义学习的短文本表示与分类关键技术研究

来源 :战略支援部队信息工程大学 | 被引量 : 0次 | 上传用户:yjfc000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和社交媒体的飞速发展,用户每时每刻都会生成大量的短文本数据,如何对海量短文本数据进行高效、准确的特征表示与分类,已成为大数据挖掘和自然语言处理领域研究的重点。网络用户生成的短文本具有词语稀疏、语义模糊及内容表达随意等特点,导致短文本表示相关研究的难度增大,而混合语义学习可兼顾浅层统计特征与深度语义特征、全局特征与局部特征,成为近年来研究的热点。此外,文本分类作为最常见、应用最为广泛的自然语言处理任务之一,目前面临两项重大挑战:一是细粒度的短文本分类方法还比较欠缺、分类性能需进一步提升;二是现实中缺乏足够的标注样本,造成短文本分类模型泛化性能低下、不满足需求。因此,本文开展基于混合语义学习的短文本表示与分类关键技术研究,旨在为短文本表示、多标签分类及小样本条件下分类应用提供模型与技术支撑,主要研究内容和创新点包括以下三个方面:第一,提出基于ETI-AWE的短文本混合语义表示方法。首先,在不改变原文本语序和语义的基础上提出一种基于滑动窗口的文本序列扩展模型,并结合主题模型生成了文本的扩展主题信息(ETI)。其次,为降低直接使用基于深度语言模型的词嵌入而引入的噪音,提出一种TF-IWF与词嵌入模型相结合的注意力词嵌入模型(AWE),该模型可增加(降低)“高(低)价值”词语的词嵌入权重,提高基于词嵌入的文本表示的准确性。最后,为提高短文本特征表示的准确性和完整性,以文本长度为自变量设计ETI与AWE相结合的信息融合策略,用于对短文本进行混合语义表示。综合实验结果为,TW-W2V_DF在IMDB数据集上的表现比最优的FPW模型准确率提升了1.08%。此外,其他实验结果还表明,本文提出的ETI模型可提高短文本主题的质量,AWE模型能够提高词嵌入的准确性,基于ETI-AWE的混合语义表示方法能够提升短文本特征表示的完整性和准确性。第二,提出基于t ALBERT-CNN的短文本多标签分类方法。首先,在短文本混合语义表示和相关词嵌入模型研究的基础上,提出一种基于t ALBERT的细粒度短文本混合语义表示模型,提高多标签分类模型的输入质量。其次,提出基于t ALBERT-CNN的短文本多标签分类模型,该模型通过使用不同高度(宽度不变)的卷积核实现了多种词距内的特征提取,通过使用多个同一高度的卷积核实现了同一词距内多种特征的提取,通过将提取的特征向标签空间映射的方式解决了标签爆炸问题。最后,对基于样本的多标签分类评价指标进行系统的分析,并指出每种指标的优缺点以及可能产生的影响。在AAPD、IMDB和Reuters-21578等三个数据集上的实验结果为,在最苛刻的多标签分类评价指标子集准确率(SA)上,比表现最优的LDASeq2Seq_A模型分别提升了4.56%、1.64%和0.14%,结果表明本文的方法具有先进性和有效性。第三,提出基于MAML-FCS的小样本文本分类方法。首先在短文本混合语义表示和元学习方法研究的基础上,提出基于MAML_CNN的小样本任务基础特征学习模型,该模型通过在大量标注数据(与目标任务相近或相似领域)的小样本任务进行训练,使模型具有提取小样本任务基础特征的能力。其次,提出基于FCS的小样本分类模型,该模型在基础特征学习的基础上,通过目标任务中少数几个标注样本微调MAML_CNN模型使其具备提取目标任务特征的能力,之后通过计算质心的方式获取类别的一般表示(原型表示),并通过查询样本特征与原型表示的余弦相似度确定查询样本的类别。实验结果为,本文的方法总体上优于基线模型。例如,在ARSC数据集上,MAML-FCS比基于度量的方法平均准确率提高了0.33%~32.50%,比基于模型的方法平均准确率提高了0.69%~5.47%,比基于优化的方法平均准确率提高了0.51%~11.58%。结果表明,本文的方法可有效提升小样本文本分类模型的泛化性能和分类的准确率。本文提出的ETI-AWE混合语义表示、t ALBERT-CNN多标签分类、MAML-FCS小样本分类等方法是针对互联网用户生成的短文本数据挖掘与分类开展的研究,三者互相补充、互相联系,共同为相关应用提供基础技术支撑。
其他文献
目的:越来越多的研究发现成骨细胞对造血干细胞的发育调控发挥重要的作用,一旦成骨细胞受损,导致小鼠骨骼以及骨髓增生异常,主要包括HSCs克隆性增殖、血细胞计数下降、B淋巴细胞生成与巨核细胞发育异常,最终引起一些的疾病发生,如骨髓急性白血病。树突状细胞是目前抗原呈递能力最强的细胞,在适应性免疫和固有免疫中均发挥着重要作用,但到目前为止成骨细胞谱系对树突状细胞的分化发育还暂不明确。本课题旨在探究成骨细胞
目的:探讨CD137-CD137L信号通路通过调节Rab7介导的自噬促进血管平滑肌细胞(VSMC)和Apo E-/-小鼠主动脉粥样硬化斑块钙化形成机制。方法:利用慢病毒载体过表达或者敲减Rab7,同时以载脂蛋白E缺陷(Apo E-/-)小鼠和C57/6J小鼠的原代VSMC为模型,应用炎症因子及重组CD137L激活CD137-CD137L信号通路,研究CD137-CD137L信号通路通过调节Rab7
柬埔寨语句法分析对于柬埔寨语语言本体研究、NLP研究和教学实践等均具有十分重要的理论意义和实用价值。从语言学角度来看,柬埔寨语句法分析是上承词法分析、下启语义分析的关键环节,是表层语法结构与深层语义结构连接的枢纽。从NLP角度而言,柬埔寨语句法分析的成效,直接影响到问答系统、机器翻译、信息抽取等高级任务的运行效率,是柬埔寨语NLP研究的重点和难点。从教学实践角度来说,柬埔寨语句法分析是真正弄通学懂
面向军事领域的土耳其语-汉语神经机器翻译研究,属于低资源语言垂直领域机器翻译研究范畴。采用基于神经网络的机器翻译方法,通常需要将源语言词表的规模控制在3-5万之内,且神经机器翻译模型的训练往往需要大规模平行语料数据作为支撑。对于土耳其语这种低资源语言来说,必然面临着严重的数据稀疏问题,即常见土耳其语单词的数量可以达到百万量级,大量低频词将被处理为“未登录词”,进而影响翻译模型生成译文的流利程度。受
学位
在当今复杂多变的内外部经济环境下,国有企业的优势逐渐丧失,在激烈的市场竞争中,我们要像其它公司那样,独立应对各种成本、价格等激烈的竞争,要想在竞争中立于不败之地,为了增强国企的核心竞争能力,增强国企的经济实力,必须通过降低成本和效率来实现。本文从成本管理的概念入手,分析了我国国有企业在成本管理中存在的问题。最后针对性地提出相应的对策和措施,本文的研究目的是为了提高我国企业的竞争能力,为我国的企业进
化石燃料的极端消耗,导致严重的环境污染和能源短缺问题。电化学还原技术作为新型燃料电池的核心,能够有效地利用现有的清洁、可再生能源,缓解能源短缺和环境污染问题。电化学还原反应过程中电极电势以及反应动力学取决于催化剂的结构和活性位点的设计。贵金属催化剂由于价格高、储量稀少因素限制了其在工业上大规模应用。过渡金属铁基催化剂具有丰度高、导电性高、成本低等优点,被认为是能够取代贵金属催化剂的材料之一。然而,
作为典型的旋转机械,轴流吹风机由于具有风量大、结构尺寸小、通风效果好、效率高和节能等优点而被广泛应用于森林火灾扑救、园林枯枝落叶清扫、尘土碎石清扫、积雪清扫作等领域,在我国林业作业中发挥了重要的作用。但由于轴流吹风机工作环境特殊且内部包含复杂的三维流动,尤其在偏工况运行时,流道中产生旋转失速,对风机的稳定运行产生了严重的影响,无法满足多种工作条件下的高效率、低噪声和稳定运行的要求。因此,研究轴流吹
学生对于未来发展和社会发展所需要的基本素质和能力都在学校接受教育时逐渐形成,因此,在对学生进行教育的过程中,一定要不断地渗透核心素养的相关价值观念,以便让学生在学习基本课程的同时也能掌握更多对未来有益的知识和技能,辅助增强德育效果,进而推动学生的终身发展。因此,在初中道德与法治的教学过程中渗透核心素养教育,能够有效提高教学的目的性和针对性,并不断改变学生的思想观念和行为习惯,为以后学生的正确人格养
随着高频功率开关管的快速发展,以GaN为代表的高频功率器件得到广泛应用,最具代表是用于图腾柱PFC变换器。为了提升由于输入电压(VAC)波动而引起的输出电能质量问题,同时抑制由于高频功率开关管在输入电压(VAC)正负半周时的过零点附近引起电流冲击,导致电感电流畸变问题。本文提出一种基于输入电压(VAC)前馈控制的图腾柱PFC变换器,旨在消除因输入电压(VAC)异常而引起的输出电能质量不佳问题,同时