【摘 要】
:
近几年,互联网技术以日新月异的发展速度呈现在了大众的面前,其承载的信息量更是随着大数据和人工智能新技术的发展逐年飙升。在互联网信息的主要传播媒介中,每天爆炸增长产生的短文本信息占据了很大的比例。然而由于短文本具有特征稀疏、上下文联系弱等特点,传统文本分类方法用于短文本信息提取时变得越来越困难。深度学习理论自提出以来就引起了学者们的关注,最具有代表性的就是卷积神经网络模型在文本分类任务中的应用,解决
论文部分内容阅读
近几年,互联网技术以日新月异的发展速度呈现在了大众的面前,其承载的信息量更是随着大数据和人工智能新技术的发展逐年飙升。在互联网信息的主要传播媒介中,每天爆炸增长产生的短文本信息占据了很大的比例。然而由于短文本具有特征稀疏、上下文联系弱等特点,传统文本分类方法用于短文本信息提取时变得越来越困难。深度学习理论自提出以来就引起了学者们的关注,最具有代表性的就是卷积神经网络模型在文本分类任务中的应用,解决了传统文本分类方法缺乏自动提取文本特征能力的问题,并且表现出了不错的应用价值与发展前景。因此本文结合卷积神经网络模型,针对短文本分类完成了以下研究工作:首先,在国内外短文本分类方法的研究背景下,本文深入研究了传统机器学习文本分类方法和短文本分类相关的基础理论,剖析了目前短文本分类方法可以借鉴和待改进的地方。其次,针对传统的多尺寸滤波器卷积神经网络在文本分类过程中只能获取简单的词向量特征而忽略了文本上下文重要特征的问题,本文提出了一种基于N-Gram和卷积神经网络的短文本分类方法。该短文本分类方法以多尺寸滤波器卷积神经网络为基础,采用N-Gram模型的滑动窗口机制来获取这些短文本的上下文关联关系。同时为了提取到短文本的关键特征,在分类模型中应用了注意力机制,并且使用两种不同池化方式相结合的操作,使得分类的结果更加准确且可靠。实验结果证明了本文提出的基于N-Gram和卷积神经网络的短文本分类方法具有很好的分类效果与性能。最后,针对传统的短文本分类方法在面对短文本数据稀疏和语义特征不足时,分类表现效果不佳的问题,本文提出了一种基于卷积神经网络和语义扩展的短文本分类方法。首先在短文本预处理过程中,通过发现可能存在的拼写错误来提高预训练词向量表的覆盖率。然后针对短文本所能提供的语义信息有限的问题,利用注意力机制来发现短文本相关词,并引入外部知识库对短文本及其相关词进行概念化,扩展了短文本的语义。最后结合多尺寸滤波器卷积神经网络模型提取短文本特征,完成分类过程。实验结果表明,该方法在短文本分类任务中是可行的,且分类效果明显。图13幅,表4个,参考文献56篇。
其他文献
作为新兴的食疗保健水果,近年来市场对三叶木通产品的需求剧增,苗木资源供不应求。为了满足我国特别是西南地区三叶木通快速发展对高质量苗木的需求。本研究通过探索不同消毒处理方案、不同外植体,培养基类型及激素组合对愈伤组织形成及生长的影响,筛选诱导腋芽萌发及生根生长的最佳激素组合,确定外植体最佳抗褐化剂。同时,根据最佳抗褐化剂下的外植体总酚含量及相关酶活性变化的关系,推测其抗褐化机理,为认识三叶木通褐化提
研究开发一种新型鸡肉味豆角辣条,用长豆角代替面制品或豆制品,改变食盐用量、干红椒用量、煮制时间、炸制时间等因素,以感官评定值为响应值,对豆角辣条的加工工艺进行正交优化.结果表明,在按比例加入维持其他配料如淀粉、料酒、生抽、姜、花椒、八角等不变的情况下,鸡肉味豆角辣条的最佳制造工艺为食盐用量9 g/L、干红辣椒用量45 g/L、豆角煮制时间10 min、豆角炸制时间30 s.在此工艺条件下制作的豆角
从头序列组装的目的是获取完整的基因组,有助于后续的基因识别、基因组比对和结构变异检测等研究。Scaffolding方法是从头序列组装中一个重要步骤,主要目的是确定contigs的顺序和方向,使其更加连续和完整。但是,现有的组装工具还不能生成完整的基因组序列,而且结果中往往包含一些组装错误。Hi-C读数具有交互程度与线性距离成反比的特征,能够有效地判断contigs的顺序和方向信息以及检测conti
<正>高中阶段数学的学习离不开解题,习题课教学就是围绕解题展开.习题课教学主要有:深化基础知识、消除学习障碍、纠正存在问题、梳理知识结构、完善知识系统、提高数学能力、发展核心素养等功能.根据教学内容的特点与目标,习题课的类型分为以下几种:单元知识完结后的习题课、章节知识完结后的习题课、模块知识完结后的习题课、主干知识完结后的习题课、专题问题为主题的习题课.在新课程理念影响下,对高中数学习题课的教学
魔芋(Amorphophallus)又名磨芋,是天南星科(Areaceae)魔芋属(Amorphophallus Blume)多年生草本植物,随着科技的进步和人们生活水平的提高,对高品质魔芋产品的需求日益增加,四川地区种植的魔芋品种单一,多为花魔芋,而花魔芋对软腐病的抗病力差,繁殖力低下,已经满足不了当前魔芋行业的生产发展,而珠芽魔芋抗病性强、球茎品质高、繁殖能力强的特点刚好满足了当前四川省魔芋产
猪伪狂犬病病毒(PRV)、猪圆环病毒2型(PCV2)分别引起猪伪狂犬病和猪圆环病,对我国猪养殖业造成了重大经济损失且严重阻碍了猪养殖业发展,被国家农业农村部归为二类动物疫病。近年来猪伪狂犬病病毒出现了新的变异毒株,其传染性及病毒毒力均强于经典毒株,导致Bartha-k61免疫猪群仍出现PRV大流行的态势;PCV2攻击猪的免疫系统,引发免疫抑制,常常呈现出与PRV、PRRSV、PEDV及某些细菌性病
柑橘是我国栽培面积最大产量最高的果树,其生产正受到黄龙病的严重威胁。黄龙病自记载以来的百余年中,持续给全球的柑橘产业带来了严重的经济损失。因其致病菌Candidatus Liberibacter spp.难以纯培养,致病机理不甚了解,加之其传播隐蔽,具有潜伏期,且生产上缺乏对其有抗性的柑橘品种,黄龙病素有柑橘‘癌症’之称。‘蒲江香橙’来自于四川省蒲江县的野生香橙(Citrus junos Sieb
新发展理念指引下,特色农业产业由加速“增量”转向内化“高质量”的历史发展阶段,肩负起农业农村现代化、城乡融合、共同富裕等历史任务,有鉴于此,本文对宝兴县特色农业产业发展展开研究。在研究视角上,基于宏观政策引领和地方的实践逻辑,创新地将乡村振兴、共同富裕的价值导向纳入宝兴县特色农业产业发展议题。在研究设计上,前往宝兴县开展实地调研,与相关职能部门长期从事相关工作的人员访谈,入户开展问卷调查,收集了可
矿产作为我国经济社会发展的重要支柱产业,一方面开采利用对人类社会文明的发展产生了推动作用;另一方面开发利用也带来了景观破坏、压占土地资源、地质灾害频发及环境污染等生态环境问题。如何有效识别、监测矿山开采导致的生态环境问题,成为矿山企业及相关管理部门关注的焦点。嵩县作为河南省矿产资源大县,矿藏资源丰富,已查明矿种约35种,露天矿山生态环境问题较为突出,因此针对嵩县露天矿山开展生态环境动态监测方法研究