【摘 要】
:
文本分类作为自然语言处理(NLP)领域一个经典的研究问题已经得到了很深入的研究,但是传统的文本分类采用词频统计的方式表示文本,忽略了文本的语义信息。随着深度学习浪潮的
论文部分内容阅读
文本分类作为自然语言处理(NLP)领域一个经典的研究问题已经得到了很深入的研究,但是传统的文本分类采用词频统计的方式表示文本,忽略了文本的语义信息。随着深度学习浪潮的到来,深度学习以其强大的特征自学习能力为NLP相关任务提供了借鉴。本论文旨在基于深度学习技术进行文本分类研究。具体的研究工作如下:(1)词向量技术研究。传统的文本表示可能导致维数灾难的问题,且向量表示具有“词汇鸿沟”的问题。针对此问题本文根据先前学者对模型的研究,选择采用Word Embedding机制中的Skip-gram模型训练词向量,将文本数据映射到一个可以计算语义关系的低维稠密的实数向量空间。(2)提出WSDPooling文本分类模型。针对传统双向长短时记忆模型(BLSTM)对文本进行特征提取时忽略词语在不同的文档中含义可能不同甚至相反的问题,本文提出基于词义消歧的文本分类模型——WSDPooling。该模型使用BLSTM提取出的文本上下文表示对当前词向量进行词义消歧,将词义消歧后的文档特征图进行平均池化后直接输入到Softmax分类器中完成文本分类任务。(3)提出WSDCNN文本分类模型。针对WSDPooling模型忽略文档局部特征的问题,利用卷积神经网络(CNN)获取局部特征的能力,提出基于词义消歧卷积神经网络模型——WSDCNN。此模型在得到词义消歧文档表示特征图之后,引入卷积神经网络,结合LSTM提取全局特征和CNN提取局部特征的优势完成文本分类任务。(4)深入研究TensorFlow框架,在四个数据集上使用TensorFlow框架对提出的WSDPooling和WSDCNN两个模型进行实验,都表现出了比传统机器学习算法、LSTM模型、CNN模型及相关变种更好的效果,验证了循环神经网络和卷积神经网络的优势互补在文本分类任务中的有效性。
其他文献
全球约有60多个品种和超过300个品系的家兔。而饲养管理是养兔生产的关键环节,其饲养管理效果的好坏对兔的存活率、生长以及发育繁殖有着紧密的关系,现就不同季节以及不同生
阿朵:我父亲说读了你的《漂泊者的心灵轨迹》,如闻天籁,感到特别欣慰,感到在故国又遇见了一位知音。他说他现在万念归淡,唯一高兴的就是和心灵高洁又懂文学的朋友相逢,你就是
家蚕作为鳞翅目的模式昆虫,其神经系统属于腹神经索型。家蚕神经系统发育受到许多基因和小分子RNA的调控,如小RNA(microRNA,miRNA)、小干涉RNA(small interfering RNA,siRNA)和pi
针尖增强拉曼光谱(TERS)是拉曼光谱与扫描探针显微镜(SPM)的联用技术,能同时获得样品的形貌和振动光谱信息,分辨率最高达亚纳米级。因此,自2000年报道以来,TERS技术迅速在表
"风云四号"气象卫星将通过其多通道扫描成像辐射计对地球进行扫描和成像.根据此辐射计的特点,分析了影响图像配准精度的两大主要因素,并提出了用于消除这两大因素所带来的影
Objective:To investigate the effects of polysacharide MD 1 on eliminating free radical O -· 2,·OH and anti peroxidation on human erythrocyte membrane.
采用自主技术开发的水性聚氨酯胶粘剂,不仅性能突出,且价格比进口产品低20%。这一填补国内新型鞋用水性胶空白的技术近日通过了福建省科技厅组织的专家验收。水性聚氨酯多功
作为教师,都有自己第一堂课的经历。不论是新教师,还是老教师;不论是新课,还是旧课,每个教师对第一堂课的体验,对第一堂课的处理方式,方法,各有不同。即使是同一门课,现在和
目的评价深圳市龙岗区突发公共卫生事件应急培训的效果。方法对2009年参加深圳市龙岗区举办的全区卫生系统应急培训班学员相关测试资料进行统计分析。结果162名培训学员中,98
选取慢性病毒性乙型肝炎50例及丙型肝炎20例,应用胸腺肽α1和干扰素α1b联合治疗6个月,治疗后其PCRHBVDNA的阴转率为68.0%,PCRHCVRNA的阴转率为70.0%,较对照组(干扰素α1b)的PCRHBVDNA阴转率44.0%及PCRHCVRNA的阴转率30.0%为高(P<0.05)。通过治