网络垃圾信息识别方法研究

来源 :上海师范大学 | 被引量 : 2次 | 上传用户:qaz123_family
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络以一种全新的信息传播方式影响和改变着我们的生活,也让我们不经意进入了一种大众传媒的新时代中。在网络中人人都可以随时发布信息,这导致了网络信息的泛滥,同时也导致了网络垃圾信息的泛滥。近几年,深度学习技术迅猛发展,大大改变了自然语言处理领域的现状。本文针对Quora网站上的提问标题作为文本数据进行分析,希望识别出其中的垃圾信息即虚假提问。由于数据的特殊性,很多提问文本作为垃圾信息具有一定的隐蔽性。传统的基于词频的机器学习方法的表现受到了限制,这类问题对我们的模型和效果提出了新的要求。因此,本文同时运用机器学习和深度学习的方法,进行对比研究,探索各种方法在Quora数据集上的表现情况。本文采用的传统机器学习方法分别是朴素贝叶斯模型和逻辑回归模型。在传统机器学习方法中,我们通过TF-IDF技术将文本转化成向量,作为模型的输入,通过对模型超参数进行调整,提高模型分类效果,然而,这两种单个模型的表现均不优秀。因此,本文又将两种分类的结果作为输入,用岭回归构建堆叠法集成模型,并通过调整正则化项系数,使模型效果提升,同时避免过拟合。最优秀的传统机器学习模型达到了0.60436的F1-score。在本文采用的深度学习方法中,本文使用词嵌入技术将每个词转化为固定维度的向量,一篇文档则转化成矩阵形式,作为模型的输入。本文共选取了三种预训练词向量,并一一进行实验。然后,本文依次使用了卷积神经网络,循环神经网络,胶囊神经网络作为分类器进行预测分类。在卷积神经网络中,本文采用的架构是通过四组卷积层和池化层得到输出结果,再通过平坦化以及全连接层预测最后的分类。在循环神经网络中,本文采用的架构是词嵌入层加上两个双向循环神经网络再加上全连接层预测最后的分类。在胶囊神经网络中,本文采用的架构是词嵌入层加上空间随机失活层加上双向门限循环单元层加上胶囊神经网络,最后用全连接层预测最后的分类。实验结果表明,三种深度学习的方法效果均远优于传统机器学习方法,最优秀的是胶囊神经网络,得到测试集F1-score为0.69782。但是,深度学习模型也有其不足之处,由于其参数量较大,模型训练所需时间较长。如何在不损失模型精度的同时,提升模型的训练效果,将会成为今后研究的重点。
其他文献
应用比色法测定霞烟鸡、东兰乌鸡及鸿光黑鸡胸肌和腿肌肌肉组织的基因组DNA甲基化水平,并分析了其与肉质性状的相关性,以此来探讨广西不同地方品种鸡肌肉组织基因组DAN甲基化
以多元醇与多元酸制成的聚酯,通过接枝合成引入丙烯酸低分子量聚合物成为丙烯酸聚酯,以它为成膜物配制的溶剂型丙烯酸聚酯外墙涂料,具有粘接力强、耐候性好、耐水耐污秽、快
目的探讨人工关节置换术与碳酸钙及鲑鱼降钙素治疗粗隆间骨折的临床效果。方法选取我院收治的粗隆间骨折患者82例,随机分为研究组和对照组,各41例。两组患者均行人工关节置换
本文为研究不同性质人力资本对装备制造产业的影响,采用文献综述法对相关研究进行总结,应用波特的钻石模型对辽宁省装备制造产业升级能力进行剖析并提出假设、构建计量模型:
杜氏盐藻(Dunaliella salina)是一种自然生活在海洋、盐湖等盐度较高区域的绿藻,是一种低等真核单细胞微藻。在人工控制和胁迫的条件下,能大量合成和积累β-胡萝卜素,因此它
为定量评价赣州地区30 a来水土流失治理对生态环境变化的影响,基于水土流失状况构建了赣州市生态安全评价指标体系。利用“压力—状态—响应”模型,从水土流失角度,采用频度
心肾通过主宰胞宫的藏泄开阖调节女性生殖节律。女性多气少血的生理特性和妇科致病因素使心肾不交成为女科疾病最常见的病机。交济心肾法以整体观念为指导,通过对心肾二脏或
随着社会经济的发展与科学水平的提高,对建筑工程施工管理进行一定的创新不仅是经济知识时代的需求,同时也是一个企业制度建设并发展的必要条件。在建筑施工过程中,为了使建
吻合口瘘是食管癌术后的常见并发症,也是最严重的并发症,又是术后主要死因之一,发生率为3%~5%,国内资料报道病死率达33.2%[1],一旦发生,治疗棘手,给医患带来巨大压力。本研究
利用双道次压缩的方法,在Gleeble 1500热模拟实验机上研究了低碳钢SS400在变形间隔时间内奥氏体的软化行为,以便为制定合理的细化晶粒轧制工艺提供实验和理论基础.采用后插法计